Webinaire DataGrandEst
Le 03 Février 2023

Découvrez comment collecter automatiquement des données sur le web!

                 

Publié sur le 03/02/2023

 

Avec l'ouverture des données publiques, des services se sont multipliés pour faciliter l'accès à des sources de données directement sur le web. Dans ce webinaire, nous verrons que savoir utiliser ces services, par exemple en récupérant des données avec des API, devient une compétence importante pour tout utilisateurs de données.

Intervenants

  • Julien Guérard (SGARE Grand Est)
  • Alain Roan (Regroupement Réalia)
  • Guillaume Ryckelynck (Région Grand Est)
  • Clément Bouchère (Région Grand Est)
  • Enora Lericolais (Région Grand Est)

 

A noter : les présentations ci-dessous sont diffusées à partir de la chaîne YouTube DataGrandEst. Si vous rencontrez des difficultés pour les visionner, nous vous invitons à utiliser les liens "Télécharger la vidéo".

 

Regarder le webinaire complet

 

Webinaire complet

 

Ou choisir une vidéo selon l'intervention

 

La collecte de données sur le web : outils et objectifs
Julien Guérard – SGARE Grand Est

Télécharger des fichiers pour exploiter des données directement dans Observable
Alain Roan – Groupement Réalia

Alimenter des dataviz via des API : utilisation de Javascript
Guillaume Ryckelynck – Région Grand Est

Utiliser l'API de la SNCF avec R
Clément Bouchère – Région Grand Est

Débutant ou expert : 3 manières de collecter les données OpenStreetMap
Enora Lericolais – Région Grand Est

 

 

FAQ

Lorsqu’une application utilise une API pour récupérer des données, elle dépend du service offert par celle-ci. Il y a donc un risque pour le fonctionnement de votre application lorsque les services offerts par l’API sont indisponibles ou que les modalités d’usage changent.

Il existe de nombreuses ressources pour se former à Javascript. Le mieux est de commencer par la documentation officielle et les tutoriels associés sur MDN 

Observable propose plusieurs offres. L’offre gratuite permet de travailler avec des notebook visibles de tous.
L’offre payante permet de travailler en mode privé à partir de $12 /mois. Tarifs d'Observable

Tout est sur Amazon/AWS. Les données transitent de leur source au navigateur de l'utilisateur. Certains utilisateurs l'héberge eux mêmes, mais la solution n’est pas facile à mettre en œuvre.

Jupyter est un environnement de développement dédié à python. Toutefois, dans Jupyter, il est aussi possible d’utiliser des documents Quarto qui supportent Observable JS

Observable est un environnement de développement collaboratif disponible dans un navigateur web. Il permet de concevoir et diffuser des visualisations de données développées en Javascript. De nombreux data analyst utilisent Observable. Un concepteur peut créer des classeurs contenant des visualisations interactives et paramétrables et les partager avec d’autres agents.
Des exemples sont proposés par le cartographe Nicolas Lambert.
Il a également développé une libraire de cartographie BertinJS 

Pour intégrer un composant web il faut simplement pouvoir ajouter quelques lignes de codes dans la page HTML. Donc l'accès au contenu de la page au format HTML doit suffire. Il n'est généralement pas nécessaire d'avoir un accès direct au serveur. Cela fonctionne par exemple avec des CMS comme Drupal ou Wordpress dans l'interface d'édition en ligne. Il peut exister des cas particuliers et des limitations liées à la configuration du serveur (proxy, sécurité, etc.) ou du CMS. Si nécessaire, n'hésitez pas à nous contacter pour que l'on puisse analyser ensemble le problème.

Dans le projet présenté par Guillaume, la librairie est chargée directement en début de script en pointant vers une ressource disponible sur le web. Il n’est donc pas nécessaire d’installer la librairie sur son serveur.

Tout dépend du projet et du problème à résoudre. C’est une question de méthode qui s’évalue lors de la construction de votre projet de développement et de la conception de votre chaîne de traitement.

La page dynamique CoTer présentée par Guillaume est bien hébergée sur DataGrandEst. Toutefois, à ce jour, DataGrandEst ne propose pas de service d’hébergement de pages dynamiques en-dehors de ces projets propres.

Les termes marques blanches et marques grises ne font pas référence à la présentation de l'API de la SNCF mais à l'API du SIM FLUO Grand Est qui permet la réutilisation de données de transports en communs à l'échelle de la région Grand Est.

  • Une marque grise repose sur le principe commercial de mise à disposition d'outils ou de produits en citant explicitement la marque et l'origine de l'information transmise.
  • Une marque blanche est un service ou un produit conçu par une entreprise, que d'autres entreprises reprennent à leur compte et commercialisent sous leur propre marque.

 

Le format NEPTUNE est un format de donnnées d'offre théorique de transports collectifs. Concrètement, un fichier au format NEPTUNE est un fichier texte (.xml) qui peut être assez complexe. Ce format est généralement peu utilisé par les professionnels du monde du transport qui préfèrent souvent la simplicité du format GTFS. Le format NETEX est quand à lui le nouveau format de référence des données d'offre à l'échelle européenne.
Plus d'information sur le format NEPTUNE

Il existe des MOOC de formation à R, notamment sur France université numérique.
Il existe également des supports de formation sur MTES
Une liste de ressources sur R et français est aussi disponible sur Github
Enfin, nous avions également organisé un webinaire sur R et Python que vous pouvez voir sur notre chaîne Youtube :

OverPassTurbo permet de récupérer les données vectorielles et les attributs associés de la base OpenStreetMap. Les fonds de carte d’OpenStreetMap sont quant à eux disponibles en flux
Un participant nous propose des ressources complémentaires : https://www.linkedin.com/posts/jean-christophe-becquet-b0131b210_openstreetmap-opendata-mo... et https://www.linkedin.com/posts/jean-christophe-becquet-b0131b210_file-apitux-parc-haut-jur...