Introduction
Principe
Le moissonnage est une technique de récupération automatisée de metadonnées en “pull” : c’est le serveur data.gouv.fr qui va chercher les metadonnées sur les sites distants.
Moissonnage vs. API
La publication par l’API vous donne un contrôle total sur le contenu de chaque champ, le moment de la soumission… tandis que le moissonnage, s’il ne nécessite pas de développement spécifique sur votre plateforme, est un fonctionnement fortement contraint.
Moissonnage | API | |
---|---|---|
Pré-requis | Métadonnées dans l’un des formats supportés | Capacité de développement |
Déclenchement | Contrôlé par data.gouv.fr | Déclenché au besoin |
Champs | Modèle imposé par protocole | Au choix du développeur |
Moissonnage vs. geo.data.gouv.fr
Attention: geo.data.gouv.fr n’est plus activement maintenu.
Plus d’informations à propos de l’extinction de geo.data.gouv.fr sont disponibles ici.
En plus du moissonnage et de l’utilisation de l’API, il existait un autre moyen automatisé de récupération des métadonnées sur data.gouv.fr : geo.data.gouv.fr, anciennement inspire.data.gouv.fr. Ce site pivot permettait de récupérer les métadonnées de jeux de données exposées selon la directive européenne Inspire (obligation légale de publication des metadonnées geographiques selon le modèle de données ISO 19115, au format de données ISO 19139).
Du fait de l’extinction à venir de la plateforme geo.data.gouv.fr, vous pouvez au choix:
- attendre que le Geocatalogue publie directement des flux DCAT depuis vos flux Inspire
- si vous utilisez Geonetwork, utilisez son endpoint DCAT alternatif
- vous pouvez également utiliser le moissonnage DCAT avec un grand nombre de logiciels compatibles ou avec un flux à façon
- enfin, nous supportons également le moissonnage des plateformes CKAN et OpenDataSoft
Moissonneurs disponibles
Aujourd’hui, data.gouv.fr peut moissonner les plateformes ou formats suivants :
- DCAT
- CKAN
- DKAN, une variante du moissonneur CKAN
- OpenDataSoft ODS
- MAAF : un moissonneur spécifique au Ministère de l’Agriculture et de l’Alimentation
Métadonnées communes
Les jeux de données moissonnés possèdent les attributs suivants dans leur champ extras
pour la traçabilité :
Attribut | Contenu |
---|---|
harvest:domain |
Nom de domaine moissoné |
harvest:source_id |
Identifiant technique du moissonneur |
harvest:remote_id |
Identifiant distant du jeu de données |
harvest:last_update |
Date du dernier moissonnage |
Options
Chaque type de moissonneur possède des options spécifiques, ainsi que des options communes. Aujourd’hui, la seule option commune est la possibilité de filtrage.
Filtrage
La filtrage donne la possibilité d’inclure ou d’exclure un sous-ensemble de jeux de données du moissonnage.
Lorsqu’un ou plusieurs filtres sont déclarés, seuls les jeux de données remplissant toutes les conditions (ET) seront traités.
Portail multiproducteur : restriction à une organisation
Exclusion de mots-clés
Combinaisons multiples
Rapport de moissonnage
Chaque moissonnage donne lieu à un rapport accessible depuis l’interface d’administration de data.gouv.fr.
Il vous permet de comprendre ce qu’il se passe et, le cas échéant, de corriger les erreurs existantes. Il vous permettra aussi de vérifier que le filtrage se fait bien si vous en avez saisi un.
Vue synthétique
Détails d’un jeu de données
En cas d’erreur
- 1 correspond à l’erreur technique formulée de façon compréhensible pour un humain
- 2 contient la “stacktrace” de l’erreur qui servira à ceux qui développent des moissonneurs ou contribuent aux existants.
Limites
Le moissonnage n’a aucune connaissance de l’usage que vous faites du modèle de données. Il s’appuie uniquement sur les spécifications de chaque protocole ou plateforme pour récupérer les informations.
Il y a donc certaines limitations techniques liées aux spécificités de chaque plateforme (décrites sur la page de chaque moissonneur).
Certaines limitations sont communes et détaillées ci-dessous.
Correspondances des métadonnées
Certains champs du modèle de data.gouv.fr possèdent un équivalent qui peut être sous-spécifis dans certains protocoles ou sur certaines plateformes, ou bien alors être spécifié différement, sur plusieurs champs… Dans ce cas, la valeur du champ est récupérée en “best effort’, c’est-à-dire qu’elle va être devinée en fonction des élements à disposition. Se référer à la page de chaque moissonneur pour savoir lesquels sont dans ce cas pour chaque implémentation.
Suppression à la source
Pour le moment, les moissonneurs ne gèrent pas la suppression à la source et ce pour éviter les suppressions en masse par erreur, ce qui entrainerait une perte des statistiques, des discussions et des ressources communautaires de chaque jeu de données.
Dans le cas d’une suppression ponctuelle, nous vous invitons à supprimer manuellement le jeu de données moissonné qui a perdu sa source.
Dans le cas d’une suppression massive de jeu de données, veuillez nous contacter afin de trouver une solution satisfaisante.
Changement d’identifiant
Les moissonneurs utilisent les identifiants de jeu de données distants pour retrouver leurs données entre deux moissonnages. Il est donc important de veiller à ce qu’un jeu de données conserve son identifiant au fil du temps et des modification successives. Dans le cas contraire, cela donnera lieu à la création d’un doublon.
Il faut donc aussi veiller à ne pas supprimer puis recréer un jeu de données ou une ressource pour faire sa mise à jour.