Vers un modèle de sujets basé sur les concepts d’AGROVOC pour les produits de recherche et de diffusion de projets multi-acteurs

FAO/Luis Sánchez Díaz

A use case by Hercules Panoutsopoulos, Agricultural University of Athens

Durant les sept années de mise en œuvre du programme Horizon 2020 Framework Programme, les investissements de la Commission européenne consacrés à des projets de recherche et d’innovation concernant l’agriculture, la sylviculture et le développement rural ont représenté près d’1 milliard d’euros. Ces projets multi-acteurs (on trouvera des détails sur le concept et la portée des projets multi-acteurs dans le rapport PEI-AGRI « Horizon 2020 Projets multi-acteurs », 2017 eip-agri_brochure_multiactorprojects_2017_fr_web.pdf) ont abouti à un grand nombre de produits de recherche et de diffusion (appelés « objets numériques ») qui fournissent d’importantes informations sur les résultats de recherche, les pratiques optimales et les innovations.

Pourtant, la consultation et la réutilisation de ces objets numériques ont été limitées. Comme il arrive pour nombre de projets de recherche, ces produits cessent fréquemment d’être accessibles une fois les projets achevés. Il en résulte que les différentes parties prenantes agricoles n’ont pas de grandes possibilités d’accéder aux connaissances disponibles pour la poursuite de la recherche-développement. Dans ce contexte, le projet EUREKA a été conçu pour offrir une solution à long terme, en créant un dépôt permanent pour la collecte et la diffusion de contenus numériques et d’ensembles de données concernant l’agriculture. 

EUREKA est un projet financé par l’Union européenne (UE), qui fait partie du programme Horizon 2020 (financé au titre de la convention de subvention N° 862790) et a pour objectif principal de renforcer et d’améliorer la circulation des connaissances et des innovations agricoles aux niveaux européen, national et régional. Grâce au projet, on met au point FarmBook, dépôt numérique (élaboration en cours) où pourront être sauvegardés et partagés à titre permanent les objets numériques créés lors des projets multi-acteurs précédemment financés. Il faudra que le dépôt puisse traiter des objets numériques hétérogènes (documents, fichiers vidéo et audio, images, ensembles de données de valeurs numériques résultant de mesures prises sur le terrain ou transmises par des capteurs, etc.) disponibles sous des formats divers. Pour faciliter l’accès aux objets numériques et leur réutilisation, FarmBook tire parti de normes sémantiques du Web et des principes de données FAIR (Wilkinson, et al., 2016).

Le travail de conception d’EUREKA a comporté la création d’une structure légère (du point de vue sémantique) à base de graphes pour décrire les sujets des objets numériques de FarmBook, combinant la catégorisation des sujets agricoles de la taxinomie du réseau PEI-AGRI avec le thésaurus d’AGROVOC. PEI-AGRI (Partenariat européen d’innovation pour la productivité agricole et la durabilité) est une initiative qui a pour objectif d’offrir aux cultivateurs et aux sylviculteurs le soutien et les motivations nécessaires pour qu’ils puissent réseauter, innover et partager leurs expériences et leurs pratiques.

Dans ce contexte, le portail EIP-AGRI* sert de pôle pour la communauté agricole européenne, en donnant accès à des ressources diverses. Les contenus auxquels on peut accéder depuis le portail (par ex. des résumés de pratiques, petits textes résumant des informations ou des recommandations concrètes, parus au cours de la réalisation de projets multi-acteurs, et destinés à servir à divers acteurs de la chaîne de valeur) sont marqués avec les catégories de sujets de la taxinomie de sujets agricoles du PEI-AGRI. L’utilisation de cette taxinomie par la communauté en cause est très étendue, de sorte qu’il a été décidé d’en faire l’ossature de notre modèle de sujets.

Un groupe d’organisations partenaires de projets ont collaboré pour mettre au point le modèle de sujets, dont l’Université agricole d’Athènes (Agricultural University of Athens), l’université de Maastricht (Maastricht University, l’Institut de l'Elevage, l’université de Gand (Ghent University), l’Institute of Agricultural Economics Nonprofit Kft et le Leap Forward Group.

Description du cas d’utilisation

La méthode suivie pour la mise au point du modèle de sujets est indiquée dans la figure 1.

Figure 1. Méthode suivie pour la création du modèle de sujets du projet EUREKA. 

Source : projet EUREKA, 2021



Examen de la taxinomie PEI-AGRI de sujets agricoles

Les catégories de sujets dans PEI-AGRI ont été déterminées de manière empirique, à partir de la base, en fonction des problèmes évoqués dans les produits de projets multi-acteurs de recherche et d’innovation. Ces catégories de sujets n’étaient assorties d’aucune définition. On a donc entamé un examen afin de proposer pour chacune de ces catégories une définition fondée sur les publications consacrée à ce domaine. Les définitions proposées ont servi à déterminer les concepts d’AGROVOC correspondant à ces catégories et à cerner le réseau sémantique de chacune des catégories de la taxinomie de PEI-AGRI. La figure 2 montre les catégories de sujets de PEI-AGRI.

Figure 2. Les catégories de sujets de PEI-AGRI, adaptées du portail EIP-AGRI

Source : projet EUREKA, 2021



Création d’un réseau sémantique pour chacune des catégories de sujets de PEI-AGRI 

Chaque catégorie de sujets de la taxinomie de PEI-AGRI a été liée à des concepts définis dans le thésaurus d’AGROVOC. L’objectif était d’identifier les concepts d’AGROVOC qui ont un champ plus large, plus étroit ou analogue à chacune des catégories de sujets de PEI-AGRI. Les relations de ce type ont été codées dans notre modèle selon les propriétés codes suivantes de la spécification SKOS : skos:broader [plus large], skos:narrower [plus étroit], et skos:closeMatch [correspondance proche] (Miles & Brickley, 2005). On trouvera dans le tableau 1 ci-après une liste des concepts d’AGROVOC identifiés par le groupe d’experts de domaines comme plus larges, plus étroits ou analogues à la catégorie de sujets « Gestion des paysages/Aménagement du territoire » de la taxinomie de PEI-AGRI. On a fixé des liens modélisés selon ces types de relations, à partir des définitions tant des catégories de sujets de PEI-AGRI (obtenues à l’étape précédente) que des concepts d’AGROVOC.

Table 1. Catégories de sujets de PEI-AGRI et termes d’AGROVOC de champ plus large, plus étroit et analogue. Source : projet EUREKA, 2021

Ayant mis en lumière les types de relations exposées plus haut, on a de plus associé chacune des catégories de sujets de PEI-AGRI à un ou plusieurs secteurs de l’agriculture (« culture », « élevage », et « sylviculture », par ex. ; l’aquaculture a été omise intentionnellement parce qu’il n’y a pas de projets Horizon2020 multi-acteurs qui aient concerné ce secteur spécifique) et/ou à des thèmes intersectoriels (à savoir « environnement », « société » et « économie »).

Ces associations, mises en évidence sur la base de l’expertise du groupe d’experts des domaines, ont été codées dans le modèle de sujets avec SKOS. Les concepts du thésaurus d’AGROVOC, les secteurs de l’agriculture et les thèmes intersectoriels, de même que les propriétés SKOS qui les relient à chacune des catégories de sujets de PEI-AGRI, forment le réseau sémantique de chacune des catégories de sujets. La figure 3 ci-après montre le réseau sémantique de la catégorie de sujets « gestion des paysages et des terres ». 

Figure 3. Réseau sémantique de la catégorie de sujets de PEI-AGRI « gestion des paysages et des terres ». Source : projet EUREKA, 2021



Assemblage du modèle de sujets 

Une fois les réseaux sémantiques de toutes les catégories de sujets de PEI-AGRI intégrés dans un graphe, on a procédé à la construction définitive du modèle de sujets du FarmBook d’EUREKA.  

Benefits of using the AGROVOC thesaurus

The creation of a topic model based on the use of AGROVOC concepts is intended to improve the search and navigation operations in the FarmBook platform. Specifically, the key benefit coming from the use of AGROVOC is the availability of labels in multiple languages as this can be used for multilingual searches. According to Celli and Keizer (2016), the idea behind the concept of multilingual search is that the user can get results in languages other than the one in which the search operation was executed.

By associating each of the agricultural topics in the EIP-AGRI’s taxonomy with AGROVOC concepts of a broader, narrower and similar scope, the user can indeed receive an enhanced set of results (covering issues of a broader, narrower, or similar scope to a specific topic - to deliver enhanced sets of search results, the AGROVOC concepts have also been used as keywords for the annotation of FarmBook’s digital objects.) in languages other than that of the search terms/query.

This way we can provide solutions to exhaustive research (i.e., allow the user to find anything available on a specific search topic) and exploratory seeking (i.e., provide the user with some “good” results in case of not being sure about what he/she is looking for) needs according to the categorisation of information needs mentioned by Rosenfeld et. al. (2015). 

Avantages de l’utilisation du thésaurus d’AGROVOC 

La création d’un modèle de sujets basé sur l’utilisation des concepts d’AGROVOC a pour but d’améliorer les opérations de recherche et de navigation sur la plateforme FarmBook. L’avantage spécifique essentiel que l’on tire de l’utilisation d’AGROVOC est qu’on dispose d’étiquettes en plusieurs langues, permettant de faire des recherches multilingues. Celli et Keizer (2016) notent que l’idée qui sous-tend le concept de recherche multilingue est que l’utilisateur peut obtenir des résultats dans des langues autres que celle dans laquelle la recherche a été lancée. En associant chacun des sujets de la taxinomie de PEI-AGRI aux concepts d’AGROVOC dont le champ est plus large, plus étroit et analogue, on donne effectivement à l’utilisateur la possibilité d’obtenir un meilleur ensemble de résultats dans des langues autres que celle des termes utilisés pour lancer la recherche, comportant des points dont le champ est plus large, plus étroit ou analogue à celui d’un sujet donné ; pour que la recherche donne de meilleurs ensembles de résultats, on s’est également servi des concepts d’AGROVOC comme mots-clefs pour annoter les objets numériques de FarmBook. Cela permet d’offrir des solutions de recherche exhaustives (l’utilisateur pouvant trouver tout ce qui est disponible pour un sujet de recherche donné) et d’exploration (l’utilisateur pouvant trouver de « bons » résultats s’il ou elle n’est pas sûr/sûre de ce qu’il ou elle cherche), selon la catégorisation des besoins d’information mentionnée par Rosenfeld et. al. (2015). 

Étapes suivantes

L’étape suivante sera l’évaluation par enquête du modèle de sujets auprès d’un groupe d’experts plus large que celui qui avait participé à sa création. L’enquête aura pour but de recueillir des réactions permettant d’affiner et d’ajuster le modèle (illustré dans la figure 1, où les flèches vont de l’étape d’évaluation de la méthode vers les étapes précédentes). Le modèle de sujets servira à étiqueter les objets numériques dans l’architecture de l’information de FarmBook. La mise au point du graphe RDF au moyen du logiciel approprié (par ex. Protégé, Brandt, 2011) permettra de le publier et de le mettre à disposition grâce à un dépôt en accès libre (Zenodo par ex.).

Remerciements

Le travail présenté ici a été entrepris comme partie du projet EUREKA d’Horizon 2020, avec un financement de l’UE au titre de la convention de subvention N° 862790.

Bibliographie

Brandt, S. 2011. A practical guide to building owl ontologies using Protégé 4 and co-ode tools, edition 1.3. The University of Manchester, 107.

Celli, F. et Keizer, J. 2016. Enabling multilingual search through controlled vocabularies: The AGRIS approach. In Research Conference on Metadata and Semantics Research (p. 237 à 248). Springer, Cham.

Partenariat européen d’innovation pour la productivité agricole et la durabilité 2017. Horizon 2020 – Projets multi-acteurs [consulté le 15 juin 2021]. eip-agri_brochure_multiactorprojects_2017_fr_web.pdf (europa.eu) 

Miles, A. et Brickley, D. 2005. SKOS Core Vocabulary Specification: W3C Working Draft 2 November 2005 [consulté le 23 août 2021]. https://www.w3.org/TR/2005/WD-swbp-skos-core-spec-200511 02/ 

Rosenfeld, L., Morville, P. et Arango, J., 2015. Information Architecture: For the Web and beyond. 4th edition. O’Reilly Media: Estados Unidos, California.

Wilkinson, M., Dumontier, M., Aalbersberg, I. et al. 2016. The FAIR Guiding Principles for scientific data management and stewardship  Sci Data 3, 160018 https://doi.org/10.1038/sdata.2016.18