Cas d’utilisation concrète : Agrotermos et AGROVOC

FAO/Giorgio Cosulich de Pecine

 

​​​​​A use case by Embrapa

Brésil: faits et chiffres

Population : 211,639,714 habitants (2020) [1]

Superficie : 8 510 295 914 km2 

Six biomes : savanes (Cerrado) ; zone semi-aride (Caatinga) ; forêts tropicales (Mata Atlântica) ; herbages (Pampa) ; marécages (Pantanal)

L’agriculture brésilienne

235 918 760 hectares de terres agricoles [2]

55 384,06 hectares de terres arables

7 982 hectares de terres en cultures vivaces

172 552.7 hectares de terres en prairies et pacages permanents

Grand producteur de : soja, sucre, viande (poulet, bœuf et porc), maïs, café, tabac, jus d’orange, fruits, coton, canne à sucre et bioproduits [3].

Le Brésil parle portugais

Il y a environ 270 millions de lusophones sur quatre continents - en Angola, au Brésil, à Cabo Verde, en Guinée-Bissau, au Mozambique, au Portugal, à Sao Tomé-et-Principe et au Timor-Leste

Un accord sur l’orthographe a été signé par ces pays en 1990, établissant une orthographe officielle unique pour le portugais : la mesure est importante, mais la syntaxe, la sémantique et le lexique restent divers.

Le portugais du Brésil

  • La diversité linguistique est énorme, du fait de l’étendue du pays, de sa diversité culturelle et des échanges
  • Le même objet a des noms différents, par exemple mandioca/aipim/macaxeira pour le manioc (voir figure YY.)
  • Un même mot est utilisé pour des objets différents, par exemple colher (cuiller) et colher (verbe = réunir, récolter), ou molho (soupe ou sauce) et molho (première personne du singulier du présent du verbe molhar =mouiller)
  • Il y a des néologismes et des emprunts étrangers

 

Figure 1.  Exemple de mots différents désignant la Manihot esculenta utilisés au Brésil, et structure conceptuelle dans Agrotermos. Source : Banco Multimídia da Embrapa, 2017 ; Photo : Ronaldo Rosa,2021 ; Carte : Zimmerman, 2014 ; Graphique : Agrotermos, 2021 ; Illustration : GTermos, Suzi Carneiro, 2021
MapaDescrição gerada automaticamente com confiança média
Figure 2. Faits essentiels sur la structure organisationnelle d’Embrapa. Source : GTermos, 2021

 

 

À l’heure actuelle, les principaux thèmes de recherche-développement et d’innovation des portefeuilles de projet de l’Embrapa sont les suivants : produits chimiques agricoles ; zonage agro-écologique ; agroécologie ; Amazonie ; santé animale ; aquaculture ; automatisation, agriculture numérique et de précision ; bioéconomie ; contrôle biologique ; fixation biologique de l’azote ; fournitures biologiques ; biotechnologies ; sols brésiliens ; changements climatiques ; café ; innovation dans les entreprises ; marchés des cultivars ; résistance à la sécheresse (régions semi arides) ; énergie, technologies et chimie de la biomasse ; services environnementaux ; fibres et biomasse pour les industries ; pêches et aquaculture ; pertes et gaspillage de produits alimentaires ; sécurité alimentaire, nutrition et santé ; forêts ; cultures fruitières (zones tempérées et tropicales) ; ressources génétiques ; géotechniques ; céréales ; horticulture ; systèmes intégrés cultures-élevage-forêts ; agriculture irriguée ; agriculture bas carbone ; Matopiba ; viande ; lait ; nanotechnologies ; éléments nutritifs pour l’agriculture ; pâturages ; santé des végétaux ; organismes de quarantaine ; traitement des eaux usées en milieu rural ; innovation sociale dans l’agriculture ; intelligence territoriale, gestion et contrôle des organismes transgènes ; plantes adventices.

Pour plus d’informations, prière de consulter https://www.embrapa.br/en/web/portal/about-us

 

GTermos

 

La Commission permanente de l’Embrapa pour les vocabulaires contrôlés, la terminologie agricole et la sémantique agricole de l’Embrapa (GTermos) est déterminée à accumuler, partager, diffuser et gérer les connaissances et les pratiques liées à la sémantique et à la sémiotique des données et des informations agricoles ainsi qu’à leurs applications à la gestion de l’information et des connaissances à l’Embrapa. Notre objectif est d’en élargir le potentiel d’utilisation en interne comme en externe, en prise sur les tendances et les initiatives mondiales. GTermos est un groupe de travail permanent de l’Embrapa depuis mai 2018.

 

Démarches et outils méthodologiques et technologiques en usage à GTermos :

  • Linguistique du corpus 
  • Cartographie, organisation et représentation des connaissances
  • Visualisation des données, de l’information et des connaissances
  • Génie de l’organisation des connaissances
  • Cartographie et liaisons terminologiques, et analyses et alignements sémasiologiques/onomasiologiques
  • Interopérabilité sémantique
  • Formation à l’intégration de mots et utilisation 
  • Données ouvertes et données corrélées
  • Espace conceptuel
  • Graphe de connaissances

Agrotermos

GTermos a conçu, construit et mis en service et gère Agrotermos, un vocabulaire contrôlé et espace conceptuel de connaissances agricoles. On prépare actuellement Agrotermos, en faisant appel à l’ingénierie de l’information et aux méthodes et outils du traitement automatique du langage naturel, à la linguistique de corpus et à la modélisation sémantique, afin d’en élargir les fonctionnalités technologiques de ressources terminologiques, le transformant en espace conceptuel pour les connaissances agricoles brésiliennes.

 

Agrotermos est la plateforme de l’Embrapa où s’organisent, se qualifient et sont accessibles les données terminologiques et les applications sémantiques provenant de l’Embrapa. Plus qu’un vocabulaire contrôlé, Agrotermos est un espace conceptuel pour la représentation de connaissances sur l’agriculture et les domaines connexes. On peut y accéder ici.

 

La conservation et la gestion d’Agrotermos reposent sur des procédés de conversion et d’enrichissement conceptuels (sémantiques) et terminologiques. Ainsi, lorsqu’on ajoute de nouveaux termes à Agrotermos, on est généralement amené à recourir à des contextes scientifiques et à l’extraction de termes d’un corpus textuel (linguistique de corpus), puis à la validation conceptuelle et terminologique par des spécialistes du domaine considéré (voir figure 3). Les concepts et les termes de sous-domaines spécifiques de l’agriculture brésilienne sont de cette manière incorporés par modules dans Agrotermos. 

 

Figure 3. Contexte scientifique produit par le logiciel VOSviewer pour le sujet « pâturage » Source : InfoPasto Project/GTermos, 2019

 

Cas d’utilisation basée sur un ou des systèmes d’information, ou cas d’utilisation concrète : Agrotermos et AGROVOC

 

La construction d’Agrotermos a réuni des terminologies en portugais existant dans des thésaurus agricoles nationaux et internationaux. Il se compose principalement de deux thésaurus portugais différents, dont AGROVOC. Ces thésaurus n’alimentent pas seulement le contenu d’Agrotermos, ils lui donnent aussi sa structure, correspondant aux relations entre les termes.

Toutes les unités ajoutées à partir de ces thésaurus sont combinées pour constituer les ressources terminologiques et sémantiques, plus vastes et interconnectées d’Agrotermos. Les termes ne s’y répètent pas, autrement dit toutes les unités nouvelles ajoutées ou actualisées sont indexées, mais ne sont ni écrasées ni répétées, et la source en est identifiable, voir Figure 4. 

 

 

Figure 4. Ressource graphique décrivant toutes les connexions du terme « sistema agrosilvopastoril » dans la structure d’Agrotermos, et son origine (AGROVOC). Source : Gtermos, 2021

 

 Agrotermos moissonne et indexe tous les mois les termes et les concepts d’AGROVOC. Il comprend actuellement 245 000 termes environ, dont 41 337 proviennent d’AGROVOC.  

 

L’ensemble de l’infrastructure est ensuite offert aux dépôts d’Embrapa (par ex. au dépôt de géo-information GeoInfo, au dépôt de projets Quaesta) sous la forme d’un service Web. C’est actuellement le principal usage d’Agrotermos, et donc d’AGROVOC dans l’Embrapa.

Faisant partie d’Agrotermos, AGROVOC intervient donc aussi dans les applications sous-jacentes de l’entreprise :

  1. Appariement de termes : processus automatique intelligent de comparaison (d’appariement) de tout texte ou liste de termes avec les contenus d’Agrotermos, et à partir de là représentation conceptuelle sémantique du texte ou de la liste, ensuite décrits selon la structure d’Agrotermos. Ce processus d’appariement met en évidence par ailleurs les termes figurant dans le texte ou la liste qui sont déjà dans Agrotermos, offrant ainsi des listes supplémentaires de termes intéressants à inclure plus tard dans notre structure sémantique ou dans AGROVOC.
  2. Quaesta : l’outil de recherche de projets de l’Embrapa est basé sur les principes de l’intelligence artificielle et ses interfaces avec le traitement automatique du langage naturel. Dans cet outil, Agrotermos (et donc AGROVOC) sont utilisés comme outil d’information qualifié, et le contenu textuel des projets est indexé selon les termes et leurs relations. Agrotermos sert ainsi de structure ontologique spécialisée pour les contenus agricoles, perfectionnant le moteur de recherche et élargissant la couverture conceptuelle de la recherche.
  3. Analyse d’analogies morphosyntactiques : nous avons commencé récemment à utiliser Agrotermos pour des tâches spécifiques d’analyse d’analogies textuelles. Un algorithme nous sert à analyser l’analogie morphosyntactique de textes provenant de projets de recherche de l’Embrapa, afin de trouver des projets analogues à partir du contenu textuel. Dans ce cas Agrotermos (et AGROVOC) servent à élargir la terminologie et certaines relations trouvées dans les textes visés par l’analyse, et améliorent l’algorithme sur la base de caractéristiques sémantiques empruntées à la structure conceptuelle d’Agrotermos.

De plus, les spécialistes de l’information d’Embrapa ont toujours utilisé la principale interface de recherche comme référence, et aussi pour indexer les produits de l’entreprise et les informations conservées dans ses dépôts ; tels que BDPA, Base de Dados da Pesquisa Agropecuária

  

Plus largement, Embrapa, cherchant à se rapprocher des environnements sémantiques sur le Web, s’est mis en rapport en 2010 avec la FAO et accompagne depuis le développement et l’évolution d’AGROVOC, d’abord en observateur au Groupe de travail de sémantique agricole de la Research Data Alliance, puis, plus récemment, comme conservateur actif des termes et concepts d’AGROVOC en portugais du Brésil, participant à sa communauté éditoriale et à ses discussions. L’adoption des concepts et de la terminologie d’AGROVOC, l’expérience et l’expertise de la représentation des connaissances et l’alignements sur ses concepts sont désormais des références incontournables pour Agrotermos.  

 

Avantages de l’utilisation d’AGROVOC

 

  1. AGROVOC est devenu la référence théorique, conceptuelle et opérationnelle pour la création en 2014 d’Agrotermos, la structure interne de vocabulaire contrôlé et de sémantique d’Embrapa.
  2. AGROVOC fait partie d’Agrotermos. Sur les 245 000 termes que contient actuellement Agrotermos, 41 337 ont été incorporés directement depuis AGROVOC. Toutes les mises à jour et les fiches en portugais du Brésil que nous téléchargeons vers AGROVOC sont automatiquement incorporées à Agrotermos. 
  3. La conservation des termes et concepts d’AGROVOC en portugais du Brésil nous est une grande aide pour notre compréhension des collections de concepts, de termes, de définitions et de relations, ainsi que d’autres technologies sémantiques du Web.
  4. La collaboration avec AGROVOC pour la conservation des termes et concepts en portugais du Brésil offre une précieuse possibilité d’enrichissement des deux vocabulaires, et nous permet de diffuser la vaste et diverse production scientifique agricole brésilienne.

 Les quelques exemples concrets ci-après donnent un petit échantillon de nos tâches quotidiennes et de nos difficultés pour la conservation des fiches en portugais du Brésil dans AGROVOC. 

ENGLISH

PT/PT

PT/BR

DIFFERENCES DUE TO

OBSERVATIONS

Reproduction control

Controlo da reprodução

Controle da reprodução

Orthography

“Controle” instead of “controlo”

Ammonia

Amónia

Amônia

Orthography

“Amônia” instead of “amónia”

Weeding

Monda

Capina

Other term used in PT/BR

-

Food shortages

Penúria alimentar

Escassez alimentar

Other term used in PT/BR

-

Bumble bees

Abelhão

Mamangava;mamangaba

Other term used in PT/BR

Brazilian indigenous term

Tableau 1. Exemples concrets de conservation en portugais du Brésil dans AGROVOC. 

Source : GTermos, 2021.

 

Réunion de l’équipe GTermos en 2019 ©Francisca Rasche

 

Équipe GTermos - Commission permanente d’Embrapa pour les vocabulaires contrôlés, les terminologies agricoles et la sémantique agricole

Ivo Pierozzi Júnior (coordinateur technique)

Biologiste, Docteur en écologie, chercheur à l’Embrapa Informática Agropecuária

Bibiana Teixeira de Almeida

Licenciée en langue et littérature, spécialisée en traduction, analyste à l’Embrapa Territorial

Francisca Rasche

Bibliothécaire, Mastère de sciences de l’information, analyste à l’Embrapa Florestas

Maria de Cléofas Faggion Alencar

Bibliothécaire, Docteur en sciences de l’éducation, analyste à l’Embrapa Meio Ambiente

Viviane de Oliveira Solano

Bibliothécaire, licenciée en sciences de l’information, analyste à l’Embrapa Pantanal

Leandro Henrique Mendonça de Oliveira

Informaticien, Docteur en informatique et en mathématiques appliquées à l’informatique, analyste au Secrétariat de recherche-développement

Milena Ambrosio Telles

Licenciée en langue et littérature, Docteur en sciences de l’information, analyste au Secrétariat de recherche-développement

Rochelle Alvorcem

Bibliothécaire, mastère de sciences de l’Information, analyste à l’Embrapa Uva e Vinho

Vera Viana dos Santos Brandão

Bibliothécaire, spécialiste de la gestion des unités d’information, analyste à l’Embrapa Territorial

Patrícia Rocha Bello Bertin (coordinatrice institutionnelle)

Biologiste, Docteur en gestion de l’information, chercheur au Secrétariat du développement institutionnel

 

Bibliographie

[1] IBGE. População. À consulter à l’adresse https://www.ibge.gov.br/estatisticas/sociais/populacao.html. Consulté le 12 juin 2020. 

[2] FAOSTAT. Quelques indicateurs – Brésil. À consulter à l’adresse https://www.fao.org/faostat/fr/#country/21. Consulté le 13 juin 2020.

[3] Source de la carte : WIKIMEDIA COMMONS (Cristiano Tomás). À consulter à l’adresse https://commons.wikimedia.org/w/index.php?curid=77196210. Consultée le 13 juin 2020.

[4] Source de la carte : https://commons.wikimedia.org/w/index.php?curid=77196210 (Cristiano Tomás). 

[5] ZIMMERMAN, A. 'Sotaques do Brasil' desvenda as diferentes formas de falar do brasileiro. Globo.com - Jornal Hoje, 02 set. 2014. À consulter à l’adresse : http://g1.globo.com/jornal-hoje/noticia/2014/08/sotaques-do-brasil-desvenda-diferentes-formas-de-falar-do-brasileiro.html . Consulté le 8 septembre 2021.