Les données sont un bien immatériel extrêmement important, mais on ne dispose pas toujours de données officielles, et le manque de capacités statistiques, la faiblesse des financements consacrés aux données et aux statistiques, la culture insuffisante en matière de diffusion et d’utilisation des données et les nouveaux concurrents sur le marché sont souvent source de problèmes qui débouchent sur des lacunes d’informations. Ces lacunes sont encore plus vastes dans les situations d’urgence, où il est extrêmement important d’avoir accès à des informations à jour.
Face aux problèmes qui entravent les systèmes de collecte de données traditionnels, les acteurs nationaux et internationaux doivent se tourner vers de nouvelles sources de données et méthodes, et trouver des solutions innovantes pour produire des informations pertinentes sur la sécurité alimentaire, la nutrition et la transformation des systèmes alimentaires.
La FAO a créé en 2019 le «Laboratoire de données pour l’innovation statistique» dans le but de combler ces lacunes en améliorant la collecte de données (actualité et granularité) et en faisant davantage appel aux méthodes et technologies d’extraction de données à partir de sources non structurées afin de produire des informations plus pertinentes à l’appui des processus décisionnels.
Extraction du contenu de pages web (Web Scraping)
Internet offre un large éventail d’informations et de sources de données, qui se présentent sous la forme d’un énorme ensemble de données dissemblables et désorganisées. Le web scraping consiste à extraire les données de pages web et à les organiser de manière appropriée. L’équipe du Laboratoire de données a élaboré différentes procédures en vue de réunir des informations structurées à partir soit de pages web contenant des données statistiques, soit de réseaux sociaux (Twitter) ou d’agrégateurs d’informations (Google News).
Analytique de texte
L’analytique de texte (ou exploration de texte – text mining) est une procédure qui consiste à extraire automatiquement des informations à partir de différents supports écrits. Elle met en œuvre, au moyen du traitement du langage naturel (TLN), l’analyse lexicale, qui permet d’examiner les distributions de fréquence des mots, la reconnaissance des formes, l’étiquetage/l’annotation, l’analyse des perceptions, l’extraction des informations, les techniques d’exploration de données (y compris l’analyse des liens et des associations), la visualisation et l’analytique prédictive, dont le but est de transformer le texte en données pouvant être analysées. Grâce à des outils appropriés (tous gratuits et open source), le Laboratoire de données procède aux différentes étapes du TLN en fonction des sources utilisées ou des objectifs spécifiques de l’analyse.
Validation des données
La validation consiste à vérifier la qualité des données extraites. Elle suppose de mettre en œuvre une stratégie qui consiste à vérifier, en se référant à d’autres sources, que les informations obtenues sont correctes et exploitables. Le Laboratoire de données ayant accès à l’ensemble des systèmes de données de la FAO, les informations peuvent être comparées aux «sources officielles» les plus à jour.
Modélisation statistique
Formaliser un phénomène de façon mathématique permet d’analyser la manière dont les différentes composantes déterminent ses valeurs. La modélisation peut être utilisée pour obtenir les valeurs d’un phénomène en l’absence d’observations. L’équipe du Laboratoire de données élabore des modèles qui, à partir des données extraites, mais aussi d’autres sources, produisent des statistiques descriptives et des indicateurs adaptés que l’on peut exploiter pour appuyer la réalisation des principaux objectifs de la FAO.