Trabajo del Laboratorio de datos

Los datos son un bien intangible de suma importancia, pero no siempre hay datos oficiales disponibles y a menudo se ven amenazados por el bajo nivel de capacidad estadística, la escasa financiación dedicada a datos y estadísticas, la débil cultura de difusión y uso de datos y los nuevos competidores en el mercado, lo que genera una consiguiente falta de datos. Esta falta se amplía en contextos de emergencia, en los que es muy importante tener acceso a información oportuna.

Para hacer frente a la crisis de los sistemas tradicionales de recopilación de datos, los actores nacionales e internacionales deben comprometerse con nuevas fuentes de datos y métodos y encontrar soluciones innovadoras para generar información que sea pertinente para la seguridad alimentaria, la nutrición y la transformación de los sistemas alimentarios.

En este sentido, la FAO creó en 2019 el “Laboratorio de datos para la innovación estadística” con el fin de subsanar esta falta de datos mejorando la puntualidad y la granularidad de la recopilación de datos, aumentando el uso de métodos y tecnologías con que extraer datos de fuentes no estructuradas con el objetivo de generar información más oportuna para fundamentar los procesos de adopción de decisiones.

El raspado de datos de la Web **(Web Scraping)**

Internet ofrece una amplia gama de hechos y fuentes de datos, que consisten en una gigantesca variedad de datos diferentes mal organizados. El raspado de datos de la Web (web scraping) consiste en buscar y extraer esos datos de las páginas web y generar información debidamente organizada. El Laboratorio de datos ha desarrollado distintos procedimientos para recopilar información estructurada a partir de páginas web que contienen datos estadísticos o de redes sociales (Twitter)/recopiladores de contenidos de medios de comunicación (Google News).

Análisis de textos

El análisis de textos (o minería de textos) se refiere al proceso de extracción automática de información de distintos recursos escritos. Supone un análisis léxico para estudiar distribuciones de frecuencia de las palabras, el reconocimiento de patrones, el etiquetado/anotación, el análisis de percepciones, la extracción de información, técnicas de minería de datos (como el análisis de enlaces y asociaciones), la visualización y el análisis predictivo con el objetivo de convertir el texto en datos para su análisis, mediante la aplicación de procesamiento del lenguaje natural. Con los instrumentos adecuados (todos ellos gratuitos y de código abierto), el Laboratorio de datos pone en práctica distintas fases de dicho procedimiento en función de los recursos utilizados o de los objetivos específicos del análisis.

Validación de datos

La validación de datos consiste en el proceso de verificación de la calidad de los datos obtenidos mediante raspado. Ello entraña la aplicación de una estrategia que verifique la exactitud y el sentido de la información resultante remitiéndose a otras fuentes. El Laboratorio de datos tiene acceso a todos los sistemas de datos de la FAO para cotejar los valores resultantes con las “fuentes oficiales” más actualizadas.

Elaboración de modelos estadísticos

Formalizar un fenómeno de forma matemática permite registrar cómo actúan los distintos componentes en la determinación de sus valores. Esto puede usarse para obtener valores del fenómeno cuando no se dispone de observaciones. El Laboratorio de datos elabora modelos que, partiendo de los datos obtenidos mediante raspado y considerando también otras fuentes, producen estadísticas descriptivas e indicadores adecuados que sirven para respaldar el logro de los principales objetivos de la FAO.

FAO's Data Lab

El raspado de datos de la Web (Web Scraping)

Análisis de textos

Validación de datos

Elaboración de modelos estadísticos

El raspado de datos de la Web **(Web Scraping)**