Лаборатория данных поддерживает статистическую систему ФАО, решая конкретные проблемы, связанные с актуальностью, глубиной детализации, отсутствием данных и автоматизацией анализа, для получения более быстрых результатов обработки данных.

 


Данные являются чрезвычайно важным нематериальным благом, но официальные данные не всегда доступны, а получить их часто мешает низкий статистический потенциал, выделение недостаточного финансирования на цели сбора данных и статистики, неразвитая культура распространения и использования данных, а также появление на рынке новых конкурентов, что, соответственно, ведет к нехватке данных. Эта нехватка обостряется в условиях чрезвычайных ситуаций, когда доступ к своевременной информации особо важен.

Для того, чтобы справиться с тем кризисом, который переживают традиционные системы сбора данных, национальным и международным субъектам необходимо найти новые методы и источники данных, а также заняться поиском инновационных решений для получения актуальной информации в отношении продовольственной безопасности, питания и преобразования продовольственных систем.

В связи с этим в 2019 году в ФАО была создана Лаборатория данных для статистических инноваций, которая призвана восполнить такие пробелы за счет повышения своевременности и детализации сбора данных, более активного использования методов и технологий для извлечения данных из неструктурированных источников с целью получения более своевременной информации в поддержку процессов принятия решений.

Веб-скрейпинг

Интернет дает доступ к большому объему фактов и источников данных, который включает в себя огромное множество разнородных и плохо организованных данных. Веб-скрейпинг заключается в выделении и извлечении этих данных с веб-страниц и формировании правильно организованной информации. Лаборатория данных разработала различные процедуры сбора структурированной информации либо на веб-страницах, содержащих статистические данные, либо в социальных сетях (Twitter) / медиа-агрегаторах (Google News).

Текстовая аналитика

Текстовая аналитика (или интеллектуальный анализ текста) подразумевает процесс автоматического извлечения информации из различных письменных ресурсов. Он заключается в лексическом анализе для изучения распределения частотности слов, распознавании зависимостей, тегировании/ аннотировании данных, анализе эмоциональной тональности высказываний, извлечении информации, использовании методов интеллектуального анализа данных (включая анализ связей и ассоциаций), визуализации и прогностической аналитике с тем, чтобы превратить текст в данные для анализа посредством обработки естественного языка (NLP). Используя надлежащие инструменты (все они бесплатны и обладают открытым исходным кодом), Лаборатория данных применяет различную последовательность действий в рамках NLP в зависимости от обрабатываемых ресурсов или конкретных целей анализа.

Проверка корректности данных

Проверка корректности данных – это процесс подтверждения качества извлеченных данных. Это подразумевает применение стратегии, которая проверяет правильность и значимость полученной информации путем обращения к другим источникам. Лаборатория данных имеет доступ ко всем системам данных ФАО, чтобы сверять полученные значения с самыми последними "официальными источниками".

Статистическое моделирование

Выражение какого-либо явления математическим способом позволяет определить, каким образом различные компоненты определяют его значения. Этот способ может быть использован для получения совокупности значений определенного явления при отсутствии доступных наблюдений. Лаборатория данных конструирует модели, которые – на основе извлеченных данных и с учетом других источников – позволяют получить описательные статистические данные и надлежащие показатели, полезные для поддержки достижения основных целей ФАО.