О системе


Цели и задачи

Целью создания и распространения связанных открытых статистических данных (СОСД) СНГ является повышение эффективности и потенциала использования статистических данных за счёт обеспечения однозначной содержательной интерпретации данных, в том числе в информационных системах потребителей.

Достижение поставленных целей обеспечивается путем:

  1. Создания системы общедоступных семантических моделей в области статистики СНГ на базе национальных и международных глоссариев, классификаторов, стандартов, а также формирования на ее основе среды содержательной интерпретации СОСД.
  2. Построения системы управления знаниями на основе общедоступных семантических моделей, обеспечения выравнивания и гармонизации статистической методологии стран СНГ.
  3. Создания семантических информационных ресурсов, отработкой технологий распространения и применения СОСД.
  4. Улучшения организации, интеграции и предоставления данных в сети Интернет, развития возможностей обнаружения, поиска, навигации и сопоставления статистических данных, полученных из различных источников с использованием семантических методов.
  5. Повышения осведомленности потребителей и поставщиков данных о преимуществах СОСД и возможности их применения в цифровых экосистемах и сервисах.

Связанные открытые статистические данные

В качестве наиболее эффективного способа предоставления данных в Интернете Консорциум W3C рекомендует использовать связанные данные, разработанные в соответствии с правилами Semantic Web (глобальной семантической сети) – набором основных правил представления данных в Интернет в виде, позволяющем адекватно интерпретировать их в информационных системах с учётом смыслового значения.

Связанные открытые статистические данные (СОСД) – это связанные данные в области статистики, которые публикуются с использованием открытой лицензии CC BY 4.0, что способствует их повторному бесплатному использованию. Интероперабельность обеспечивается за счет создания, обмена и использования СОСД так, что их значение и контекст сохраняются независимо от системы или набора систем.

Понимание и использование данных потребителями, не являющимися экспертами в данной области, а также их интерпретация информационными системами зачастую затруднены из-за отсутствия формализованных знаний о предметной области и машиночитаемых данных, дополненных семантикой для понимания смысла набора данных. Бедность семантики приводит к тому, что связанные данные трудно обнаружить в Интернете по их описаниям и однозначно связать с понятиями предметной области.

Группа высокого уровня по модернизации статистики (HLG MOS) ЕЭК ООН на международном уровне решает задачи достижения интероперабельности данных в Национальных статистических управлениях (НСУ) путем разработки собственных и внедрения существующих методов, моделей (в том числе семантических, таких как онтологии) и стандартов в рамках реализации специализированных программ. HLG MOS осуществляет проект «Структура управления данными для статистической интероперабельности». В 2023 году HLG MOS выпустила документ Data Governance Framework for Statistical Interoperability (DAFI), в котором представлена справочная структура (reference framework), содержащая основные элементы для внедрения программы управления, направленной на достижение интероперабельности статистических данных. Как результат, внедрение этих подходов позволят статистическим организациям улучшить управление (мета)данными и обеспечит возможность создания, обмена и использования данных там, где их значение и контекст сохраняются независимо от системы или набора систем.

Ещё одним новым направлением развития, продвигаемым HGL MOS в сфере модернизации статистических процессов, является формирование богатых или «умных» метаданных, которые не только стандартны (т.е. их можно понять и использовать везде) и активны (позволяют реализовать управление статистическими процессами), но и делают данные находимыми (F), доступными (A), интероперабельными (I) и пригодными для повторного использования (R). Ключевым способом реализации принципов FAIR считается применение семантических технологий не только для распространения данных, но и для формализации знаний в виде семантических моделей – стандартных словарей, глоссариев, тезаурусов, онтологий.

Применение СОСД обеспечит развитие возможностей обнаружения и поиска статистических данных СНГ в сети Интернет, сопоставления и совместной обработки данных из различных источников с использованием технологий Semantic Web, в том числе методов семантической интеграции.

Реализация проекта

2023-2024

В 2023 году реализованы решения, позволяющие: (1) сформировать контекст предметной области статистики; (2) предоставить целостную (неразрывную) среду интерпретации данных для потребителей (людей и информационных систем); (3) сформировать умные метаданные и связанные статистические данные, обогащённые смыслом (семантикой).  С учётом накопленного международного опыта в 2023 году были разработаны:

  • Концепция подготовки и распространения СОСД Статкомитета СНГ;
  • прототип Системы управления знаниями в области статистической методологии (СУЗ);
  • прототип Системы подготовки и распространения связанных открытых статистических данных (СПР СОСД).

Разработанные на первом этапе решения обеспечили:

  1. Поддержку публикации и применения набора семантических моделей в области статистики СНГ на базе национальных и международных глоссариев, классификаторов, стандартов, а также формирования на его основе среды содержательной интерпретации СОСД.
  2. Поддержку управления знаниями в области статистики на основе семантических моделей, выравнивания и гармонизации
  3. Ведение каталогов семантических моделей в области статистики и наборов СОСД СНГ с возможностью их распространения.
  4. Публикацию описания наборов СОСД на основе их семантических моделей, предоставляемых потребителям в человекочитаемом (пользователям) и машиночитаемом (информационным системам) виде.
  5. Публикацию информационно-аналитических обзоров с использованием наборов СОСД и их визуализации.

Стартовым разделом для отработки и реализации предлагаемых решений является «Рынок труда». 

2024-2025

На этом этапе развития проекта создается система для формирования, представления пользователям и распространения в сети Интернет связанных открытых статистических данных и метаданных Статкомитета СНГ в человекочитаемом и машиночитаемом виде.
Кроме того развитие СУЗ направлено на расширение числа статистических доменов. Подготовка и загрузка материалов, включая подготовку терминологических статей базового глоссария, ведётся Заказчиком силами специально созданной экспертной группы.
Для обеспечения эффективной работы ЭГ Заказчика были разработаны обучающие материалы. Экспертная группа Заказчика прошла необходимое обучение и получает необходимую поддержку специалистов в области моделирования.
В настоящее время работа ЭГ Заказчика ведётся по семи основным разделам статистики – «СНС (Национальные счета)», «Сельское хозяйство», «Рынок труда», «Цены», «Уровень и условия жизни», «Промышленность». Кроме того, в процессе наполнения расширяется раздел «Общий». 

Для достижения цели выполняются следующие задачи:

  • Создание «Системы управления знаниями и связанными открытыми данными Статкомитета СНГ» (СУЗ-СОД, Система) первой очереди, включающей две подсистемы: подсистему «Система управления знаниями в области статистической методологии Статкомитета СНГ» (СУЗ) и подсистему «Система подготовки и распространения связанных открытых данных» (СОД).
  • Настройка СУЗ-СОД по доменам статистики и формирование информационного обеспечения, включая: (1) перенос содержимого прототипов СУЗ и СПР СОСД; (2) моделирование и публикацию в СУЗ глоссариев, справочников, показателей; (3) каталогизацию подготовленных СА и наборов СОСД, а также (4) визуализацию общих семантических моделей в области статистики (COOS, XKOS, словари SDMX) в СОД.
  • Подготовка и публикация наборов СОСД с семантически богатыми описаниями на основе RDF Data Cube Vocabulary с учетом требований к описанию структуры данных SDMX.
  • Обновление СОСД 2023-2024 годов по доменам «Трудовые ресурсы» и «Заработная плата и затраты на содержание рабочей силы».
  • Распространение СОСД для индексации, поиска и обнаружения в сети интернет по доменам статистики, включая настройку механизмов доступа к СОСД и СА на основе OpenAPI и EndPoint.
  • Подготовка предложений по применению открытых лицензий для распространения элементов СУЗ-СОД.
  • Поддержка работы экспертов в области статистической методологии, привлекаемых Заказчиком для наполнения СУЗ.
  • Подготовка пользователей СУЗ-СОД (участников ЭГ Заказчика, сотрудников Статкомитета СНГ, администраторов СУЗ-СОД).
  • Опытная эксплуатация СУЗ-СОД и приемка к опытному внедрению.

Применяемые стандарты и технологии

  1. FOAF (Friend Of A Friend) – словарь именованных свойств и классов, построенных с использованием технологии RDF от W3C и языка OWL.
  2. Vcard (The Electronic Business Card) - формат данных для передачи контактной информации в стандартизированном виде. Например, на телефон или в почтовый агент. 
  3. OWL (Web Ontology Language) – язык онтологий для Semantic Web (SW), описывающий классы и отношения между ними, присущие документам и приложениям Semantic Web.
  4. Дублинское ядро (Dublin Core™) - набор элементов метаданных «Дублинское ядро», определённый Дублинской основной инициативой по метаданным, включающий свойства, схемы кодирования словаря, схемы кодирования синтаксиса и классы.
  5. RDF Concepts (RDF 1.1 Concepts and Abstract Syntax) - модель представления знаний (данных и метаданных). RDF-схема для терминов словаря RDF в пространстве имен RDF, определенная в RDF 1.1 Concepts.
  6. RDFS (RDF Schema 1.1) - набор классов и свойств для модели представления знаний RDF, составляющий основу для описания онтологий с использованием расширенного RDF-словаря для структуры RDF-ресурсов.
  7. RDF Data Cube Vocabulary - словарь RDF Data Cube позволяет публиковать многомерные данные, такие как статистика с помощью стандарта W3C RDF. Модель, лежащая в основе словаря Data Cube, совместима с моделью куба, лежащей в основе SDMX.
  8. SDMX (Statistical Data and Metadata Exchange) – международный стандарт обмена статистическими данными и метаданными.
  9. SKOS (Simple Knowledge Organization Model) – базовая модель организации знаний для Semantics Web, облегчающая взаимодействие различных информационных систем за счёт стандартизации тезаурусов, систем классификации, таксономий, фолксономий и других видов нормализации лексики. 
  10. SKOS-XL (SKOS eXtension) - словарь RDF, расширяющий SKOS, предоставляя дополнительную поддержку для описания и связывания лексических единиц.
  11. XKOS (SKOS extension for representing statistical classifications) – специализированное расширение SKOS для управления статистическими классификациями.
Теги: