Открытые данные и библиотеки: мы вместе или … ?

Комплектование наборов открытых данных

В конце июня в фонде электронных ресурсов Библиотеки Конгресса США появилась новая коллекция. Коллекция НОД — Наборов Открытых Данных. Она пока что состоит всего из 20 наборов, но это только начало программы, связанной с планом библиотеки по поддержке новых стилей исследований, таких как интеллектуальный анализ текста и машинное обучение, на основе данных. Любой может загрузить из этой онлайн-коллекции наборы данных Атласа исторических границ областей, спортивных экономических данных, полмиллиона электронных писем от корпорации Enron и данные о сокращении выбросов свинца в городских почвах.

Программа началась с определения атрибутов наборов данных, которые следует учитывать при определении объема и отбора. Дальше надо было установить непрерывные рабочие процессы комплектования НОД и определить, как обеспечить соответствующий доступ постоянным посетителям. Для этого необходимо было решить ряд технических вопросов, внести изменения в технологические цепочки рабочих процессов, а также провести экспертизу по предметным областям. Все это потребовало серьезных усилий и опыта сотрудников многих подразделений библиотеки.

Для координации действий была создана Рабочая группа по комплектованию наборов данных, которая в сотрудничестве с Отделом разработки коллекций определила руководящие принципы по сбору наборов данных:

Библиотека сосредоточена на выборочном получении наборов данных в фиксированной и опубликованной формах, которые имеют высокий рейтинг по следующим критериям:

  •  полезность в удовлетворении текущих и будущих информационных потребностей,
  •  уникальность информации,
  •  научное содержание,
  •  актуальность информации,
  •  риск потери.

Библиотеки исторически комплектуют наборы данных по некоторым предметным областям на выборочной основе и не обязательно с целью полного охвата. Тематические области, которые традиционно представлены в виде наборов данных почти в каждой библиотеке, — демография, география, бизнес, экономика и наука.

Данные не являются чем-то принципиально новым для библиотек. Мы просто привыкли называть их по-другому, чаще всего — статистические издания и справочники. Сборники данных географических информационных систем (ГИС) нам больше знакомы под именем адресных книг и сборников по административно-территориальному делению, демографические данные как справочники по местной истории и генеалогии. Статистические данные чаще всего представлены как отраслевые сводки или статистические ежегодники, научные данные как отчеты по НИР и ОКР, препринты научно-исследовательских институтов. Бизнес-статистика представлена торговыми и промышленными каталогами, бюллетенями предприятий и отраслей промышленности. Список можно продолжить: спортивные данные, аналитические обзоры и прогнозы рынков, справочники политических партий и результаты различных конкурсов, соревнований, мероприятий, и т.п.

Все они постепенно прекращают выпускаться в печатном виде. Причины понятны: дорого и медленно. Работать с изданиями неудобно, да и актуальность данных теряется по дороге. Другое дело электронные таблицы. Преимущества очевидны, а самое главное их можно выгружать и работать с ними дальше, применяя разные методы сортировки, кластеризации, совершать логические операции, обогащать и получать новую информацию на основе анализа.

Что происходит в России?

Наборы данных централизованно собираются и размещаются на сайтах регионовведомств, федеральном портале открытых данных. Это хорошо, источники комплектования легко найти.

Обновленные наборы заменяют предыдущие, “старые” данные утрачиваются. Орган, ответственный за развитие направления, почти три года не показывает никакой активности. Это плохо. Данные должны расти и становиться большими. Чем больше данные, тем точнее полученная на основании их анализа информация, выше вероятность прогноза, и соответственно, правильность принятых решений.

На российском рынке практически нет IT-компаний, за исключением Нетрики, которые предлагали бы интерфейсы для работы с открытыми данными, что плохо. В то же время в мире количество инструментов визуализации, в том числе с открытым кодом и возможностью использования децентрализованных вычислений, постоянно растет. И это хорошо.

Унификация и стандартизация представления и описания данных отсутствует. Однозначно минус. Хотя рекомендации W3 Консорциума по созданию 5-звездочных связанных открытых данных как и множество других материалов (той же Библиотеки Конгресса) облегчают эту задачу.

Что надо сделать:

Определить набор поставщиков Наборов Открытых Данных (возможно создание реестра НОД как электронного источника комплектования)

  • Разработать схему библиографического описания НОД
  • Создать интуитивно понятный настраиваемый интерфейс для каталогизаторов НОД
  • Определить периодичность автоматического сбора НОД для каждого поставщика
  • Разработать методические рекомендации по передаче НОД в библиотеки РФ
  • Провести/записать несколько вебинаров, создать памятку/руководство по работе с НОД для библиотек.

Что это даст библиотекам? Прежде всего, современность. Развитие технической инфраструктуры, разработка различных политик и процедур доступа, подходящих для различных категорий цифрового контента, новые способы сохранения приобретенного цифрового контента. Повышение квалификации персонала может значительно поднять престиж профессии, которой нет в сегодняшних образовательных программах, — цифровой библиотекарь. Возможное перераспределение финансовых ресурсов для соответствия среде, в которой большая часть библиотеки может работать в бесконтактных условиях, и это не только пандемия. Значительная часть данных «написана» на универсальном языке цифр, для которых не существует территориальных и языковых границ.

На сегодняшний день Библиотеки как бы не замечают, что профильные для них материалы превратились из изданий в данные и по-прежнему ждут появления новых справочников и статистических изданий на бумаге. Когда двадцать лет назад мы поняли, что цифровая копия может преодолевать барьеры и любой читатель может мгновенно получить нужную ему статью, библиотеки стали пионерами оцифровки. Но оцифровка не годится для данных. Восприятие книги — чтение. Восприятие данных — обработка и анализ. По сравнению с бумажными изданиями у данных есть еще один несомненный плюс, — отсутствие авторских прав.

Как известно, большие данные не имеют возраста. Библиотекарям хорошо знакомо понятие «редкая книга». В ближайшем будущем оно может превратиться в «редкие данные». Авторских прав у данных нет, но цену товара всегда диктует его владелец. Если мы не сохраним данные, которые открыты сегодня, то послезавтра, возможно, нам придется покупать их по рыночной цене, как это происходит с редкими книгами. В чьих руках окажется это богатство, решать нам и решать сегодня.

Ольга Барышева