Программа началась с определения атрибутов наборов данных, которые следует учитывать при определении объема и отбора. Дальше надо было установить непрерывные рабочие процессы комплектования НОД и определить, как обеспечить соответствующий доступ постоянным посетителям. Для этого необходимо было решить ряд технических вопросов, внести изменения в технологические цепочки рабочих процессов, а также провести экспертизу по предметным областям. Все это потребовало серьезных усилий и опыта сотрудников многих подразделений библиотеки.
Для координации действий была создана Рабочая группа по комплектованию наборов данных, которая в сотрудничестве с Отделом разработки коллекций определила руководящие принципы по сбору наборов данных:
Библиотека сосредоточена на выборочном получении наборов данных в фиксированной и опубликованной формах, которые имеют высокий рейтинг по следующим критериям:
Библиотеки исторически комплектуют наборы данных по некоторым предметным областям на выборочной основе и не обязательно с целью полного охвата. Тематические области, которые традиционно представлены в виде наборов данных почти в каждой библиотеке, — демография, география, бизнес, экономика и наука.
Данные не являются чем-то принципиально новым для библиотек. Мы просто привыкли называть их по-другому, чаще всего — статистические издания и справочники. Сборники данных географических информационных систем (ГИС) нам больше знакомы под именем адресных книг и сборников по административно-территориальному делению, демографические данные как справочники по местной истории и генеалогии. Статистические данные чаще всего представлены как отраслевые сводки или статистические ежегодники, научные данные как отчеты по НИР и ОКР, препринты научно-исследовательских институтов. Бизнес-статистика представлена торговыми и промышленными каталогами, бюллетенями предприятий и отраслей промышленности. Список можно продолжить: спортивные данные, аналитические обзоры и прогнозы рынков, справочники политических партий и результаты различных конкурсов, соревнований, мероприятий, и т.п.
Все они постепенно прекращают выпускаться в печатном виде. Причины понятны: дорого и медленно. Работать с изданиями неудобно, да и актуальность данных теряется по дороге. Другое дело электронные таблицы. Преимущества очевидны, а самое главное их можно выгружать и работать с ними дальше, применяя разные методы сортировки, кластеризации, совершать логические операции, обогащать и получать новую информацию на основе анализа.
Что происходит в России?
Наборы данных централизованно собираются и размещаются на сайтах регионов, ведомств, федеральном портале открытых данных. Это хорошо, источники комплектования легко найти.
Обновленные наборы заменяют предыдущие, “старые” данные утрачиваются. Орган, ответственный за развитие направления, почти три года не показывает никакой активности. Это плохо. Данные должны расти и становиться большими. Чем больше данные, тем точнее полученная на основании их анализа информация, выше вероятность прогноза, и соответственно, правильность принятых решений.
На российском рынке практически нет IT-компаний, за исключением Нетрики, которые предлагали бы интерфейсы для работы с открытыми данными, что плохо. В то же время в мире количество инструментов визуализации, в том числе с открытым кодом и возможностью использования децентрализованных вычислений, постоянно растет. И это хорошо.
Унификация и стандартизация представления и описания данных отсутствует. Однозначно минус. Хотя рекомендации W3 Консорциума по созданию 5-звездочных связанных открытых данных как и множество других материалов (той же Библиотеки Конгресса) облегчают эту задачу.
Что надо сделать:
Определить набор поставщиков Наборов Открытых Данных (возможно создание реестра НОД как электронного источника комплектования)
Что это даст библиотекам? Прежде всего, современность. Развитие технической инфраструктуры, разработка различных политик и процедур доступа, подходящих для различных категорий цифрового контента, новые способы сохранения приобретенного цифрового контента. Повышение квалификации персонала может значительно поднять престиж профессии, которой нет в сегодняшних образовательных программах, — цифровой библиотекарь. Возможное перераспределение финансовых ресурсов для соответствия среде, в которой большая часть библиотеки может работать в бесконтактных условиях, и это не только пандемия. Значительная часть данных «написана» на универсальном языке цифр, для которых не существует территориальных и языковых границ.
На сегодняшний день Библиотеки как бы не замечают, что профильные для них материалы превратились из изданий в данные и по-прежнему ждут появления новых справочников и статистических изданий на бумаге. Когда двадцать лет назад мы поняли, что цифровая копия может преодолевать барьеры и любой читатель может мгновенно получить нужную ему статью, библиотеки стали пионерами оцифровки. Но оцифровка не годится для данных. Восприятие книги — чтение. Восприятие данных — обработка и анализ. По сравнению с бумажными изданиями у данных есть еще один несомненный плюс, — отсутствие авторских прав.
Ольга Барышева