Встреча в Ухане: ирония судьбы или JCDL ‘20

Совместная конференция ACM / IEEE по электронным библиотекам

Совместная конференция ACM / IEEE по электронным библиотекам (JCDL) — самый крупный международный форум, посвященный электронным библиотекам и связанным с ними техническим, практическим и социальным вопросам. 1-я Международная конференция ACM по электронным библиотекам DL96 прошла в Бетесде, Мэриленд, США, в марте 1996 г. С тех пор конференции проводятся каждый год с разных странах мира.

По иронии судьбы, JCDL 2020 была намечена на июнь в городе Ухане, провинция Хубэй, Китай, где в конце концов и прошла, но уже как виртуальное мероприятие с 1 по 5 августа 2020 года.

Девиз конференции этого года — «Более быстрые инновации, устойчивое развитие, социальные преобразования». Под тенью пандемии COVID-19 эта тема никогда не была так актуальна в истории человечества. Многие технологии и услуги, связанные с цифровыми библиотеками прямо или косвенно участвуют в борьбе с вирусом и пандемией. Для распространения академических знаний, связанных с вирусами, созданы онлайн-репозитории академических статей и наборов данных. Данные социальных сетей собираются для оценки распространения и воздействия вируса, а также для выявления дезинформации и слухов. Веб-технологии и стандарты играют решающую роль в обеспечении качества и надежности онлайн-общения и виртуального сотрудничества между людьми.

Представленные материалы охватывали такие темы, как управление, эксплуатация, проектирование, разработка, курирование, оценка или использование цифровых библиотек в широком смысле. На участие в конференции было подано более 300 заявок из 35 стран и регионов пяти континентов. Программный комитет рассмотрел и принял 33 полных исследовательских статьи, 28 коротких научных статей, 40 постеров и 8 презентаций. Чтобы учесть разницу во времени между авторами и участниками, сессии были организованы на основе трех часовых поясов.

Я ограничусь ключевыми докладами, которые не только задают тон, но и являются квинтэссенцией конференции (ссылка на полные материалы на английском языке — в конце статьи). Их полную видеозапись можно посмотреть на сайте конференции.

Доклад первый, теоретический

Как исследовать электронную библиотеку будущего?

Эдвард А. Фокс (Политехнический университет штата Вирджиния, США)

Доклад о пользователях, исследованиях и будущих направлениях развития электронных библиотек как когнитивных систем. Множество различных пользователей цифровых библиотек, каждый из которых является членом сообщества, задействованы в разнообразных сценариях, часто включающих некоторые аспекты исследования, обычно потоков контента электронных библиотек. Сервисы — например, поиск, просмотр, рекомендации и визуализация, — помогают этим пользователям использовать структуры знаний и пространственные представления. Мы ищем «факты, концепции, принципы и идеи, которые лежат в основе видимых и осязаемых аспектов документов», чтобы помочь нам приобретать и использовать знания. Проще говоря: «Консоль познавательной системы будет иметь две специальные кнопки: серебряную с надписью «Где я» и золотую с надписью «Что мне делать дальше?».

Как мы можем это построить и использовать? Искусственный интеллект (ИИ), обработка естественного языка (НЛП), регистрация взаимодействие человека, — это традиционный подход (он остается). Новый — построение графов знаний с участием UX-дизайнеров, экспертов в предметной области и разработчиков, которые определяют подключения к службам и рабочим процессам, обеспечивая работу ЭБ поверх механизмов рабочего процесса.

Доклад второй, практический

На пути к устойчивой инфраструктуре для сохранения культурного наследия и цифрового знания

Питер Чжоу (Калифорнийский университет, Беркли, США)

Цифровой жизненный цикл включает в себя процессы курирования данных, управления, долгосрочного хранения и распространения контента, все ключевые строительные блоки в разработке электронной библиотеки. Важно поддерживать полный рабочий процесс цифрового жизненного цикла для сохранения цифрового культурного наследия и цифровых знаний. В докладе рассматривается программа цифрового жизненного цикла для электронных библиотек. Цифровой и печатный жизненный цикл схожи, несмотря на различия в формате и физических условиях создания контента (выбор и анализ данных, преобразование и курирование), организации (анализ, интеграция, агрегирование и связывание) и интерпретации (метаданные и каталогизация), сохранения (хранение данных, дублирование, контрольные суммы, восстановление и миграция), доступ и публикация (навигация, обнаружение и управление правами).

В качестве примера программы цифрового жизненного цикла был представлен Цифровой Дуньхуан. Обеспечивая долгосрочное сохранение бесценного культурного наследия, он одновременно предоставляет платформу для совместного использования всех цифровых активов, созданных в процессе сохранения. Единственный способ гарантировать, что информация, собранная из пещер Могао в Дуньхуане, навсегда сохранится для будущих поколений, — это объединить весь контент, который был создан в прошлом, создается сейчас и будет создан в будущем в одном большом цифровом хранилище. Этот цифровой репозиторий будет способствовать постоянному хранению, эффективному управлению цифровыми активами и легкому доступу на систематической основе.

Доклад третий, прагматический

Технологии естественного языка для интернет-приложений

Луо Си (Alibaba Group Inc., Китай)

Обработка естественного языка (НЛП) и связанные с ней технологии имеют решающее значение для успеха многих Интернет-приложений, таких как электронные библиотеки, электронная коммерция и обслуживание клиентов. В докладе представлены исследования и тенденции четырех наборов технологий НЛП для Интернет-приложений. Во-первых, нейронная языковая модель была очень популярным направлением исследований в последние несколько лет, она служит основой многих технологий НЛП и значительно улучшила производительность многих приложений; Во-вторых, методы машинного перевода были существенно усовершенствованы, чтобы преодолеть языковые барьеры для многих Интернет-приложений; В-третьих, выявление несоответствующей информации Интернет текста (например, порнографического содержания) является сложной темой исследования диверсификации текстового представления; В-четвертых, машинное чтение стало важным вопросом и технологией для непосредственного удовлетворения информационных потребностей многих пользователей Интернета. Эти технологии демонстрировались на примерах крупномасштабных реальных приложений Alibaba Group.

Заключение

Продолжая называть любые информационные системы, в которых хранятся документы, электронными библиотеками (что имеет право на существование в точки зрения информатики) на конференции говорили скорее о системах связывания знаний посредством использования документов. Если провести анатомическую аналогию, то граф — скелет, знания — кровь, а документы (например, проекта Цифровой Дуньхуан) — тело системы, заключенной в оболочку-кожу, вид которой зависит от пользователя и его поведения и меняется как хамелеон (или приложения Alibaba Group).

Сегодняшняя задача — создавать и поддерживать жизненный цикл таких систем на базе облачных технологий с минимальным участием естественного интеллекта и максимальным использованием автоматической обработки текста, машинного обучения и виртуальных средств визуализации.

JCDL ’20: Труды Совместной конференция ACM / IEEE по электронным библиотекам (Виртуальное мероприятие. Китай август, 2020)

ISBN: 978–1–4503–7585–6

Ольга Барышева