среда, 2 августа 2017 г.

Нет – темной цифровой эпохе. О планах Национальной библиотеки Ирландии по сохранению веб-контента

В течение года исчезнет половина национального веб-контента, предупреждают ведущие архивисты страны. Велика вероятность того, что часть критически важной информации уже растворилась в небытие. Об этом заявила глава департамента цифровых коллекций Национальной библиотеки Ирландии Гер Уилсон, сославшись на результаты недавнего исследования.
Чтобы спасти содержимое ирландского интернет-сегмента, руководство нацбиблиотеки предложило провести обширный захват (crawl) по всем адресам, зарегистрированным в Ирландии. Он позволит понять, что представляет собой «ирланднет» по состоянию на текущий год.

По своей природе веб-контент эфемерен, говорят эксперты. Сайты появляются и исчезают, дополняются и радикально изменяются. И несмотря на активное развитие технологий, риски утери важной информации по-прежнему высоки. Один из основателей интернета (создатель протокола передачи данных TCP/IP) и вице-президент Google Винтон Серф во время своего визита в Дублин в очередной раз напомнил об угрозе «темной цифровой эпохи» (digital dark age), которая может наступить в результате неудавшейся попытки сохранить цифровой контент.

Главная цель новой программы Национальной библиотеки Ирландии – не допустить разрастания черных дыр в цифровой вселенной. Для сохранения цифрового наследия ирландцы намерены архивировать все содержимое веб-сайтов, а не осуществлять захват некоторых страниц, как это нередко происходит при сканировании веб-данных (crawling).
Важно отметить, что это не первая попытка сохранить национальное цифровое наследие. В 2007 году библиотечное управление провело аналогичный сбор данных. Однако до сих пор результаты исследования не были опубликованы.
В середине июля 2017 года был объявлен тендер, согласно которому компания-победитель обязуется завершить захват ирландской части интернета к концу ноября. В общей сложности алгоритмы должны просканировать более 230 тысяч сайтов на домене .ie и других доменах, представляющих исторический интерес.
Как рассказала The Irish Times г-жа Уилсон, проблема сохранения исторических материалов, опубликованных онлайн, остается актуальной на протяжении последних двадцати лет. «Согласно закону об обязательном экземпляре, с момента основания мы собираем все бумажные издания, опубликованные в Ирландии. Но нет закона, регулирующего сохранность цифровых материалов. Совместно с Департаментом труда, предпринимательства и инноваций, в ведении которого находятся вопросы авторских прав, мы продолжаем работу в этом направлении», – добавила руководитель учреждения.
Около 60% национальных библиотек Европы действуют на основании специальных законов при проведении захвата веб-контента. Например, Королевская библиотека в Копенгагене ежегодно проводит четыре таких «среза». Без точечного законодательного регулирования захват контента ограничен. Так, чтобы создать веб-архив выборов и референдумов (этим библиотека занимается с 2011 года), потребуется получить согласие частных лиц. Нерешенной остается проблема захвата видеоконтента, который пока не входит в список ключевых веб-мишеней. В ограниченном объеме осуществляется захват содержимого соцсетей.
vimeo.com
Цифровой тёмный век — термин, описывающий предполагаемый сценарий будущего, подразумевающий значительную трудность или невозможность открытия текстовых и любых других электронных документов ввиду их устаревшего формата.
Почему может начаться «цифровой Тёмный век»?
Вице-президент Google и один из разработчиков протокола TCP/IP Винтон Серф высказал обеспокоенность на научной конференции в Сан-Хосе, что все данные, которые сегодня хранятся на компьютерах, могут быть утеряны. Из-за этого, считает Серф, наступит «цифровой Тёмный век», сообщает BBC.
ВИНТОН СЕРФ, Вице-президент Google: «Я ОЧЕНЬ БЕСПОКОЮСЬ ОБ ЭТОМ. Старые форматы документов, которые мы создали, могут не читаться на последних версиях программного обеспечения, поскольку обратная совместимость не всегда обеспечивается. Вот, что может произойти: даже если мы накопим обширные архивы цифрового контента, мы просто не узнаем, что в них.

Это можно решить, создав общий „рентгеновский снимок“ и контента, и приложения, и операционной системы с указанием аппарата, который всё это запускал, а потом сохранить на долгое время. Этот цифровой снимок воссоздаст прошлое в будущем».
«Даже если мы накопим обширные архивы цифрового контента, мы просто не узнаем, что в них»
 ЗАБАВНО ПРЕДСТАВИТЬ, как вы ищете в Google в 3000 году. „Рентгеновский снимок“, который мы пытаемся сделать, должен поддерживать и облако Google, и какое-то другое облако, и машину, которая у меня есть.


Ключевой момент такой: когда вы перемещаете биты из одного места в другое, вы всё ещё не знаете, как их распаковать, чтобы правильно интерпретировать все части? Это можно решить, если мы стандартизируем все описания. Но есть другой ключевой вопрос: как в отдалённом будущем убедиться, что эти стандарты всё ещё известны, и могу ли я правильно интерпретировать этот „рентгеновский снимок“? Эту концепцию с некоторыми шероховатостями показывает [идея] „цифровой кальки“».
О тёмном цифровом веке (эре): https://ru.wikipedia.org/wiki/Цифровой_тёмный_век

Комментариев нет:

Отправить комментарий