gistory, Gistory_ru

gistory


gistory

История с Географией


Previous Entry Share Next Entry
Как оцифровывают память народа
gistory, Gistory_ru
gistory


На днях мне довелось побывать на «производстве» корпорации «Элар», которая собственно и занимается оцифровкой документов из ЦАМО и других архивов. Был я там уже второй раз – всегда интересно посмотреть на то, как бумажные документы, которые ранее были доступны единицам, превращаются в цифровые копии, посмотреть которые может любой (было бы желание). Честно могу сказать, что многое из того, что мне удалось найти «в полях» я обязан именно оцифрованным документам и картам – их многочасовое изучение с использованием ряда специальных программ, позволило восстановить несколько сотен километров оборонительных рубежей и даже сделать открытия.

Могу отметить, что за два года виден существенный прогресс, главным образом в организации «производства». Действительно, это напоминает огромный конвейер, сырьем для которого служат бумажные документы, а на выходе получаются их цифровые копии, описанные, распознанные и упакованные в поисковую оболочку.
Многие из нас и сами неоднократно сканировали книги и документы, и этот процесс кажется простым и понятным, однако, когда речь заходит даже не о десятках тысяч листов, а о миллионах, каждый из которых уникален, и их нельзя не то, что потерять, но даже помять, становится ясно, что, без серьезной подготовки не обойтись.
Процесс работы над копированием начинается с расшивки дел и их подготовки к сканированию. Этим занимаются специально обученные люди, в специальном помещении. Кстати, для «ЭЛАР» проекты Минобороны являются далеко не единственными – в компаниях накоплено очень много бумаги, которую необходимо перевести в электронный вид – сейчас одновременно идет 50 разных проектов.





После расшивки стопка документов передается на сканирование. Каждый оператор обрабатывает архивное дело «от корки до корки». Оцифровка ведется на так называемых планетарных сканерах: листок кладется на мягкую черную поверхность (на нее могут положить белый лист бумаги), прижимается стеклом, и «фотографируется» сверху с большим разрешением. На окнах в помещении, в котором стоит несколько десятков таких сканеров – светомаскировка, снимать со вспышкой тоже не разрешают, все это может повлиять на качество скана.



Вообще, качество проверяется на каждом этапе. Это все-таки дешевле, чем потом переделывать.
Залов-цехов с такими сканерами несколько, пришедшим на «экскурсию» показали только два из них, в других велась работа с «конфиденциальными документами», потому допуск без допуска туда запрещен. К ним могут относиться, как документы, содержащие персональную информацию (например, в документах ЦАМО замазаны адреса награжденных), так и коммерческая тайна, какой-нибудь нефтяной компании.



Лично на меня произвел впечатление сканер формата 2А0 (два А ноль) для оцифровки карт. Для понимания, А0 это размер 841 мм х 1189 мм (16 обычных листов формата А4), значит 2А0 это 1189 мм х 1682 мм. Это позволяет сканировать большинство карт из ЦАМО буквально за пару минут.



Впрочем, это не самый большой сканер, который участвовал в этом проекте – был еще и монстр 8А0, для которого, видимо, нужен отдельный зал.



Понятно, что такой сканер в магазине не купишь, надо либо заказывать, компаниям, которые их делают или проектировать и строить самому. В «ЭЛАР» решили пойти по второму пути, что оказалось выгоднее по ряду параметров. В частности, сверхбольшие сканнеры приходиться размещать на площадках заказчиков – например, в Эрмитаже, куда можно затащить не всякий импортный сканер (они могут весить порядка 3 тонн).
Есть дела, которые нельзя расшивать, то же самое относится к книгам. Их сканируют на специальных сканерах с треугольными подставками, в которых книга или дело раскрывается градусов на 90. Сверху его можно прижать таким же треугольным стеклом, что бы удержать страницы во время сканирования. Кстати, дневной норматив оператора при сканирования книг – порядка 1700 страниц – что то около 17 секунд на страницу, если исходить из 8 часового дня.



Для особо толстых книг пришлось даже сделать специальный сканер



После сканирования документы попадают в «цех» ретроконверсии. Здесь вообще запретили снимать, поскольку на экранах операторов могли оказаться документы с персональными данными. Честно говоря, я таковых не заметил, а вот документы из ЦАМО для нового проекта «Память народа» были во множестве.
Распознавание и описание документов ведется в «ручном» режиме операторами, хотя за ними стоят невидимые глазу технологии. Почему операторы? Потому что использовать системы распознавания можно далеко не всех документах. По своему опыту могу сказать, что даже старые книги очень плохо поддаются системам распознавания, за ними приходится много подчищать. Про донесения, напечатанные на чертзнаеткаких машинках на пожелтевших листах, а то и вовсе написанные от руки и говорить не приходиться. Впрочем, из них извлекается заголовок, названия упомянутых частей, авторы документа. Все это операторы вбивают в специальные поля.
Распознанные документы и книги также проходят дополнительную выверку, а в момент создания PDF к ним добавляется (тоже вручную) оглавление, которое связывается с соответствующими страницами.



Работа ведется исключительно с образами документов, которые хранятся на серверах в облаке. На локальных машинах операторов ничего нет. Причем, в Москве работает только малая часть тех, кто занимается ретроконверсией: из 3640 человек, только 340.
Значительную часть тех, кто работает над распознаванием текстов это надомники, которые могут работать в любое удобное для них время. Система учитывает их «каждое нажатие клавиш», внесенные изменения, правки. Интересно, что для того, чтобы не «палить» персональные данные, при обработке списков донесений о безвозвратных потерях, операторам выдавали лишь отдельные «кусочки» листа – например, только имена и фамилии без годов рождения. Кроме того, эти «кусочки» выдаются сразу двум операторам, после чего программа сравнивает – совпали ли их записи или нет. Это позволяет убрать большинство ошибок.



Кроме того, такая распределенная система позволяет быстро увеличивать численность работающих над проектом, например, в начале года, по проекту «Память народа» работало сразу 5000 человек. А в 2008 году, когда проходила основная работа над ОБД «Мемориал» их было 8000.
Теперь пару чайных ложек дегтя в эту бочку полную меда. «ЭЛАР» является исполнителем работ, хорошим и исполнительным исполнителем и во многом зависит от требований и возможностей заказчика. Хорошо, что у Минобороны есть бюджет на оцифровку документов и создание такой базы данных, а потому большинство претензий по полноте и устройству базы надо относить, конечно, к заказчику. Базы документов отражают действительность так, как она есть – с теми ошибками, которые в ней присутствуют. Исправление даже очевидных, идет со скрипом, что конечно затрудняет поиск. «Подвиг народа» привносит новые возможности в поиск, но я натыкался в ней на множество странностей, которые непонятно, как и кто может исправить. Создавать еще пользовательскую «надстройку» пока не планируется – в корпорации (справедливо) считают, что разные WIKI и пользовательские карты, обладают множеством недостатков, в них сложно проверить истинность тех или иных утверждений. Система модерации для такого проекта будет очень сложна и дорогостояща, а результат совсем неочевиден.



Также к заказчикам стоит отнести и такие вопросы: можно ли будет на сайте Эрмитажа посмотреть их коллекцию? Как оказалось сейчас оцифрована чуть ли не вся коллекция, которая состоит из 1,3 млн. предметов. Это не только картины, но и монеты и скульптуры и коллекция оружия. Пока Эрмитаж предполагает использовать все это для контроля фондов.



Не все гладко в проекте НЭБ.РФ – создании единой электронной библиотеки. Процесс идет, но не так быстро, как хотелось бы пользователю (то есть мне). Оказывается, из-за особенностей законодательства почти на полгода была задержана возможность регистрации через сайт Госулуг, да и сейчас регистрация через него не дает полного доступа ко всем ресурсам. Интересно, что были оцифрованы все 100% или другими словами 300 тонн диссертаций из хранилища РГБ (Ленинки) и весь карточный каталог. За несколько лет «ЭЛАР» может оцифровать и всю «Ленинку», если конечно на это будут выделены ресурсы. Конечно, скептики утверждают, что многие из хранящихся в ней книг никто никогда не будет читать, но я бы с этим поспорил. Тем более что к значительному массиву книг просто нет доступа – они штабелированы и не выдаются. UPD. С июля 2015 проект НЭБ.РФ переведен на сервера РГБ и теперь они им полностью управляют.



И завершу вновь на мажорной ноте – судя по тому, что я видел в коробках возле сканнеров и на экранах компьютеров в зале ретроконверсии – процесс оцифровки фондов ЦАМО продолжается, а значит, нас всех ожидают новые интересные находки.



Tags: ,

Posts from This Journal by “тест” Tag

  • Пичалька

    Летом купил мачетку от Cold Steel. Длинновата конечно - 21 дюйм, никуда ее не повесить толком, зато траву хорошо косила... В плюсах малая цена и…

  • Адвока-ааа-м!!

    Субъективный тест видеорегистраторов Тест был написан еще осенью 2012 года, но почему-то я не стал его выкладывать. Скорее всего из-за того, что…

  • NFC вокруг нас

    Субъективный тест мобильного телефона с чипом NFC Перед самым новым годом, я наткнулся в новостях на информацию о том, что МТС под своим брендом…

  • До Великих Лук и обратно

    Субъективный тест Lexand SG-615 PRO HD и Highscreen Black Box HD-mini plus В начале февраля мне, наконец, удалось съездить в деревню Чернушки,…

  • Кафе “Абразура”

    Субъективный и неканоничный тест пайка ИРП “Боевой” Мое знакомство с пайком ограничивалось службой в Советской Армии. Единственное, что…

  • Субъективный и внедорожный тест Prestigio Geovision 5135 Glonass

    Вообще то, в своих вылазках я обычно пользуюсь навигатором Garmin 62s или компьютером с подключенной по USB GPS-таблеткой, которую можно…


promo gistory март 6, 2014 20:25 14
Buy for 1 000 tokens
Ищу родственников тех, кто строил оборонительные на московском направлении, а также любую информацию связанную с этим. Воспоминания, фотографии, газетные вырезки, все что может рассказать о событиях лета-осени 1941 года. Значительную долю строителей составляли москвичи, но вместе с ними работали…

  • 1
Да, это очень полезное дело.

Вы не знаете, нынешний проект "память народа" и более ранние: obd-memorial и "подвиг народа" - используют одни и те же базы, или может получиться так, что данные могут "разъехаться"?

Напротив, данные должны "съезжаться" в Памяти народа" - там реализован единый поиск сразу по двум базам. Мне кажется, что она еще сыровата, однако один из руководителей Элара мне сказал, что поиск построен на совершенно новом уровне и можно искать не только через фамили-имя, но и через боевой путь части. Он так нашел новые документы про деда.

Очень интересно.

Молодцы!
Жаль что они не могут выделить толкового пресс-секретаря по всем трем проектам Минобороны, который бы разъяснял трудные вопросы и вообще был живой связью между пользователем и ЭЛАРОМ.

Они вообще то вполне толковые, может просто вопросы до них не доходят. Много проблем из-за того, что они все же исполнители, а владелец и документов и базы Минобороны.
Т.е. они не всегда могут на что-то повлиять - есть ТЗ и регламенты и они в их рамках очень четко работают.

Но с учетом большой общественной значимости проектов, конечно необходима "обратная связь", может не с первого раза, а постепенно, что-нибудь из контактов с наиболее активными пользователями и получилось бы.

Спасибо, очень интересно. Проектом "Память народа" просто восхищаюсь. Его бы возможности лет мне пять назад, чтобы добирать в зале ЦАМО только центральные управления, статистику/БТиМВ/УКАРТ...

Я так понял, что он пополняется, хотя от прямого ответа об объемах и перспективах они ушли.

Большое спасибо за пост. И низкий поклон за их работу.
Большие сканеры впечатляют. Система с надомными работниками вызывает уважение. Значит управленец там с головой сидит. Дешево и сердито.

Деньги им приходится очень хорошо считать. Но у них и объемы огромные за все время они обработали что то около полумиллиарда листов. Это конечно далеко не только ЦАМО, но и всякие коммерсы

Вот это супер-рассказ, спасибо большое!

>один из руководителей Элара мне сказал, что поиск построен на совершенно новом уровне и
>можно искать не только через фамили-имя, но и через боевой путь части

В теории это, конечно, хорошо. А на практике там очень сложно что-либо найти.
Я сделал для себя базы данных сайтов podvignaroda.ru и pamyat-naroda.ru в формате xlsb:
БД "Память народа" 18523 ЖБД и 1068597 Оперативных документов (последнее обновление 2015-05-15)
БД "Подвиг народа" ~70000 карт и документов из раздела "География войны" (последнее обновление 2010-11-23)

С помощью фильтров Excel очень удобно осуществлять мультикритериальный поиск.
Надеюсь, когда-нибудь Элар созреет и сделает доступными для скачивания официальные БД опубликованных документов. А при обновлении коллекций будет выкладывать перечени добавленных документов.

Я кстати хочу с ними пообщаться на эту тему, чтобы понять, чего и почему. Раньше была идея "затрудним жизнь черным копателям". Сейчас даже не знаю почему ввели водяные знаки и позакрывали простое скачивание.

За ссылки спасибо. Я чувствую, что назревает "альтернативный интерфейс" для базы

Edited at 2015-07-17 11:38 am (UTC)

Спасибо за репортаж. С большим удовольствием прочитал.
Низкий поклон тем, кто все это делает, в том числе и организует.

Зафрендил. ;))

Там людям денег не платят, а соки выжимают по полной программе. Упаси боги туда на работу устраиваться.

Работу над НЭБ "Элар" в июле отдал в РГБ.

Да, я не написал это, добавли апдейт.

(Deleted comment)
ошибки там двух типов:
а) которые получились при расшифровке
б) которые непосредственно в документах

по первым есть определенная процедура исправления, которой могут воспользоваться зарегистрированные пользователи.
по вторым шансов почти нет - документ расшифровывается "как есть" и это их жесткая позиция, пока вариантов нет

Что касается охраны труда, то там много разных операций. Наиболее вредная наверное расшивка документов - пыль. После него сканирование - тоже может быть пыль, но в меньших объемах. Но думаю, что все в пределах, во всяком случае запаха пыли я не помню, иной раз в архивах он чувствуется.
Что касается операторов за компьютерами, то их работа нормируется существующими законами по охране труда, в частности там кажется есть напоминание о необходимости сделать перерыв. Что же касается домашних операторов, то они возможно сами распоряжаются своим временем, хотя и тут система имеет возможность делать им принудительные перерывы в работе.

Охрана труда важный, но специфический вопрос - лично я его не поднимал

(Deleted comment)

И, пожалуйста, скажите, что НЕ НУЖНО в базах указывать новое название области или района - ВМЕСТО того, который был в документах.
Это создаёт ещё большую путаницу.
Было бы чудесно, если бы в базах отдельной строкой появилась информация, обозначающая название населённого пункта во время войны и после АТД.

Отличный проект, надо и в регионах подобное запустить - объединенными силами художественных галерей, музеев, центральных краевых библиотек и гос. архивов - взяться за оцифровку краевого наследия)))

С Наступающим всех! Подскажите, что касается Памяти народа, у меня у одного объемные документы 10+ страниц, например Отчет о боевых действиях 16А, открываются только до 10-го листа? В техподдержке проблему вроде признали, но что-то мне не верится, что пол года сайт проработал с таким системным багом.

С наступающим и успехов в поиске. Проблема 11 страницы остается, говорят она лечится вот так http://mordig81.livejournal.com/72740.html

  • 1
?

Log in

No account? Create an account