В Новосибирске автоматизировали процесс распознавания рукописных исторических документов
Фото: проект «Волостной суд постановил…»
В НГУ разработали систему для автоматического распознавания книг решений волостных судов начала XX века.
Магистрант факультета информационных технологий (ФИТ) НГУ Степан Гудков разработал программное обеспечение, которое позволяет автоматизировать процесс распознавания рукописных исторических документов, а именно — книг решений волостных судов, которые существовали в России в начале XX века. Работа направлена на ввод в научный оборот решений таких судов, в которых отражены многие аспекты жизни сибирских крестьян.
В начале XX века среди крестьянского сословия в России были так называемые волостные суды, которые относились к гражданскому судопроизводству. Их решения записаны в толстых журналах, которые прошивались шнуром и скреплялись печатью. Они представляют собой кладезь информации — описание жизни и быта российских и сибирских крестьян предреволюционной эпохи.
«Хотя это и документы суда, но на самом деле это не про суд, это про жизнь в разнообразных ее проявлениях. Знакомясь с решениями, мы имеем картину разных крестьянских занятий, узнаем, какая у них была повседневная жизнь, повседневные заботы, какие характеры и привычки. Все это разнообразие мы видим в решениях волостного суда. Они нам дают облик крестьянской России, которая потом ушла в течение XX века, когда страна стала совсем другой. Это фотографический портрет крестьянской России», — рассказал старший научный сотрудник Института истории СО РАН Алексей Кириллов.
Расшифровка таких документов — очень трудоемкий процесс. «Могу привести пример: в ближайшее время мы выпустим две книги, в которых представлены несколько сотен решений волостных судов. На эту работу у нас ушло три года. Если мы поставим задачу распознать тексты всех решений, то, если это делать вручную, уйдет не один десяток лет. Применение же информационных технологий позволяет автоматизировать и значительно ускорить эту работу», — добавил Алексей Кириллов.
Для решения задачи распознавания таких текстов разработчики НГУ применили алгоритмы машинного зрения, которые позволяют распознавать линии, отдельные символы и буквы. Система принимает на вход изображение страницы из книги решений волостных судов. Оно разбивается на несколько небольших фрагментов, каждый из которых делится на отдельные строки текста, для чего можно использовать нейросети вроде YOLO. После этого изображение строки нужно конвертировать в текст. Есть несколько путей: бежать по строке окном динамического размера – вырезать изображения букв и подавать их модели-распознавателю (можно использовать ансамбль сверточных нейронных сетей); решать задачу преобразования последовательности (текста рукописного) в последовательность (текста печатного) с помощью сверточно-рекуррентных нейросетей или сетей архитектуры трансформера, что требует большого количества вручную расшифрованных строк для обучения модели; использовать метод обучения с малым количеством обучающих образцов, который нами еще не опробован и имеет безусловное преимущество, поскольку требует очень мало данных для обучения модели. Распознанный текст, конечно, будет содержать ошибки, поэтому требуется провести его постобработку: хотя бы сверить по словарям. В результате должен быть получен текстовый файл, содержащий распознанный текст», — пояснил Степан Гудков.
Дальнейшая доработка алгоритма предполагает, чтобы, исходя из смысла и контекста, система предлагала возможные варианты написания, правки, на основании которых человек мог принять решение, какой вариант корректный.
В перспективе предполагается создать полноценную информационную систему с поисковыми интерфейсами. В такой системе каждый документ снабжен всеми метаданными, из него извлечены все слова, он машиночитаемый. Система позволяет вести контекстный поиск, осуществлять выборку по разным критериям — по селению, персонам, категориям дел и так далее.
В дальнейшем данная разработка может быть применима для разбора любых рукописных документов из архивов — писем или дневников, созданных в дореволюционный период — с середины 19 века, когда появился современный русский язык, и до 1917 года.
