Как научить компьютер титлам и буквицам
В Центральном доме ученых РАН прошло заседание Секции кибернетики, на котором доцент кафедры кибернетики Института интеллектуальных кибернетических систем НИЯУ МИФИ Дмитрий Демидов выступил с докладом «Технология распознавания рукописей Древней Руси».
В своем выступлении Дмитрий Демидов сделал обзор основных элементов технологии распознавания рукописей XI-XVII веков, оставшихся нам в наследие от Древней Руси.
Рассматривались такие особенности древнего языка как использование надстрочных знаков и титл для сокращений слов, практически полное отсутствие пунктуации в XI веке и её развитие в следующих веках.
Отмечались и особенности графического оформления рукописей: орнаменты, вязь, буквицы, разнообразие начерков и отклонений от основных рукописных шрифтов.
Участникам секции была представлена технология итеративной человеко-машинной обработки рукописей, начиная от предварительной фазы разрезки сканированных изображений разворотов на страницы, переходя к сегментации и классификации символов, и заканчивая синтезом редактируемых представлений текстов, включая указания для песнопений в виде так называемых крюков и знамен.
Дмитрий Демидов рассказал о предварительных результатах трёхлетней работы коллектива НИЯУ МИФИ и ИРЯ РАН по созданию Корпуса рукописного наследия Древней Руси. Одним из результатов этой работы стало появление на портале slavcorpora.ru каталога рукописей с режимами поиска по тексту, изображениям орнаментов, вязи и буквиц. Также активно наполняется морфологический словарь, который предполагается использовать как для лингвистической коррекции распознаваемых текстов, так и для задач автоматического синтаксического разбора.
Подробнее о проекте МИФИ по распознаванию древнерусских рукописей читайте здесь. Проект поддержан в рамках Научного направления программы «Приоритет 2030».