Как научить компьютер титлам и буквицам

18
октября
2024

В Центральном доме ученых РАН прошло заседание Секции кибернетики, на котором доцент кафедры кибернетики Института интеллектуальных кибернетических систем НИЯУ МИФИ Дмитрий Демидов выступил с докладом «Технология распознавания рукописей Древней Руси».

 

 

В своем выступлении Дмитрий Демидов сделал обзор основных элементов технологии распознавания рукописей XI-XVII веков, оставшихся нам в наследие от Древней Руси.

Рассматривались такие особенности древнего языка как использование надстрочных знаков и титл для сокращений слов, практически полное отсутствие пунктуации в XI веке и её развитие в следующих веках.

Отмечались и особенности графического оформления рукописей: орнаменты, вязь, буквицы, разнообразие начерков и отклонений от основных рукописных шрифтов.

Участникам секции была представлена технология итеративной человеко-машинной обработки рукописей, начиная от предварительной фазы разрезки сканированных изображений разворотов на страницы, переходя к сегментации и классификации символов, и заканчивая синтезом редактируемых представлений текстов, включая указания для песнопений в виде так называемых крюков и знамен.

 

 

Дмитрий Демидов рассказал о предварительных результатах трёхлетней работы коллектива НИЯУ МИФИ и ИРЯ РАН по созданию Корпуса рукописного наследия Древней Руси.  Одним из результатов этой работы стало появление на портале slavcorpora.ru каталога рукописей с режимами поиска по тексту, изображениям орнаментов, вязи и буквиц. Также активно наполняется морфологический словарь, который предполагается использовать как для лингвистической коррекции распознаваемых текстов, так и для задач автоматического синтаксического разбора.

Подробнее о проекте МИФИ по распознаванию древнерусских рукописей читайте здесь. Проект поддержан в рамках Научного направления программы «Приоритет 2030».

 

113