Автоматизированная разметка текста в системе Национального Корпуса Русского Языка

Семинар: Информационно-вычислительные технологии в задачах поддержки принятия решений
Начало заседания: 11:00

Дата выступления: 14 Октябрь 2025

Организация: НГУ (Новосибирск)

Авторы: Смаль Иван Андреевич

При построении корпусов текстов очень важным является качество различных типов разметки - разметки морфологии, синтаксиса, лемматизации, и других. Для больших корпусов текстов разметка часто производится автоматически с использованием методов машинного обучения. 

В докладе будет две части. В первой будет представлен обзор системы, которая в данный момент используется для автоматизированной разметки текста в Национальном Корпусе Русского Языка. Во второй части речь пойдет о прогрессе разработки модуля для разметки семантики слов в тексте.

Семинар будет проведен в смешанном формате. Очное заседание пройдет в конференц-зале ФИЦ ИВТ (к.513), дистанционно к семинару можно будет подключиться по ссылке https://vcs-6.ict.nsc.ru/rooms/grz-ayy-7ne/join

Для студентов и аспирантов, находящихся в Новосибирске и не имеющих причин для дистанционного подключения, очное присутствие обязательно.