Программная система «Стемматизация и генерация словоформ казахского языка»
Семинар: Информационные технологии
Начало заседания: 14:35
Дата выступления: 13 Ноябрь 2018
Организация: ИВТ СО РАН, НГУ
Авторы: член-корр. РАН Федотов А.М., д.т.н. Барахнин В.Б., к.филол.н. Кожемякина О.Ю., Бакиева А.М., Лукпанова Л.Х.
Программная система решает задачу стемматизации и генерации словоформ изменяемых частей речи казахского языка: существительных, прилагательных и глаголов. В основе программной системы лежат оригинальные алгоритмы синтеза и анализа словоформ казахского языка, базирующиеся на принципах разбиения слов на флективные классы. С использованием предложенных алгоритмов создана база данных PostgreSQL, содержащая в себе все виды аффиксов казахского языка (в общей сложности более 5500).
Разработанные алгоритмы могут применяться на этапе морфологического анализа в поисковых системах, системах автореферирования и вопросно-ответных системах, системах автоматического анализа поэтических текстов, при построении тезаурусов и онтологий, а также для изучения морфологии казахского языка.