Разработка гибридного алгоритма распознавания именованных сущностей в узбекском языке (по материалам кандидатской диссертации)
Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30
Дата выступления: 26 Ноябрь 2024
Организация: НГУ
Авторы: Менглиев Давлатёр Бахтиярович
Из-за ограниченных лингвистических ресурсов на узбекском языке, а также ввиду его агглютинативного строя, задача распознавания именованных сущностей (РИС) в текстах на узбекском языке представляет особую сложность. В диссертационной работе разработан гибридный алгоритм для эффективного решения задачи РИС в узбекском языке с учетом диалектного разнообразия, объединяющий правило-ориентированные методы предварительной обработки данных и современные нейросетевые модели.
В рамках исследования сформирован аннотированный корпус объемом 10 000 предложений, включающий тексты законодательных актов, юридических документов, материалов с новостных сайтов, а также специально созданных предложений. Данный корпус содержит широкий набор именованных сущностей. Разработаны и систематизированы лингвистические правила и словари, учитывающие морфологические и синтаксические особенности узбекского языка, что улучшило качество распознавания именованных сущностей. Эти словари могут быть интегрированы в другие системы обработки текстов на узбекском языке. Впервые проведен сравнительный анализ эффективности моделей глубокого обучения (BERT, LSTM, SpaCy) в задаче РИС для узбекского языка, выявлены особенности применения этих моделей к агглютинативным языкам и предложены рекомендации по их оптимизации. Разработаны алгоритм и словарь для замены диалектных слов на их литературные эквиваленты.
Результаты исследования внедрены в работу (процесс документооборота, научно-образовательная деятельность) различных организаций в Узбекистане.