Оценка сложности текста методами машинного обучения с использованием количественных параметров.
Семинар: Информационные технологии в задачах филологии и компьютерной лингвистики
Начало заседания: 17:30
Дата выступления: 3 Декабрь 2024
Организация: НГУ
Авторы: Обершт София Дмитриевна
Оценка сложности текста в некоторых вопросах компьютерной лингвистики, в частности, в задачах обработки естественного языка (автоматический анализ текста, машинный перевод, изучение языка как иностранного) может трактоваться как задача классификации; традиционно дескрипторами выступают количество лет академического образования, общеевропейские компетенции владения иностранным языком, разделение на "простой/сложный" классы. Кроме применения формул читабельности текста, включающих в себя количественные параметры, такие как средняя длина предложения и средняя длина слов, для оценки сложности текста разрабатываются модели на основе методов машинного обучения и глубоких нейронных сетей. Лингвистические параметры таких моделей содержат лексические, семантические, синтаксические и морфологические особенности текста; существующие формулы читабельности используются в анализе как отдельная группа признаков. Выбор параметров и отбор тех, которые дают наибольший вклад в результат, варьируются в зависимости от цели исследования и методов; рассматривается влияние каждой группы признаков на эффективность прогнозирования. В качестве алгоритмов классификации применяются классические методы машинного обучения (линейная регрессия, метод случайного леса), нейронные сети (сверточные, с прямой связью и др.) и гибридные модели, включающие в себя оба подхода. Однако в большинстве исследований остается открытым вопрос обоснования выбора модели и отбора признаков. В работе представлен анализ различных подходов, демонстрирующих потенциал для достижения высококачественных результатов, предложены перспективные варианты оценки сложности текста методами машинного обучения с использованием количественных параметров.