Опис документа

Рассматривается задача оценивания вероятностей появления строк в документах. Для решения задачи использована модель n-грамм. Для решения проблемы большого числа параметров предложено использовать модель n-грамм на классах. Для решения проблемы нулевых вероятностей появления строк применяют три дисконтные модели: Гуда—Тьюринга, Катца и абсолютного дисконтирования. Описан проведенный эксперимент на синтетических данных. Предлагаемая модель проиллюстрирована вычислительным экспериментом на реальных данных. Ключевые слова: языковая модель, дисконтная модель, n-граммы на классах, модель Гуда—Тьюринга, модель Катца, абсолютное дисконтирование