Опис документа

Предлагается разработанный и программно реализованный автором статистический алгоритм Brainsterm решения задачи выделения терминов из текстовых документов, разбитых на рубрики. Термином считается пара слов, характеризующая документ с позиции его принадлежности к одной или нескольким рубрикам. В работе приводятся результаты сравнения эффективности упомянутого алгоритма с аналогичными по назначению алгоритмами TF-IDF и LSI на задаче классификации. Для алгоритма Brainsterm были получены высокие показатели точности классификации (до 85 %), сравнимые с соответствующими показателями для алгоритма LSI и превосходящие результаты, полученные с использованием алгоритма TF-IDF. Высокая эффективность и скорость работы подтверждают практическую значимость предложенного алгоритма. Ключевые слова: выделение терминов, классификация текстов, кластеризация текстов, векторная модель, рубрикация текстов, навигация по документам, коллекции документов, автоматическая обработка, значимость