Опис документа

Основная цель работы — определение пар текстов с максимальной тематической близостью из заданного множества. Каждый текст представлен доминантами с непустыми вербальными кластерами (частичными лексико-семантическими полями). В качестве меры близости пары текстов принята сумма "степеней смысловых подобий доминант". "Степень смыслового подобия доминанты" есть сумма отношений размера пересечения ее вербальных кластеров в различных текстах к размерам кластеров. Приведены результаты экспериментов по кластеризации с использованием различных методов "взвешивания" слов. Ключевые слова: кластеризация текстов, бинарные классифицирующие таксоны, доминанты, кластеры слов, лексико-семантическое поле, степень смыслового подобия