Опис документа

В статье описывается проблема создания классификации для анализа структуры сайта. В ней рассмотрены основные практические подходы к решению задач, связанных с извлечением, кластеризацией и классификацией данных. Так, в статье показано, что внутренние ссылки сайта могут быть легко получены через простой рекурсивный алгоритм. Особое внимание уделено методам выделения классов документов по ссылкам посредством таких методов, как синтаксический анализ, частотный анализ, базовый алгоритм иерархической кластеризации. Статья предназначена для исследователей из областей Web-программирования, извлечения информации и интеллектуального анализа данных.