Предложен способ классификации гипертекстовых документов, полученных из неструктурированных источников информации, на основе автоматического выделения полезной информации и удаления служебных данных html-страниц. Ключевые слова: обработка html-страниц, сингулярное выражение, латентно-семантический анализ