С ростом популярности метасети Интернет растет число Интернет-сайтов и количество информации, которую эти сайты представляют. Однако основной объем текста этих страниц в настоящее время, как правило, составляют информационные блоки, не несущие полезной информации для пользователя. В статье рассмотрен метод автоматического разделения HTML-страниц на незначимую и содержательную части. Ключевые слова: коллекции документов, автоматическая обработка, значимость, информация, поисковые системы, индексация текстов.