Формализована задача оптимального разбиения коллекций документов. Критерием качества разбиения является максимизация меры подобия между документами в кластерах. Предлагаемый подход сведен к задаче линейного целочисленного программирования с бинарными переменными.