Опис документа

Рассмотрена проблема быстрого сравнения текстовых документов. В прикладных задачах акцент сделан на поиск плагиата и на фильтрацию текстов в системах защиты от утечек информации. Краткий обзор решений, основанных на традиционных СУБД, показал их ограничения с точки зрения масштабируемости системы. В качестве альтернативы предложено использовать нереляционные СУБД с возможностью распределения поискового индекса между узлами системы. Для решения задач текстового поиска в работе предложен вариант представления отпечатков текстов в виде "ключ — значение", выполнена программная реализация данной модели и проведены эксперименты, подтвердившие приемлемость модели с точки зрения реализации на горизонтально масштабируемой платформе. Ключевые слова: фильтрация текста, сравнение текстов, большие данные, обнаружение плагиата, системы предотвращения потери данных.