Опис документа

В данной работе рассматривается анализ эффективности семантических сетей для нахождения дубликатов в текстовых документах. В данной работе анализируются такие алгоритмы как N-грамм, алгоритм аппроксимированного сходства, алгоритмы схемы підписи, алгоритмы на основе инвертированного индекса. Постановка задачи формулируется следующим образом: необходимо провести сравнительный анализ всех предложенных в работе алгоритмов, протестировать все алгоритмы на скорость и ложные срабатывания, а также выявить слабые и сильные стороны алгоритма, предложить наиболее оптимальный алгоритм для определения различного рода плагиата. Таким образом, для решения поставленной задачи необходимо: - проанализировать существующие подходы для выявления дубликатов; - проанализировать методы нахождения плагиатов; - выделить наиболее оптимальные методы для анализа текста на наличие плагиата. ПЛАГИАТ, ДУБЛИКАТ, СТИЛОМЕТРИЯ, СТИЛОМЕТРИЧЕСКИЙ АНАЛИЗ, СЕМАНТИЧЕСКОЕ ВЫЯВЛЕНИЕ, СИНТАКСИЧЕСКОЕ ВЫЯВЛЕНИЕ, СЕМАНТИЧЕСКИЕ СЕТИ, ТОКЕНИЗАЦИЯ, СИНСЕТ, ИНВЕРТИРОВАННЫЙ ИНДЕКС, N ГРАММ У даній роботі розглядається аналіз ефективності семантичних мереж для знаходження дублікатів в текстових документах. У даній роботі аналізуються такі алгоритми як N-грам, алгоритм апроксимованого подібності, алгоритми схеми підпису, алгоритми на основі інвертованого індексу. Постановка завдання формулюється так: необхідно провести порівняльний аналіз усіх запропонованих у роботі алгоритмів, протестувати всі алгоритми на швидкість і помилкові спрацьовування, а також виявити слабкі і сильні сторони алгоритму, запропонувати найбільш оптимальний алгоритм для визначення різного роду плагіату. Таким чином, для вирішення поставленого завдання необхідно: - проаналізувати існуючі підходи для виявлення дублікатів; - проаналізувати методи знаходження плагіатом; - виділити найбільш оптимальні методи для аналізу тексту на наявність плагіату. ПЛАГІАТ, ДУБЛІКАТ, СТІЛОМЕТРІЯ, СТІЛОМЕТРИЧНИЙ АНАЛІЗ, СЕМАНТИЧНЕ ВИЯВЛЕННЯ, СИНТАКСИЧНЕ ВИЯВЛЕННЯ, СЕМАНТИЧНА МЕРЕЖА, ТОКЕНІЗАЦІЯ, СІНСЕТ, ІНВЕРТОВАНИЙ ІНДЕКС, N-ГРАМ