Зведений каталог бібліотек Харкова

 

ШІГенісаретський, Р. Д.
    Аналіз ефективності використання семантичної мережі для визначення дублікатів речень в текстових документах [Текст] : магістерська атестаційна робота, пояснювальна записка / кер. роботи доц. Чала Л.Е. ; ХНУРЕ, Кафедра Штучного інтелекту. — Харків, 2013. — 107 с.


- Анотація:

В данной работе рассматривается анализ эффективности семантических сетей для нахождения дубликатов в текстовых документах. В данной работе анализируются такие алгоритмы как N-грамм, алгоритм аппроксимированного сходства, алгоритмы схемы підписи, алгоритмы на основе инвертированного индекса. Постановка задачи формулируется следующим образом: необходимо провести сравнительный анализ всех предложенных в работе алгоритмов, протестировать все алгоритмы на скорость и ложные срабатывания, а также выявить слабые и сильные стороны алгоритма, предложить наиболее оптимальный алгоритм для определения различного рода плагиата. Таким образом, для решения поставленной задачи необходимо: - проанализировать существующие подходы для выявления дубликатов; - проанализировать методы нахождения плагиатов; - выделить наиболее оптимальные методы для анализа текста на наличие плагиата. ПЛАГИАТ, ДУБЛИКАТ, СТИЛОМЕТРИЯ, СТИЛОМЕТРИЧЕСКИЙ АНАЛИЗ, СЕМАНТИЧЕСКОЕ ВЫЯВЛЕНИЕ, СИНТАКСИЧЕСКОЕ ВЫЯВЛЕНИЕ, СЕМАНТИЧЕСКИЕ СЕТИ, ТОКЕНИЗАЦИЯ, СИНСЕТ, ИНВЕРТИРОВАННЫЙ ИНДЕКС, N ГРАММ У даній роботі розглядається аналіз ефективності семантичних мереж для знаходження дублікатів в текстових документах. У даній роботі аналізуються такі алгоритми як N-грам, алгоритм апроксимованого подібності, алгоритми схеми підпису, алгоритми на основі інвертованого індексу. Постановка завдання формулюється так: необхідно провести порівняльний аналіз усіх запропонованих у роботі алгоритмів, протестувати всі алгоритми на швидкість і помилкові спрацьовування, а також виявити слабкі і сильні сторони алгоритму, запропонувати найбільш оптимальний алгоритм для визначення різного роду плагіату. Таким чином, для вирішення поставленого завдання необхідно: - проаналізувати існуючі підходи для виявлення дублікатів; - проаналізувати методи знаходження плагіатом; - виділити найбільш оптимальні методи для аналізу тексту на наявність плагіату. ПЛАГІАТ, ДУБЛІКАТ, СТІЛОМЕТРІЯ, СТІЛОМЕТРИЧНИЙ АНАЛІЗ, СЕМАНТИЧНЕ ВИЯВЛЕННЯ, СИНТАКСИЧНЕ ВИЯВЛЕННЯ, СЕМАНТИЧНА МЕРЕЖА, ТОКЕНІЗАЦІЯ, СІНСЕТ, ІНВЕРТОВАНИЙ ІНДЕКС, N-ГРАМ

- Теми документа

  • Дипломні роботи студентів ХНУРЕ // Дипломні роботи кафедри Штучного інтелекту (ШІ)
  • Дипломні роботи студентів ХНУРЕ // Магістерські атестаційні роботи кафедри ШІ



Наявність
Установа Кількість Документ на сайті установи
Наукова бібліотека Харківського національного університету радіоелектроніки 1 Перейти на сайт