Автор: Сидоренко А.Л., Раков С.А., Кулик А.С., Чухрай А.Г., Завгородний А.Ю.
-
Анотація:
Проблема обнаружения строк, не являющихся дубликатами, но представляющих одну сущность реального мира, часто встречается в системах повышения качества данных информационных систем. Такие похожие строки могут появляться в результате ошибок при вводе данных или использования аббревиатур. Исследуемая в работе проблема также тесно связана с проблемой слияния баз данных и является сложно решаемой, если требования высокой точности и скорости получения решения выдвигаются одновременно. В данной работе предлагаются два высокоточных метода поиска похожих строк для случаев, когда возможность использования аббревиатур может либо учитываться, либо нет. Показаны результаты применения методов на реальных данных, подтверждающие целесообразность их в системах повышения качества данных информационных систем.
-
Електронні версії документа:
-
Є складовою частиною документа:
-
Теми документа
-
УДК // Бioлогiчні науки в цілому
-
Праці співробітників ХАІ // Завгородній А.Ю./Завгородний А.Ю.
-
Праці співробітників ХАІ // Кулік Анатолій Степанович/Кулик Анатолий Степанович/Kulik A.
-
УДК // Системи автоматичного керування в цілому. Кібернетичні характеристики систем
-
Праці співробітників ХАІ // Чухрай А.Г./Chukhray A.
|