Опис документа

Рассмотрены процедуры обработки и анализа текстовой информации на основе учета структуры документа. Приведены основные модели представления текстов в задачах машинного обучения. Показана эффективность использования частично структурированных моделей для информационного поиска, автоматического аннотирования, выявления нечетких дубликатов и классификации. Наряду с известными подходами в работе излагаются предложенные авторами процедуры, учитывающие особенности двуязычных библиографических документов и позволяющие проводить высокоточную классификацию. Ключевые слова: интеллектуальный анализ текстовых данных, модель текстового документа, информационный поиск, автоматическое аннотирование, выявление нечетких дубликатов, классификация двуязычных библиографических документов.