20. Средства анализа текстовой информации.

Средства Oracle — Oracle Text

Система Oracle Text обеспечивает решение следующих задач анализа текстовой информации:

- поиск документов по их содержанию;

- классификацию документов;

- кластеризацию документов;

- извлечение ключевых понятий;

- автоматическое аннотирование;

- поиск в документах ассоциативных связей;

Основной задачей, на решение которой нацелены средства Oracle Text, является задача поиска документов по их содержанию — по словам или фразам, которые при необходимости комбинируются с использованием булевых операций. Результаты поиска ранжируются по значимости, с учетом частоты встречаемости слов запроса в найденных документах. Для повышения полноты поиска Oracle Text предоставляет ряд средств расширения поискового запроса, среди которых можно выделить три группы:

I. Расширение слов запроса всеми морфологическими формами, что реализуется привлечением знаний о морфологии языка.

Расширение слов запроса близкими по смыслу словами за счет подключения тезауруса — семантического словаря.
Расширение запроса словами, близкими по написанию и по звучанию — нечеткий поиск и поиск созвучных слов. Нечеткий поиск целесообразно применять при поиске слов с опечатками, а также в тех случаях, когда возникают сомнения в правильном написании фамилии, названия организации и т. п.

Средства от IBM — Intelligent Miner for Text

Система содержит следующие основные утилиты для решения задач анализа текстовой информации:- утилита определения языка (Language Identification Tool) — автоматическое определение языка, на котором составлен документ;

- утилита классификации (Categorisation Tool) — автоматическое отнесение текста к некоторой категории (входной информацией на обучающей фазе работы этого инструмента может служить результат работы следующей утилиты — Clusterisation Tool);

- утилита кластеризации (Clusterisation Tool) — разбиение большого множе¬ства документов на группы по близости стиля, формы, различных частот¬ных характеристик выявляемых ключевых слов;

- утилита извлечения ключевых понятий (Feature Extraction Tool)— выяв¬ление в документе ключевых слов (собственные имена, названия, сокра¬щения) на основе анализа заданного заранее словаря;

- утилита автоматического аннотирования (Annotation Tool) — аннотации к исходным текстам.

Средства SAS Institute — Text Miner

Text Miner весьма универсальна, поскольку может работать с текстовыми документами различных форматов — в базах данных, файловых системах и далее в web.

Text Miner обеспечивает логическую обработку текста в среде пакета SAS Enterprise Miner. Это позволяет пользователям обогащать процесс анализа данных, интегрируя неструктурированную текстовую информацию с существующими структурированными данными, такими как возраст, доход и характер покупательского спроса.

Программа Text Miner позволяет определять, насколько правдив тот или иной текстовый документ. Обнаружение лжи в документах производится путем анализа текста и выявления изменений стиля письма, которые могут возникать при попытке исказить или скрыть информацию. Для поиска таких изменений используется принцип, заключающийся в поиске аномалий и трендов среди записей баз данных без выяснения их смысла. При этом в Text Miner включен обширный набор документов различной степени правдивости, чья структура принимается в качестве шаблонов. Каждый документ, "прогоняемый" на детекторе лжи, анализируется и сравнивается с этими эталонами, после чего программа присваивает документу тот или иной индекс правдивости.

Средства Мегапьютер Интеллидженс — TextAnalyst

Российская компания Мегапьютер Интеллидженс, известная своей системой PolyAnalyst класса Data Mining, разработала также систему TextAnalyst. Она решает следующие задачи Text Mining:

- создание семантической сети большого текста;

- автоматическое аннотирование текста;

- поиск по тексту;

- классификацию документов;

- кластеризацию текстов.

1 / 61 2 3 4 5 6 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
09.03.2016386.41 Кб132007-uch-posob-vargapetyan-1.pdf
#
26.03.2015688.13 Кб192010-Rules_ru.pdf
#
26.03.2015208.32 Кб152011-OS-MK2-otvety_1-8.docx
#
01.07.2025102.6 Кб12014 Психологія (Оформлення курсової).docx
#
01.07.2025884.74 Кб12016_Metod_Vkaz_do_prak_robit_PR_Brosh.doc
#
01.04.202580.9 Кб020_30_ИИ_МК2.doc
#
24.11.201956.99 Кб622-27.docx
#
28.04.20192.02 Mб6221-.doc
#
01.07.20252.13 Mб12287_Інтерактивні технології (1).doc
#
20.12.201828.82 Кб1023. этапы моделироввания.docx
#
26.03.20153.6 Mб15232630.pdf