Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
20_30_ИИ_МК2.doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
80.9 Кб
Скачать

20. Средства анализа текстовой информации.

Средства Oracle — Oracle Text

Система Oracle Text обеспечивает решение следующих задач анализа тексто­вой информации:

- поиск документов по их содержанию;

- классификацию документов;

- кластеризацию документов;

- извлечение ключевых понятий;

- автоматическое аннотирование;

- поиск в документах ассоциативных связей;

Основной задачей, на решение которой нацелены средства Oracle Text, явля­ется задача поиска документов по их содержанию — по словам или фразам, которые при необходимости комбинируются с использованием булевых опе­раций. Результаты поиска ранжируются по значимости, с учетом частоты встречаемости слов запроса в найденных документах. Для повышения полно­ты поиска Oracle Text предоставляет ряд средств расширения поискового за­проса, среди которых можно выделить три группы:

I. Расширение слов запроса всеми морфологическими формами, что реали­зуется привлечением знаний о морфологии языка.

  1. Расширение слов запроса близкими по смыслу словами за счет подключе­ния тезауруса — семантического словаря.

  2. Расширение запроса словами, близкими по написанию и по звучанию — нечеткий поиск и поиск созвучных слов. Нечеткий поиск целесообразно применять при поиске слов с опечатками, а также в тех случаях, когда возникают сомнения в правильном написании фамилии, названия органи­зации и т. п.

Средства от IBM — Intelligent Miner for Text

Система содержит следующие основные утилиты для решения задач анализа текстовой информации:- утилита определения языка (Language Identification Tool) — автоматическое определение языка, на котором составлен документ;

- утилита классификации (Categorisation Tool) — автоматическое отнесение текста к некоторой категории (входной информацией на обучающей фазе работы этого инструмента может служить результат работы следующей утилиты — Clusterisation Tool);

- утилита кластеризации (Clusterisation Tool) — разбиение большого множе¬ства документов на группы по близости стиля, формы, различных частот¬ных характеристик выявляемых ключевых слов;

- утилита извлечения ключевых понятий (Feature Extraction Tool)— выяв¬ление в документе ключевых слов (собственные имена, названия, сокра¬щения) на основе анализа заданного заранее словаря;

- утилита автоматического аннотирования (Annotation Tool) — аннотации к исходным текстам.

Средства SAS Institute — Text Miner

Text Miner весьма универсальна, поскольку может работать с текстовыми документами различных форматов — в базах данных, файловых системах и далее в web.

Text Miner обеспечивает логическую обработку текста в среде пакета SAS Enterprise Miner. Это позволяет пользователям обогащать процесс анализа данных, интегрируя неструктурированную текстовую информацию с существующими структурированными данными, такими как возраст, доход и характер покупательского спроса.

Программа Text Miner позволяет определять, насколько правдив тот или иной текстовый документ. Обнаружение лжи в документах производится путем анализа текста и выявления изменений стиля письма, которые могут возникать при попытке исказить или скрыть информацию. Для поиска таких изменений используется принцип, заключающийся в поиске аномалий и трендов среди записей баз данных без выяснения их смысла. При этом в Text Miner включен обширный набор документов различной степени правдивости, чья структура принимается в качестве шаблонов. Каждый документ, "прогоняемый" на детекторе лжи, анализируется и сравнивается с этими эталонами, после чего программа присваивает документу тот или иной индекс правдивости.

Средства Мегапьютер Интеллидженс — TextAnalyst

Российская компания Мегапьютер Интеллидженс, известная своей системой PolyAnalyst класса Data Mining, разработала также систему TextAnalyst. Она решает следующие задачи Text Mining:

- создание семантической сети большого текста;

- автоматическое аннотирование текста;

- поиск по тексту;

- классификацию документов;

- кластеризацию текстов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]