
- •20. Средства анализа текстовой информации.
- •21. Распределенный анализ данных. Основные понятия.
- •22. Распределенный анализ данных. Стандарты многоагентных систем.
- •23. Распределенный анализ данных. Системы мобильных агентов.
- •25. Проблемы распределенного анализа данных.
- •26. Система анализа распределенных данных. Общий подход к реализации системы.
- •27. Система анализа распределенных данных. Агент для сбора информации о базе данных.
- •28. Система анализа распределенных данных. Агент для сбора статистической информации о данных.
- •29. Система анализа распределенных данных. Агент для решения одной задачи интеллектуального анализа данных.
- •30. Система анализа распределенных данных. Агент для решения интегрированной задачи интеллектуального анализа данных.
20. Средства анализа текстовой информации.
Средства Oracle — Oracle Text
Система Oracle Text обеспечивает решение следующих задач анализа текстовой информации:
- поиск документов по их содержанию;
- классификацию документов;
- кластеризацию документов;
- извлечение ключевых понятий;
- автоматическое аннотирование;
- поиск в документах ассоциативных связей;
Основной задачей, на решение которой нацелены средства Oracle Text, является задача поиска документов по их содержанию — по словам или фразам, которые при необходимости комбинируются с использованием булевых операций. Результаты поиска ранжируются по значимости, с учетом частоты встречаемости слов запроса в найденных документах. Для повышения полноты поиска Oracle Text предоставляет ряд средств расширения поискового запроса, среди которых можно выделить три группы:
I. Расширение слов запроса всеми морфологическими формами, что реализуется привлечением знаний о морфологии языка.
Расширение слов запроса близкими по смыслу словами за счет подключения тезауруса — семантического словаря.
Расширение запроса словами, близкими по написанию и по звучанию — нечеткий поиск и поиск созвучных слов. Нечеткий поиск целесообразно применять при поиске слов с опечатками, а также в тех случаях, когда возникают сомнения в правильном написании фамилии, названия организации и т. п.
Средства от IBM — Intelligent Miner for Text
Система содержит следующие основные утилиты для решения задач анализа текстовой информации:- утилита определения языка (Language Identification Tool) — автоматическое определение языка, на котором составлен документ;
- утилита классификации (Categorisation Tool) — автоматическое отнесение текста к некоторой категории (входной информацией на обучающей фазе работы этого инструмента может служить результат работы следующей утилиты — Clusterisation Tool);
- утилита кластеризации (Clusterisation Tool) — разбиение большого множе¬ства документов на группы по близости стиля, формы, различных частот¬ных характеристик выявляемых ключевых слов;
- утилита извлечения ключевых понятий (Feature Extraction Tool)— выяв¬ление в документе ключевых слов (собственные имена, названия, сокра¬щения) на основе анализа заданного заранее словаря;
- утилита автоматического аннотирования (Annotation Tool) — аннотации к исходным текстам.
Средства SAS Institute — Text Miner
Text Miner весьма универсальна, поскольку может работать с текстовыми документами различных форматов — в базах данных, файловых системах и далее в web.
Text Miner обеспечивает логическую обработку текста в среде пакета SAS Enterprise Miner. Это позволяет пользователям обогащать процесс анализа данных, интегрируя неструктурированную текстовую информацию с существующими структурированными данными, такими как возраст, доход и характер покупательского спроса.
Программа Text Miner позволяет определять, насколько правдив тот или иной текстовый документ. Обнаружение лжи в документах производится путем анализа текста и выявления изменений стиля письма, которые могут возникать при попытке исказить или скрыть информацию. Для поиска таких изменений используется принцип, заключающийся в поиске аномалий и трендов среди записей баз данных без выяснения их смысла. При этом в Text Miner включен обширный набор документов различной степени правдивости, чья структура принимается в качестве шаблонов. Каждый документ, "прогоняемый" на детекторе лжи, анализируется и сравнивается с этими эталонами, после чего программа присваивает документу тот или иной индекс правдивости.
Средства Мегапьютер Интеллидженс — TextAnalyst
Российская компания Мегапьютер Интеллидженс, известная своей системой PolyAnalyst класса Data Mining, разработала также систему TextAnalyst. Она решает следующие задачи Text Mining:
- создание семантической сети большого текста;
- автоматическое аннотирование текста;
- поиск по тексту;
- классификацию документов;
- кластеризацию текстов.