Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Proektirovanie_informatsionnykh_i_expertnykh_si...doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
308.22 Кб
Скачать

Методы аналитической обработки данных

Методы аналитической обработки данных делятся на две группы:

  • Статистические — регрессионный, дисперсионный анализ;

  • Интеллектуальный (data mining).

Основные элементы data mining:

Причина возникновения — колоссальный поток данных, что приводит к необходимости автономного анализа. Специфической особенностью data mining является:

  • Неограниченный объем данных;

  • Разнородные данные;

  • Результаты анализа наперед неизвестны. Они должны быть обозримы и просты в использовании.

При этом статистическая обработка, как правило, недостаточна, поскольку она позволяет проверить только заранее сформулированные гипотезы.

В основу data mining заложены готовые фрагменты, отражающие фрагменты данных (паттерны дынных). Он позволяет определить заранее неизвестные типы закономерности из известных:

  1. Из ассоциаций (связь событий друг с другом);

  2. Последовательность (выявление цепочки связанных событий);

  3. Классификация (выявление признаков, характеризующих группу);

  4. Кластеризация (группировка без заранее известных признаков);

  5. Прогнозирование (на основе исторической информации).

Классы систем data mining:

  1. Предметно-ориентированные автоматизированные системы (ориентированны, как правило, на технический анализ и исследование финансовых рынков). Отличаются друг от друга, настроены на поиск определенных закономерностей. (Стоимость $300-1000).

  2. Статистические пакеты. Недостаток — необходимость аппроксимировать кривые и т.д. Statistica, SPSS, Stat Graphics, Stadia, SAS. ($1000-1500).

  3. Нейронные сети. Brain Maker, Neuroshell. ($1500-8000).

  4. Системы рассуждений на аналогах. Основа кластеризации — мера близости между объектами, закономерности определяются последовательностью близких объектов, т.е. в дальнейшем используют для прогнозирования. Закономерности не сохраняются, а вводятся заново. KATEtools, PatternRecognitionWorkbench.

  5. Деревья решений. Строятся на правилах «если-то». Данные представлены в одной таблице. Закономерности представлены начиная от некоторого корня. See 5/C50, SIPINI, Clementine. ($1000-10000).

  6. Построенные на эволюционном программировании. Прогноз строится на развитии системы. МГУА (Метод группового учета аргументов), PolyAnalyst ($5000).

  7. Генетические алгоритмы (моделируется естественный отбор).

  8. Алгоритмы ограниченного перебора. Осуществляют поиск логических закономерностей. Построены на шаблонах. WizWhy ($4000).

Документальные системы

На практике информация чаше всего представляется в виде текстовых документов, а не в виде структурированных данных. Документальные базы данных выделяются в один тип, который называется информационно-поисковая система (ИПС или ДИПС).

Документы ориентированы на приближенное представление данных. Главное назначение ДИПС — обработка запросов. Главная процедура — поиск (отыскание документа, содержащего ответ на запрос). При этом, в результате получается несколько документов. Запросы, как правило, формулируются на естественном языке (информационные запросы). Неправильно сформулированный запрос может не отражать информационные потребности пользователя.

Понятие пертинентность отражает смысловое соответствие документа информационным потребностям пользователя.

Релевантность — соответствие содержания документа информационному запросу в том виде, как он сформулирован.

Для автоматического поиска запросы представляются в виде информационного предписания — поискового предписания (ПП), а документы в виде поискового образа документа (ПОД).

Для записи ПП и ПОД применяется информационный поисковый язык. При поиске определяется соответствие ПП и ПОД, на основе которого принимается решение о выдаче документа, т.е. признания его релевантным. При этом набор правил, по которому принимается решение, называется критерием смыслового соответствия (КСС).

Критерий может задаваться явно или неявно. КСС строится на основе формальной релевантности. Фактическую релевантность и пертинентность документов определяет пользователь.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]