Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
UP-TIPiS-Krasnova.doc
Скачиваний:
52
Добавлен:
17.12.2018
Размер:
2.07 Mб
Скачать

Контрольные вопросы

  1. Сформулируйте определение системы на основе категории «целостность».

  2. Чем принципиально отличаются реляционные модели от сетевых и иерархических?

  3. В чем различие процедурных и декларативных языков управления (манипулирования) данными?

  4. Сформулируйте основные способы организации данных.

  5. В чем суть нормализации отношений?

Тема 5. Информационные модели принятия решений

5.1. Интеллектуализация процесса анализа данных

Большинство методов интеллектуального анализа данных было первоначально разработано в рамках теории искусственного интеллекта в 70-80-х годах, но получили распространение только в последние годы, когда проблема интеллектуализации обработки больших и быстро растущих объемов корпоративных данных потребовала их использования в качестве надстройки над хранилищами данных (рис. 5.1).

Рис. 5.1. Обобщенная структура интеллектуальной системы

Z – неформализованное задание; MD – корректирующая информация от оператора (информационный поток); T – формализованное задание; R – ответ с объяснениями отказа и предложением коррекции задания; K – контрольно-диагностическая информация; G – некоторый желаемый вариант решения проблемы (изменение среды); M – формализованное описание среды; MID – знания о среде; I – интегрированная внешняя информация; ML – дополнительные знания о проблеме; С – внешняя информация (от внешних источников информации); D – внутренняя информация (от датчиков состояния системы); P – план действий; E – критерий сближения.

Возможности интеллектуальных информационных технологий:

  • наличие баз знаний, отражающих опыт конкретных людей, групп, обществ, человечества в целом, в решении творческих задач в выделенных сферах деятельности, традиционно считавшихся прерогативой интеллекта человека (например, такие плохо формализуемые задачи, как принятие решений, проектирование, извлечение смысла, объяснение, обучение и т.п.);

  • наличие моделей мышления на основе баз знаний: правил и логических выводов; аргументации и рассуждения; распознавания и классификации ситуаций; обобщения и понимания и т.п.;

  • способность формировать вполне четкие решения на основе нечетких, нестрогих, неполных, недоопределенных данных;

  • способность объяснять выводы и решения, то есть наличие механизма объяснений;

  • способность к обучению, переобучению и, следовательно, к развитию.

5.1.1. Технология Data Mining

В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные выборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей.

Важное положение Data Mining – нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющие, так называемые, скрытые знания. Data Mining – это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности (рис. 5.2).

Данная технология применяется конечными пользователями и аналитиками. Конечные пользователи используют системы Data Mining для получения информационных электронных таблиц. Аналитики знают, как интерпретировать данные и сделать необходимые вычисления для анализа информации. Данный класс пользователей выполняет три вида анализа: периодический, стратегический и непрерывный.

Рис. 5.2. Уровни знаний, извлекаемых из данных

Периодический анализ используется для определения зарождающихся тенденций развития. Данные для анализа берутся из определенного периода. Стратегический анализ делается на больших объемах данных для понимания специфики происхождения тех или иных событий. Непрерывный анализ используется для получения факторов, которые оказывают воздействие на течение деловых процессов.

Интеллектуальный анализ данных можно разделить на три стадии: выявление закономерностей; использование выявленных закономерностей для предсказания неизвестных значений; анализ исключений (рис. 5.3).

Существуют два типа статистического анализа: исследовательский анализ и подтверждающий анализ. В подтверждающем анализе имеется гипотеза, и он подтверждает или отвергает её. Исследовательский анализ отыскивает подходящие гипотезы для подтверждения или опровержения, при этом аналитическая система берет инициативу на себя при анализе данных, без участия в этом процессе пользователя (например, OLAP (Online Analytical Processing) система).

Рис. 5.3. Составляющие стадии технологии Data Mining

Задачи интеллектуального анализа данных можно разделить по типу извлекаемой информации: классификация; кластеризация; выявление ассоциаций; выявление последовательностей; прогнозирование (рис. 5.4).

Основные методики, использующиеся при интеллектуальном анализе данных, могут быть выделены в отдельные группы, каждая из которых имеет свои преимущества и области применения. Современные методики строятся как на выделении шаблонов, так и на сохранении и длительном использовании данных. Выделение шаблонов может быть разделено на три группы методик: логическая, вычислительная и перекрестные таблицы. Гибридные или смешанные подходы считают наилучшими, соединяя в себе логику и уравнения с многомерным анализом.

Рис. 5.4. Подходы технологии Data Mining

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]