Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Тема 6. Вопросы 5-10.docx
Скачиваний:
38
Добавлен:
13.03.2015
Размер:
219.67 Кб
Скачать

5. Основные понятия и определения в области интеллектуальной обработки информации.

Инструменты интеллектуальной обработки информации являются частью систем поддержки принятия решений (СППР).

Интеллектуальный анализ данных представляет собой процесс обнаружения пригодных к использованию сведений в крупных наборах данных. В интеллектуальном анализе данных применяется математический анализ для выявления закономерностей и тенденций, существующих в данных.

Среди специальных технологий, ориентированных на аналитическую обработку информации можно выделить следующие:

  • технология хранилища данных (Data Warehouse)

  • технология оперативной аналитической обработки (OLAP) – подходит для понимания ретроспективных (обращенный к прошлому, посвященный рассмотрению прошлого.) данных.

  • технология добычи знаний (Data Mining) – опирается на ретроспективные данные для получения ответов на вопросы о будущем.

Эти технологии не являются независимыми. Технология хранилища данных является основополагающей, на базе которой реализуются две другие технологии (оперативной аналитической обработки и добычи знаний). Технологии оперативной аналитической обработки и добычи знаний могут реализовываться отдельно, но более целесообразна их комбинация в процессе анализа прикладной информации.

  • Хранилище - Предметно-ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки принятия решений.

Рисунок 1 – Типичная архитектура ХД

Концепция хранилища: технология, способная удовлетворить требования СППР и базирующаяся на информации, поступающей из нескольких различных источников данных. Конечная цель создания ХД - интеграция корпоративных данных в едином репозитории, обращаясь к ко­торому пользователи могут составлять запросы, выполнять анализ данных и генерировать отчеты.

Основным назначением хранилища данных является предоставление конечным пользователям информации, необходимой для анализа и принятия стратегических решений. Пользователи взаимодействуют с хранилищем с помощью специальных инструментов доступа к данным.

Пользовательские инструменты доступа к данным можно разбить на следующие основные группы:

  • традиционные инструменты создания запросов и отчетов и инструменты разработки приложений (ввод или генерация SQL-команд, используемых для извлечения данных из хранилища).

  • инструменты информационной системы руководителя (Executive Information System — EIS);

Инструменты оперативной аналитической обработки (OLAP-инструменты) - создаются на основе концепции многомерной базы данных. Используются многомерные данные - данные, представленные в кубах OLAP.

  • средства Data Mining (добычи знаний). Добыча знаний — это процесс открытия новых осмысленных корреляций, распределений и тенденций путем переработки огромного количества информации извлеченной из хранилища данных, с использованием статистических и математических методов, а также методов искусственного интеллекта.

  • Data Mining - это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации).

  • Data Mining - это процесс обнаружения в сырых данных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в раз­личных сферах человеческой деятельности.

  • Data Mining - это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для использования.

Найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем, т.е. не ориентированы на проверку заранее сформулированных гипотез.

Данные. При интеллектуальной обработке информации данные представляются как объекты, описываемые как набор атрибутов.

Объект описывается как набор атрибутов, также известен как запись, случай, пример, строка таблицы и т.д.

Атрибут - свойство, характеризующее объект, Например, доход человека, цена товара, температура воды и т.д.

Атрибут также называют переменной, полем таблицы, измерением, характеристикой.

При анализе данных используется понятие генеральной совокупности и выборки.

Генеральная совокупность (population) - вся совокупность изучаемых объектов,

интересующая исследователя.

Выборка (sample) - часть генеральной совокупности, определенным способом отобранная с целью исследования и получения выводов о свойствах и характеристиках генеральной совокупности.

Изучение очень больших объемов данных является дорогостоящим процессом, требующим больших временных затрат, а также неизбежно приводит к ошибкам, связанным с человеческим фактором. Вполне достаточно рассмотреть выборку, и

получить интересующую информацию на ее основании.

Переменные могут являться числовыми данными либо символьными.

Числовые данные, в свою очередь, могут быть дискретными и непрерывными.

Дискретные данные являются значениями признака, общее число которых конечно либо бесконечно, но может быть подсчитано при помощи натуральных чисел от одного до бесконечности. Например, продолжительность маршрута троллейбуса (количество вариантов продолжительности конечно): 10, 15, 25 мин.

Непрерывные данные - данные, значения которых могут принимать какое угодно значение в некотором интервале. Измерение непрерывных данных предполагает большую точность. Пример непрерывных данных: температура, высота, вес, длина и т.д.

Измерение данных осуществляется при помощи шкал. Существует пять типов шкал измерений:

  • номинальная - только категории (профессия)

  • порядковая - числа присваивают объектам для обозначения относительной позиции объектов (место в рейтинге),

  • интервальная (температура воды в море утром и вечером),

  • относительная - есть определенная точка

отсчета и возможны отношения между значениями шкалы (Цена на *** в супермаркете выше в 1,2 раза, чем на базаре),

  • дихотомическая - только две категории (муж, жен).

Метаданные (Metadata) - это данные о данных. В состав метаданных могут входить: каталоги, справочники, реестры.

Метаданные содержат сведения о составе данных, содержании, статусе, происхождении, местонахождении, качестве, форматах и формах представления, условиях доступа, приобретения и использования, авторских, имущественных и смежных с ними правах на данные и др.

Различают бизнес-метаданные и оперативные метаданные.

Бизнес-метаданные содержат бизнес-термины и определения, принадлежность данных и иногда правила оплаты услуг хранилища.

Оперативные метаданные - это информация, собранная во время работы хранилища данных. Происхождение перенесенных и преобразованных данных, статус использования данных, данные мониторинга ( статистика использования, сообщения об ошибках) и т.д.

Метаданные хранилища обычно размещаются в репозитории. Это позволяет использовать метаданные совместно различным инструментам, а также процессам при проектировании, установке, эксплуатации и администрировании хранилища.

6. Задачи интеллектуального анализа: классификация, кластеризация, ассоциация, последовательность, прогнозирование, определение отклонений или выбросов, оценивание, анализ связей, визуализация.

Задачи Data Mining также называют закономерностями.

Классификация - обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных - классы; по этим признакам новый объект можно отнести к тому или иному классу.

Другими словами, предсказание категориальной зависимой

переменной (т.е. зависимой переменной, являющейся категорией) на основе выборки непрерывных и/или категориальных переменных.

Классификация может быть одномерной (по одному признаку) и многомерной (по двум и более признакам).

Кластеризация является логическим продолжением идеи классификации и заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы.

Если данные выборки представить как точки в признаковом пространстве, то задача кластеризации сводится к определению "сгущений точек".

Цель кластеризации - поиск существующих структур.

Ассоциация - поиск закономерности между связанными событиями в наборе данных. Поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно. (65 % купивших кукурузные чипсы берут также и «кока-колу», а при наличии скидки за такой комплект «колу» приобретают в 85 % случаев.)

Последовательность позволяет найти временные закономерности между транзакциями. Задача последовательности подобна ассоциации, но ее целью является установление закономерностей не между одновременно наступающими событиями, а между событиями, связанными во времени (т.е. происходящими с некоторым определенным интервалом во времени). Другими словами, последовательность определяется высокой вероятностью цепочки связанных во времени событий. Правило последовательности: после события X через определенное время произойдет событие Y.

Например, после покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита.

Прогнозирование - на основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей.

Прогнозирование направлено на определение тенденций динамики конкретного объекта или события на основе ретроспективных данных, т.е. анализа его состояния в прошлом и настоящем. Таким образом, решение задачи прогнозирования требует некоторой обучающей выборки данных.

Определение отклонений или выбросов - обнаружение и анализ данных, наиболее отличающихся от общего множества данных, выявление так называемых нехарактерных шаблонов.

Оценивание - сводится к предсказанию непрерывных значений признака.

Анализ связей - нахождение зависимостей в наборе данных.

Визуализация - создание графического образа анализируемых данных. Для решения задачи визуализации используются графические методы, показывающие наличие закономерностей в данных.

7. Методы и алгоритмы искусственного интеллекта, стадии Data Mining.

Методы Data Mining можно классифицировать по задачам Data Mining.

Методы классификации и прогнозирования.

Метод «Деревья решений». При помощи данного метода решаются задачи классификации и прогнозирования.

Если зависимая (целевая переменная) принимает дискретные значения, при помощи метода дерева решений решается задача классификации. Если же зависимая переменная принимает непрерывные значения, то решается задача численного прогнозирования.

В наиболее простом виде дерево решений - это способ представления правил в иерархической, последовательной структуре. Основа такой структуры - ответы "Да" или "Нет" на ряд вопросов. Листьями дерева являются функции линейной регрессии. Деревья – бинарные, множественные.

Преимущества метода:

- интуитивность деревьев решений (модель является интуитивной и упрощает понимание решаемой задачи);

- деревья решений дают возможность извлекать правила из базы данных на естественном языке (Если Возраст > 35 и Доход > 200, то выдать кредит).

- быстрый процесс обучения.

Процесс создания дерева происходит сверху вниз (нисходящий). В ходе

процесса алгоритм должен найти такой критерий расщепления, чтобы разбить множество на подмножества, которые бы ассоциировались с данным узлом проверки. Каждый узел проверки должен быть помечен определенным атрибутом.

На сегодняшний день существует большое число алгоритмов, реализующих деревья решений: CART, C4.5, CHAID, CN2, NewId, ITrule и другие.

Алгоритмы построения деревьев решений различаются следующими характеристиками:

  • вид расщепления - бинарное (binary), множественное (multi-way)

  • критерии расщепления

  • возможность обработки пропущенных значений

  • процедура сокращения ветвей или отсечения

  • возможности извлечения правил из деревьев.

Атрибуты набора данных могут иметь как дискретное, так и числовое значение. Алгоритм CART предназначен для построения бинарного дерева решений (+ все перечисленные характеристики).

Алгоритм C4.5 строит дерево решений с неограниченным количеством ветвей у узла. Данный алгоритм может работать только с дискретным зависимым атрибутом и поэтому может решать только задачи классификации.

Sprint, являющийся масштабируемым вариантом алгоритма CART, предъявляет минимальные требования к объему оперативной памяти.

Метод «Линейная регрессия» (+ кластеризация)

Если значение правила больше, чем порог, то предсказываемая переменная принимает значение истина, иначе – ложь – другими словами при выполнении для параметров объектов заданного условия, объекты принадлежат одному, в противном случае – другому классу).

Метод опорных векторов

Метод опорных векторов относится к группе граничных методов. Он определяет классы при помощи границ областей.

При помощи данного метода решаются задачи бинарной классификации.

В основе метода лежит понятие плоскостей решений.

Цель метода опорных векторов - найти плоскость, разделяющую два множества объектов;

Метод "ближайшего соседа" или системы рассуждений на основе аналогичных случаев

Следует сразу отметить, что метод "ближайшего соседа" ("nearest neighbour") относится к классу методов, работа которых основывается на хранении данных в памяти для сравнения с новыми элементами. При появлении новой записи для прогнозирования находятся отклонения между этой записью и подобными наборами данных, и наиболее подобная (или ближний сосед) идентифицируется.

При таком подходе используется термин "k-ближайший сосед" -

выбирается k "верхних" (ближайших) соседей для их рассмотрения в качестве множества "ближайших соседей".

Байесовская классификация

Так называемая наивная классификация или наивно-байесовский подход

является наиболее простым вариантом метода, использующего байесовские сети.

"Наивная" классификация - достаточно прозрачный и понятный метод классификации. "Наивной" она называется потому, что исходит из предположения о взаимной независимости признаков.

Свойства наивной классификации:

1. Использование всех переменных и определение всех зависимостей между ними.

2. Наличие двух предположений относительно переменных:

o все переменные являются одинаково важными;

o все переменные являются статистически независимыми, т.е. значение одной переменной ничего не говорит о значении другой.

Нейронные сети (+ кластеризация)

Нейронные сети (Neural Networks) - это модели биологических нейронных сетей мозга, в которых нейроны имитируются относительно простыми, часто однотипными, элементами (искусственными нейронами).

Нейронная сеть может быть представлена направленным графом с взвешенными связями, в котором искусственные нейроны являются вершинами, а синаптические связи - дугами.

Если говорить простым языком, слоистая нейронная сеть представляет собой

совокупность нейронов, которые составляют слои. В каждом слое нейроны между собой никак не связаны, но связаны с нейронами предыдущего и следующего слоев. Информация поступает с первого на второй слой, со второго - на третий и т.д.

Перед использованием нейронной сети ее необходимо обучить.

Процесс обучения нейронной сети заключается в подстройке ее внутренних параметров под конкретную задачу. Алгоритм работы нейронной сети является итеративным, его шаги называют эпохами или циклами. Процесс обучения осуществляется на обучающей выборке.

Нейронные сети бывают с обратными связями и без обратных связей.

Сети без обратных связей

- Сети с обратным распространением ошибки. Сети этой группы характеризуются фиксированной структурой, итерационным обучением, корректировкой весов по ошибкам.

- Другие сети (когнитрон, неокогнитрон, другие сложные модели).

Сети с обратными связями

- Сети Хопфилда (задачи ассоциативной памяти).

- Сети Кохонена (задачи кластерного анализа).