Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Интеллектуальные информационные системы.doc
Скачиваний:
77
Добавлен:
22.09.2019
Размер:
3.31 Mб
Скачать

Информационные хранилища.

ИХ было разработано один из авторов Ральф Кимбл. ИХ отличается от интеллектуальных баз данных тем что представляет собой хранилище значимой информации, регулярно извлекаемой из оперативных БД. И так же одним из основоположников Билл Инман дал определение:

Хранилище данных – предметно ориентированное, интегрированное привязанное ко времени не изменяемое собрание данных, применяемых для поддержки процессов принятия управленческих решений. Предметная ориентация означает что данные объединены в категории и хранятся в соответствии с теми областями, которые они описывают, а не с приложениями которые их используют. Привязанность данных ко времени выражает их историчность, т.е. атрибут времени всегда явно присутствует в структурах хранилища данных. Не изменяемость означает, что попав однажды в хранилище данные уже не изменяются в отличие от оперативных систем. Данные присутствую только в последней версии, поэтому постоянно меняются. Компании кот занимаются разработкой ИХ – IBM, ORACLE, SAS, Intersolv.

Технология извлечения знаний из хранилищ данных основано на методах статистического анализа и моделирования ориентированных на поиск моделей и отношений скрытых в совокупности данных. Для извлечения значимых знаний из хранилища – имеются следующие методы: OLAP - анализ, Data Mining, Knokledge Discovery. Основаны на применении методов математической статистики, нейронных сетей, индуктивных методов построения принятия решений.

OLAP online analytical processing - предоставляет пользователю средства для формирования и проверки гипотез о свойства данных или отношений между ними, на основе разнообразных запросов в БД. Пользователь получает естественную интуитивно понятную модель данных организуя их в виде многомерных кубов, осями одномерной системы координат служат атрибуты процесса. На пересечении осей измерений находятся данные количественно характеризующие процесс, т.е. все данные дБ представлены в многомерном виде в 3х мерном. Архитектура OLAP приложений:

  1. многомерность:

    1. многомерное представление данных – средство конечного пользователя обеспечивающего многомерную визуализацию и управления данными, слой многомерного представления, абстрагированных от физической структуры данных и воспринимает данные как многомерные

    2. Многомерная обработка – средства (язык) формулирования многомерных запросов и процессор имеющих регулировать и выполнять такой запрос.

    3. Многомерное хранение – средство физической организации данных обеспечивающие эффективное выполнение многомерных запросов.

Как детальные данные, так и агрегаты хранятся либо в реляционных либо в многомерных структурах. Многомерное хранение позволяет обращаться с данными, как с многомерным массивом, благодаря чему обеспечивается ………. суммарных показателей и различное многомерное преобразование по любому из измерений.

Существует 3 типа MOLAP, ROLAP, HOLAP.

MOLAP - детальные данные и агрегаты хранятся в многомерной БД, в этом случае получается наибольшая избыточность, т.к. многомерная данных полностью содержит реляционную.

ROLAP – детальные данные остаются в реляционных БД, а агрегаты хранятся в той же БД в специально созданных служебных таблицах.

HOLAP – детальные данные остаются в реляционной БД, а агрегаты хранятся в многомерной БД.

Data Mining – процесс обнаружения в «сырых» данных ранее не известных, не тривиальных, практически полезных и доступных интерпретации знаний необходимых для принятия решений в различных сферах человеческой деятельности. Знания должна описывать новые связи между свойствами, предсказывать значения одних признаков на основе других. Найденные знания должны быть применимы и на новые данные с некоторой степенью достоверности. Найденные знания должны всегда приносить выгоду.

Уровни знаний

извлекаемых из данных

Аналитические инструменты

Примеры формулировок задач

Поверхностный

Язык простых запросов

Какой размер счёта клиента телефонной компании у Иванова.

Неглубокий

OLAP

Каковы средние размеры телефонных счетов существующих клиентов со сравнением со счетами бывших клиентов

Скрытый

Data Mining

Какие характеристики отличают клиентов которые по всей вероятности собираются отключиться от этой компании.

Задачи решаемые методами Data Mining:

  1. Классификация – отнесение объектов к одному из заранее известных классов

  2. Регрессия – установление зависимости не прерывных входных от не прерывных выходных. Здесь решаются задачи прогнозирования.

  3. Кластеризация – группировка объектов на основе данных описывающих сущность этих объектов. Объекты внутри кластера дБ похожи друг на друга и отличаться от объектов вошедших в другой кластер.

  4. Ассоциация – выявление закономерностей между связанными событиями

  5. Последовательные шаблоны – установление закономерности между связанными во времени событиями, т.е. обнаружение зависимости, что если произойдёт событие Х, то спустя заданное время произойдёт событие Y.

  6. Анализ отклонений – выявление наиболее не характерных шаблонов

Data Mining - не один, а совокупность большого числа систем обнаружения ассоциативных связей (нейронные сети, деревья решений, алгоритмы кластеризации, алгоритмы обнаружения ассоциативной связей между событиями).

Data Mining имеет мульти дисциплинарный характер.

Data Mining является одним из шагов Knowledge Discovery

Knowledge Discovery – процесс поиска полезных сырых данных. Включает в себя вопросы: подготовки данных, выбор информационных признаков, отчистки данных, применение данных Data Mining , пост обработки данных, интерпретация полученных результатов. Knowledge Discovery не задаёт набор методов обработки или алгоритм анализа. Он определяет последовательность действий, которые необходимо выполнить для того что бы из исходных данных получить знания. Данный подход универсальный и не зависит от предметной области.

Процесс Knowledge Discovery состоит из нескольких шагов:

  1. Подготовка исходных данных

  2. Предобработка данных – процедура подготовки данных к анализу в процессе которых они приводятся с требованиями определяемых спецификой решаемой задачи. Предобработка данных включает 2 направления

    1. Очистку и оптимизацию. Очистка производится с целью исключения факторов снижающих качество данных. Она включает обработку дубликатов, противоречий, восстановление пропусков, сглаживание и очистку от шума. Так же в процессе очистки восстанавливается нарушенная структура, полнота и целостность данных.

    2. Оптимизация данных включает снижение размерности входных данных, выявление исключений не значащих признаков

  1. Трансформация данных – этот шаг необходим для приведения информации к пригодному для последующего анализа виду: определение типа, квантование

  2. Data Mining – применяются различные механизмы для нахождения знаний,

  3. Постобработка данных – интерпретация результатов и применение полученных знаний.