Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

КИС / KIS

.pdf
Скачиваний:
24
Добавлен:
18.03.2016
Размер:
1.88 Mб
Скачать

Детальными являются данные, переносимые непосредственно из ОИД. На основании детальных данных могут быть получены агрегированные (обобщенные) данные. Агрегирование происходит путем суммирования числовых фактических данных по определенным измерениям. Для быстрого доступа к наиболее часто запрашиваемым агрегированным данным они должны сохраняться в ХД, а не вычисляться при выполнении запросов.

Метаданные необходимы для получения информации о данных, хранящихся в ХД. Согласно принципам Захмана [27], метаданные должны описывать объекты предметной области, представленные в ХД, пользователей, работающих с данными, места хранения данных, действия над данными, время обработки данных и причины модификации данных.

Данные, поступающие из ОИД в ХД, перемещаемые внутри ХД и поступающие из ХД к аналитикам, образуют информационные потоки. Самый мощный из информационных потоков – входной – связан с переносом данных из ОИД. Процесс переноса, включающий в себя этапы извлечения, преобразования и загрузки, называют ELT-процессом (E – extraction, T – transformation, L – loading). Программные средства,

обеспечивающие его выполнение, называются ELT-системами.

Одной из важных задач, решаемых при переносе данных в ХД, является их очистка. Данные загружаются из различных источников, поэтому вероятность попадания “грязных” данных весьма высока. ХД используются для принятия решений, и “грязные” данные могут стать причиной принятия неверных решений. Основные проблемы очистки данных можно классифицировать по следующим уровням:

Уровень ячейки таблицы. На данном уровне задача очистки заключается в анализе и исправлении ошибок в данных, хранящихся в ячейках таблиц БД.

Уровень записи. На данном уровне возникает проблема противоречивости значений в разных полях записи, описывающей один и тот же объект предметной области.

Уровень таблицы БД. На данном уровне возникают проблемы, связанные с несоответствием информации, хранящейся в таблице и относящейся к разным объектам (нарушениям уникальности, дублирующиеся записи и др.).

Уровень одиночной БД. На данном уровне возникают проблемы, связанные с нарушением целостности данных.

Уровень множества БД. На данном уровне возникают проблемы структур БД и представленной в них информацией (например, в разных БД одинаковые данные представлены по-разному).

Очистка данных включает следующие этапы: выявление проблем в данных, определение правил очистки, тестирование правил очистки,

150

непосредственно очистка данных. После исправления ошибок очищенные данные сохраняются в ХД и могут использоваться для анализа и принятия решения. За формирование аналитических запросов к данным и представление результатов их выполнения в СППР отвечают подсистемы анализа.

7.3.OLAP

Впроцессе анализа данных, поиска решений часто возникает необходимость в построении зависимостей между различными параметрами. Кроме того, число таких параметров может варьироваться в широких пределах. В 1993 г. Э.Ф. Кодд, основоположник реляционной модели БД, рассмотрел ее недостатки, указав в первую очередь на невозможность «объединять, просматривать и анализировать данные с точки зрения множественности измерений».

Измерение – это последовательность значений одного из анализируемых параметров. Например, для параметра время это последовательность календарных дней, для параметра регион – это список городов.

Множественность измерений предполагает представление данных в виде многомерной модели. По измерениям в многомерной модели откладывают параметры, относящиеся к анализируемой предметной области. Одновременный анализ по нескольким измерениям определяется как многомерный анализ.

На пересечениях осей измерений располагаются данные, количественно характеризующие анализируемые факты – меры или ресурсы. Это могут быть объемы продаж, выраженные в единицах продукции или в денежном выражении, остатки на складе, издержки и т. п. Таким образом, многомерную модель данных можно представить как гиперкуб (рис. 27).

Рис. 27. Многомерная модель данных в виде гиперкуба

151

Ребрами гиперкуба являются измерения, а ячейками – меры. Над таким гиперкубом могут выполняться следующие операции:

срез – формируется подмножество многомерного массива данных, соответствующее единственному значению одного или нескольких элементов измерений, не входящих в это подмножество. Наиболее часто используется двумерная проекция куба;

вращение – изменение расположения измерений, представленных в отчете. Например, перестановка местами строк и столбцов отчета, что позволяет придавать ему желаемый вид;

консолидация и детализация – операции, которые определяют переход вверх по направлению от детального представления данных

к агрегированному и наоборот.

OLAP – технология оперативной аналитической обработки данных, использующая методы и средства для сбора, хранения и анализа многомерных данных в целях поддержки процессов принятия решения. Основное назначение OLAP-систем – поддержка аналитической деятельности, произвольных (ad-hoc) запросов пользователей аналитиков.

У истоков технологии OLAP стоит Э. Кодд. В 1993 г. он опубликовал статью под названием “OLAP для пользователей-аналитиков: каким он должен быть”. В данной работе перечислены 12 правил, определяющих

OLAP.

1.Многомерность – OLAP-система должна представлять данные в виде многомерной модели, что упрощает процессы анализа и восприятия информации.

2.Прозрачность – OLAP-система должна скрывать от пользователя реальную реализацию многомерной модели, способ организации, средства обработки и хранения.

3.Доступность – OLAP-система должна предоставлять пользователю единую, согласованную и целостную модель данных.

4.Постоянная производительность при разработке отчетов – производительность OLAP-систем не должна значительно уменьшаться при увеличении количества измерений.

5.Клиент-серверная архитектура – OLAP-система должна быть способна работать в среде клиент-сервер.

6.Равноправие измерений – OLAP-система должна поддерживать многомерную модель, в которой все измерения равноправны.

7.Динамическое управление разреженными матрицами – OLAPсистема должна обеспечивать оптимальную обработку разреженных матриц.

8.Поддержка многопользовательского режима – OLAP-система должна предоставлять возможность работать нескольким пользователям совместно с одной аналитической моделью.

152

9.Неограниченные перекрестные связи – OLAP-система должна обеспечивать сохранение функциональных отношений между ячейками гиперкуба при выполнении любых операций среза, вращения, консолидации или детализации.

10.Интуитивная манипуляция данными – OLAP-система должна предоставлять способ выполнения операций над гиперкубом без необходимости пользователю совершать множество действий с интерфейсом.

11.Гибкие возможности получения отчетов – OLAP-система должна поддерживать различные способы визуализации данных.

12.Неограниченная размерность и число уровней агрегации – OLAPсистема должна уметь предоставлять хотя бы 15, а предпочтительно - 20 измерений.

В 1995 г. Кодд к приведенному перечню добавил еще шесть правил:

1.Пакетное извлечение против интерпретации – OLAP-система должна эффективно обеспечивать доступ как к собственным, так и к внешним данным.

2.Поддержка всех моделей OLAP-анализа – OLAP-система должна поддерживать все четыре модели анализа данных, определенные Коддом: категориальную, толковательную, умозрительную и стереотипную.

3.Обработка ненормализованных данных – модификации данных, выполненные в среде OLAP, не должны приводить к изменениям данных в исходных внешних системах.

4.Сохранение результатов OLAP – хранение их отдельно от исходных данных.

5.Исключение отсутствующих значений – OLAP-система, предоставляя данные пользователю, должна отбрасывать все отсутствующие значения.

6.Обработка отсутствующих значений – OLAP-система должна игнорировать все отсутствующие значения без учета их источника. Кроме того, Кодд разбил все 18 правил на четыре группы, назвав их

особенностями. Основные особенности включают правила 1,2,3,5,8,10, 13,14. Специальные особенности: 15,16,17,18. Особенности представления отчетов: 4,7,11. Управление измерениями: 6,9,12.

OLAP-система включает в себя два основных компонента:

OLAP-сервер – обеспечивает хранение данных, выполнение над ними необходимых операций и формирование многомерной модели. В настоящее время OLAP-серверы объединяют с ХД или ВД.

OLAP-клиент – предоставляет пользователю интерфейс к многомерной модели данных, обеспечивая его возможностью удобно манипулировать данными для выполнения задач анализа.

153

OLAP-серверы скрывают от конечного пользователя способ реализации многомерной модели. Они формируют гиперкуб, с которым пользователи посредством OLAP-клиента выполняют все необходимые манипуляции. Между тем, способ реализации очень важен, т. к. от него зависят такие характеристики, как производительность и занимаемые ресурсы.

Выделяют три основных способа реализации:

MOLAP – для реализации многомерной модели используют многомерные БД;

ROLAP - для реализации многомерной модели используют реляционные БД;

HOLAP - для реализации многомерной модели используют и многомерные, и реляционные БД.

Достоинствами MOLAP являются высокая производительность и простота использования встроенных функций. Главный недостаток MOLAP – то, что многомерные БД чувствительны к изменениям в многомерной модели. Так, при добавлении нового измерения приходится изменять структуру всей БД.

Достоинствами ROLAP являются возможность работы с существующими реляционными БД, более экономичное использование ресурсов и большая гибкость при добавлении новых измерений. Главный недостаток ROLAP по сравнению с многомерными БД – меньшая производительность.

Серверы HOLAP применяют подход ROLAP для разреженных областей многомерного пространства и подход MOLAP для плотных областей.

В качестве примера серверного OLAP-средства можно привести

Microsoft Analysis Services - OLAP-сервер фирмы Microsoft, входящий в комплект поставки Microsoft SQL Server 2000 Enterprise Edition [28].

Для администраторов, создающих и модифицирующих OLAP-кубы, существует SQL DSO – набор библиотек, содержащих COM-объекты, позволяющие создавать и модифицировать многомерные базы данных и содержащиеся в них объекты (кубы, коллективные измерения и т.д.). Утилита Analysis Manager - приложение, использующее SQL DSO, входит в состав аналитических служб.

Приложения, предназначенные для чтения OLAP-данных, при взаимодействии с аналитическими службами обязательно используют библиотеку PivotTable Service. Эти библиотеки автоматически устанавливаются вместе с аналитическими службами, а также вместе с

Microsoft Office.

Для взаимодействия с PivotTable Service клиентское приложение может использовать OLE DB for OLAP - расширение универсального

154

механизма доступа к данным OLE DB, позволяющее обращаться к многомерным данным, а также ADO MD - библиотеки, представляющие собой надстройку над OLE DB for OLAP и являющиеся COM-серверами для доступа к многомерным данным, удобными для применения в клиентских приложениях.

Из других клиентских приложений, не входящих в состав аналитических служб, но часто используемых для просмотра OLAP-кубов, следует назвать Microsoft Excel. С помощью Excel можно обращаться к серверным OLAP-кубам, получая их двух- и трехмерные сечения на листах рабочих книг Excel в виде сводных таблиц, а также создавать локальные OLAP-кубы в виде файлов на основе реляционных данных, доступных с помощью OLE DB.

7.4. Data Mining

Очевидно, что для обнаружения скрытых знаний необходимо применять специальные методы автоматического анализа, при помощи которых приходится практически добывать знания из ”завалов” информации. За этим направлением прочно закрепился термин добыча знаний или Data Mining [27, 29].

Data Mining – исследование и обнаружение в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком.

Основными задачами анализа данных являются:

классификация;

регрессия;

поиск ассоциативных правил;

кластеризация;

прогнозирование.

Задача классификации сводится к определению класса объекта по его характеристикам. При этом множество классов, к которым может быть отнесен объект, заранее известно.

Примером задачи классификации является задача фильтрации электронной почты. В этом случае программа должна классифицировать входящее сообщение как спам (нежелательная электронная почта) или как письмо. Данное решение принимается на основании частоты появления в сообщении определенных слов (например, безличного обращения, слов и словосочетаний: ”приобрести”, ”заработать”, ”выгодное предложение” и

т. п.).

В общем случае количество классов в задачах классификации может быть более двух. Например, в задаче распознавания образа цифр таких

155

классов может быть 10. В такой задаче объектом классификации является матрица пикселей, представляющая образ распознаваемой цифры. При этом цвет каждого пикселя является характеристикой объекта.

В Data Mining задачу классификации рассматривают как задачу определения одного из параметров анализируемого объекта на основании значений других параметров. Определяемый параметр часто называют зависимой переменной, а параметры, участвующие в его определении, – независимыми переменными. В рассмотренных примерах независимыми переменными являлись частота определения слов и значения цвета пикселей матрицы. Зависимыми переменными в этих примерах являлись тип сообщения и цифра образа. При этом зависимая переменная принимала значение из конечного множества значений: {спам, не спам}, {0,1,…,9}.

Если значениями независимых и зависимой переменных является множество действительных чисел, то задача называется задачей регрессии.

Основные проблемы, с которыми сталкиваются при решении задач классификации и регрессии, – это неудовлетворительное качество исходных данных, а также так называемые проблемы overfitting и underfitting. Суть первой из них заключается в том, что классификационная функция “слишком хорошо” адаптируется к данным, и встречающиеся в них ошибки пытается интерпретировать как часть данных. Очевидно, что такая модель будет некорректно работать в дальнейшем с другими данными. Термином underfitting обозначают ситуацию, когда слишком велико количество ошибок на обучающем множестве. Это означает, что особых закономерностей в данных не было обнаружено.

При поиске ассоциативных правил целью является нахождение частых зависимостей (или ассоциаций) между объектами или событиями. Найденные зависимости представляются в виде правил и могут быть использованы как для лучшего понимания природы анализируемых данных, так и для предсказания появления событий.

Первоначально данная задача решалась при анализе тенденций в поведении покупателей в супермаркетах. Анализу подвергались данные о совершаемых ими покупках, которые покупатели складывают в тележку (отсюда пошло название Basket Analysis). При анализе этих данных интересовала информация о том, какие товары покупаются вместе, в какой последовательности, какие категории потребителей какие товары предпочитают, в какие периоды времени и т. п. Такая информация позволяет более эффективно планировать закупку товаров, проведение рекламной кампании и т.д.

156

Например, из набора покупок, совершаемых в магазине, можно выделить следующие наборы товаров, которые покупаются вместе: {чипсы, пиво}; {сухарики, пиво}.

Следовательно, можно сделать вывод, что если покупаются чипсы или сухарики, то, как правило, покупается пиво. Обладая такими знаниями, можно разместить эти товары рядом или предпринять другие действия, стимулирующие покупателя приобрести товар.

Разновидностью задачи поиска ассоциативных правил является задача обнаружения закономерностей в последовательности происходящих событий. Такая задача называется сиквенциальным анализом и позволяет с некоторой долей вероятности предсказывать появление событий в будущем, что позволяет принимать более правильные решения.

Например, после покупки квартиры жильцы в 60 % случаев в течение двух недель приобретают холодильник, а в течение двух месяцев в 50 % случаев приобретается телевизор. Решение данной задачи широко применяется в маркетинге и менеджменте, например, при управлении циклом работы с клиентом (Customer Lifecycle Management).

Задача кластеризации состоит в разделении исследуемого множества объектов на группы “похожих” объектов, называемых кластерами. Слово «кластер» переводится как сгусток, пучок, группа. Часто решение задачи разбиения множества элементов на кластеры называют кластерным анализом.

Например, в маркетинге задача кластеризации применяется для сегментации рынка. Концептуально сегментирование основано на предпосылке, что все потребители разные. У них разные потребности, разные требования к товару, они ведут себя по-разному: в процессе выбора товара, в процессе приобретения товара и т. д. В связи с этим необходимо по-разному подходить к работе с потребителями: предлагать им различные по своим характеристикам товары, по-разному их продвигать и продавать. Для того чтобы определить, чем отличаются потребители друг от друга и как эти отличия отражаются на требованиях к товару, и производится сегментирование потребителей.

На основании результатов сегментации маркетолог может определить, например, такие характеристики сегментов рынка, как реальная и потенциальная емкость сегмента, группы потребителей, чьи потребности не удовлетворяются в полной мере ни одним производителем, работающим на данном сегменте рынка, и т.п. На основании этих параметров маркетолог может сделать вывод о привлекательности работы фирмы в каждом из выделенных сегментов рынка.

157

Кластеризация отличается от классификации тем, что вместо различий между объектами ищутся группы наиболее близких, похожих объектов.

Кластерный анализ позволяет резко сокращать большой объем информации, сжимать большие массивы информации, делать их компактными и наглядными.

В результате решения задачи прогнозирования на основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей.

Все многообразие методов Data Mining можно разделить на две группы: статистические и кибернетические.

Статистические методы Data Mining представляют собой четыре взаимосвязанных раздела:

предварительный анализ статистических данных (проверка гипотез стационарности, нормальности, независимости, однородности, оценка вида функции распределения, ее параметров и т.п.);

выявление связей и закономерностей (линейный и нелинейный регрессионный анализ, корреляционный анализ и др.);

многомерный статистический анализ (линейный и нелинейный дискриминантный анализ, кластерный анализ, компонентный анализ, факторный анализ и др.);

динамические модели и прогноз на основе временных рядов.

Второе направление Data Mining - это множество подходов,

объединенных идеей использования теории искусственного интеллекта. К этой группе относятся следующие основные методы:

искусственные нейронные сети (ИНС) (распознавание, классификация, кластеризация, прогноз);

генетические алгоритмы (оптимизация);

нечеткая логика;

системы обработки экспертных знаний.

Наиболее универсальный аппарат для решения различных задач Data

Mining предоставляют искусственные нейронные сети [30]. ИНС - это математические модели, а также их программные или аппаратные реализации, построенные по принципу организации и функционирования биологических нейронных сетей - сетей нервных клеток живого организма.

Нейронная сеть подвергается так называемому обучению. Возможность обучения - одно из главных преимуществ нейронных сетей перед традиционными алгоритмами. Технически обучение заключается в нахождении весовых коэффициентов связей между нейронами. В процессе обучения нейронная сеть способна выявлять сложные

158

зависимости между входными и выходными данными, а также выполнять обобщение. Это значит, что в случае успешного обучения сеть сможет вернуть верный результат на основании данных, которые отсутствовали в обучающей выборке, а также неполных и/или «зашумленных», частично искаженных данных.

При применении ИНС прежде всего встает вопрос выбора конкретной архитектуры сети (числа “слоев” и количества “нейронов” в каждом из них). Размер и структура сети должны соответствовать сложности исследуемой задачи. Поскольку на начальном этапе анализа природа явления обычно известна плохо, выбор архитектуры является непростой задачей и часто связан с длительным процессом ”проб и ошибок”.

Одно из главных преимуществ нейронных сетей состоит в том, что они, теоретически, могут аппроксимировать любую непрерывную функцию, и поэтому исследователю нет необходимости заранее принимать какие-либо гипотезы относительно модели и даже, в ряде случаев, о том, какие переменные действительно важны. Однако существенным недостатком нейронных сетей является то обстоятельство, что окончательное решение зависит от начальных установок сети и его практически невозможно интерпретировать аналитически.

Генетические алгоритмы (ГА) – это адаптивные методы поиска, которые в последнее время часто используются для решения задач оптимизации [30]. Они основаны на генетических процессах биологических организмов: биологические популяции развиваются в течение нескольких поколений, подчиняясь законам естественного отбора и по принципу “выживает наиболее приспособленный”, открытому Чарльзом Дарвином. Подражая этому процессу, генетические алгоритмы способны получать решения реальных задач, если те соответствующим образом закодированы.

ГА работают с совокупностью “особей” – популяцией; каждая особь представляет возможное решение проблемы и оценивается мерой "приспособленности" согласно тому, насколько “хорошим” является соответствующее ей решение задачи. Наиболее приспособленные особи получают возможность “воспроизводить” потомство с помощью “перекрестного скрещивания” с другими особями популяции. Это приводит к появлению новых особей, которые сочетают в себе некоторые характеристики, наследуемые ими от родителей. Так и воспроизводится вся новая популяция допустимых решений, выбирая лучших представителей предыдущего поколения, скрещивая их и получая множество новых особей. Это новое поколение содержит более высокое соотношение характеристик, которыми обладают хорошие члены

159

Соседние файлы в папке КИС