- •1. Интерактивная аналитическая обработка данных (olap)
- •1.1. Многомерная olap-технология
- •1.3. Категории оlар-инструментов
- •2. Технология разработки данных
- •2.1 Основные понятия технологии разработки данных
- •2.2 Методы разработки данных
- •2.3.Прогнозирующее моделирование
- •2.4.Сегментирование базы данных
- •2.5. Анализ связей
- •2.6. Обнаружение отклонений
- •2.7.Инструменты разработки данных
- •2.8.Разработка данных и хранилища данных
2.6. Обнаружение отклонений
Метод обнаружения отклонений — это относительно новая операция в коммерчески доступных инструментах разработки данных. Тем не менее именно этот метод чисто является источником настоящих открытий, поскольку он предполагает анализ выбросов, которые выражают степень отклонения от некоторых предварительно известных значений математического ожидания и нормального среднего. Эта операция часто выполняется с помощью методов статистики и визуализации или же является побочным продуктом других процедур разработки данных. Например, линейная регрессия упрощает идентификацию выбросов среди данных., тогда как современные методы визуализации позволяют так графически отображать полученные после анализа значения, что на этих графиках можно легко обнаружить заметные отклонения данных. На рисунке 8 показано применение подобных методов визуализации в отношении данных, представленных на рисунке7. Метод обнаружения отклонений используется для обнаружения мошенничества с кредитными карточками и страховыми полисами, а также для контроля качества и поиска дефектов.
Рисунок 8. Пример визуализации данных, показанных на рис. 26.7
2.7.Инструменты разработки данных
Количество представленных на рынке коммерческих инструментов разработки денных постоянно возрастает. Наиболее важные их характеристики:
наличие инструментов подготовки данных;
возможность выбора операций разработки данных (алгоритмов);
масштабируемость продукта и показатели его производительности;
наличие инструментов визуализации данных.
В качестве примеров инструментов разработки данных можно назвать пакеты Clementine фирмы Integral Solutions Ltd, DetaCrusher фирмы DataMind Corp, Intelligent Miner фирмы IBM, MineSet фирмы Silicon Graphics, Data Mining Suit фирмы Information Discovery Inc., SAS System фирмы SAS Institute Inс. и Thought фирмы Right Information Systems.
2.8.Разработка данных и хранилища данных
Одно из основных затруднений в процессе разработки данных связано с поиском данных, подходящих для разработки. Для разработки данных следует использовать единый, отдельный, чистый, интегрированный и самосогласованный источник данных. Хранилище данных вполне подходит на роль такого источника данных по перечисленный ниже причинам.
Качество и непротиворечивость данных является основным условием достижения точности создаваемых моделей прогнозирования, а хранилища данных как раз заполнены чистыми и непротиворечивыми данными.
Для обнаружения максимально возможного количества взаимосвязей между данными важно получать их из нескольких источников. Хранилища данных содержат данные, поступающие из нескольких источников.
Хранилище данных обладает инструментами выполнения запросов, которые можно использовать для выборки подмножеств записей и полей, подходящих для выполнения разработки данных.
Результаты разработки данных особенно полезны, если существует способ для дальнейшего исследования нераскрытых закономерностей. Хранилища данных позволяют вернуться к исходным источникам данных.
Благодаря тому что технологии разработки данных и хранилищ данных взаимно дополняют друг друга, многие фирмы-разработчик и исследуют способы интеграции этих технологий. Например, фирма Red Brick Systems предлагает свой продукт Red Brick Warehouse 5.0, который может быть дополнен необязательным инструментом Red Brick Data Mine.
Резюме
Оперативная аналитическая обработка данных (ОLAP-технология) включает динамический синтез, анализ и консолидацию многомерных данных большого объема.
Большинство ОLAP-приложений реализовано с помощью специализированных технологий многомерных СУБД (ММ СУБД), узкого набора данных и специально настроенного пользовательского интерфейса. OLAP-архитектура обладает ясно определенными уровнями с четким разделением функций между приложением и СУБД.
ОLAP-серверы баз данных используют многомерные структуры для сохранения данных и связей между ними. Многомерные структуры можно лучше всего представить в виде кубов данных, составленных из других кубов данных. Каждая сторона куба рассматривается как отдельная размерность.
Многомерные OLAP-серверы баз данных могут выполнять распространенные аналитические операции, включая консолидацию, нисходящий анализ и разбиение с поворотом.
Предварительная агрегация, иерархическая структура размерностей и управление разреженными данными может существенно сократить размер базы данных и потребность в выполнении вычислений. Эти подходы устраняют необходимость выполнения соединения большого количества таблиц и обеспечивают быстрый и прямой доступ к массивам данных, что позволяет существенно повысить скорость выполнения многомерных запросов.
Э.Ф. Кодд сформулировал двенадцать правил для ОLAP-систем, которые были получены в результате исследования, проведенного в интересах фирмы Arbor Software (создателя программного продукта Essbase). Их появление вызвало необходимость переопределения требований, предъявляемых к ОLAP-инструментам.
ОLAР-инструменты классифицируются в соответствии с типом: базы данных, которая используется для аналитической обработки: многомерные ОLAP-инструменты (MOLAP, или MD-OLAP), реляционные OLАР-инструменты (RОLAP), иначе называемые мультиреляционными OLAP-инструментами, а также инструменты управляемой среды запросов (MQE).
В некоторых системам язык SQL расширен многочисленными специальными операциями, предназначенными для анализа данных в приложениях поддержки принятия решений, такими как ранжирование, вычисление скользящих средних, сравнения, определение доли рынка, сравнение показателей этого года с показателями прошлого года.
Разработка данных — это процесс извлечения истинной и ранее неизвестной, комплексной и необходимой информации из больших баз данных, а также использование этой информации для принятия ответственных бизнес-решений.
Существует четыре основные операции, связанные с методами разработки данных; прогнозирующее моделирование, сегментирование базы данных, анализ связей и обнаружение отклонений.
Методы являются специфическими реализациями операций (алгоритмов), которые используются для выполнения операций разработки данных. Каждая операция обладает своими преимуществами и недостатками.
Отдельная фирма-разработчик иногда предлагает на выбор несколько алгоритмов для реализации того или иного метода. Выбор должен строиться на основании пригодности некоторых типов вводимых данных, прозрачности результатов разработки данных, допустимости наличия отсутствующих значений, достигаемого уровня точности и, в особенности, способности обрабатывать большие объемы данных.
С каждой из четырех основных операций разработки данных связаны определенные методы (они указаны в скобках): прогнозирующее моделирование (классификация и прогнозирование значения), сегментирование базы данных (демографическая кластеризации и шифонная кластеризация), анализ связей (поиск ассоциации, поиск последовательные закономерностей и поиск сходных временных зависимостей) и обнаружение отклонений (статистика и визуализация).
