Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Dokument_Microsoft_Office_Word_Ispravlennyy.docx
Скачиваний:
40
Добавлен:
21.09.2019
Размер:
425.46 Кб
Скачать

2.6. Обнаружение отклонений

Метод обнаружения отклонений — это относительно новая операция в коммерчески доступных инструментах разработки данных. Тем не менее именно этот метод чисто является источником настоящих открытий, поскольку он предполагает анализ выбросов, которые выражают степень отклонения от некоторых предварительно известных значений математического ожидания и нормального среднего. Эта операция часто выполняется с помощью методов статистики и визуализации или же является побочным продуктом других проце­дур разработки данных. Например, линейная регрессия упрощает идентификацию выбросов среди данных., тогда как современные методы визуализации позволяют так графически ото­бражать полученные после анализа значения, что на этих графиках можно легко обнару­жить заметные отклонения данных. На рисунке 8 показано применение подобных методов визуализации в отношении данных, представленных на рисунке7. Метод обнаружения от­клонений используется для обнаружения мошенничества с кредитными карточками и стра­ховыми полисами, а также для контроля качества и поиска дефектов.

Рисунок 8. Пример визуализации данных, показанных на рис. 26.7

2.7.Инструменты разработки данных

Количество представленных на рынке коммерческих инструментов разработки денных постоянно возрастает. Наиболее важные их характеристики:

  • наличие инструментов подготовки данных;

  • возможность выбора операций разработки данных (алгоритмов);

  • масштабируемость продукта и показатели его производительности;

  • наличие инструментов визуализации данных.

В качестве примеров инструментов разработки данных можно назвать пакеты Clementine фирмы Integral Solutions Ltd, DetaCrusher фирмы DataMind Corp, Intelligent Miner фирмы IBM, MineSet фирмы Silicon Graphics, Data Mining Suit фирмы Information Discovery Inc., SAS System фирмы SAS Institute Inс. и Thought фирмы Right Information Systems.

2.8.Разработка данных и хранилища данных

Одно из основных затруднений в процессе разработки данных связано с поиском данных, подходящих для разработки. Для разработки данных следует использовать единый, отдельный, чистый, интегрированный и самосогласованный источник данных. Хранилище данных вполне подходит на роль такого источника данных по перечисленный ниже причинам.

  • Качество и непротиворечивость данных является основным условием достижения точности создаваемых моделей прогнозирования, а хранилища данных как раз заполнены чистыми и непротиворечивыми данными.

  • Для обнаружения максимально возможного количества взаимосвязей между данными важно получать их из нескольких источников. Хранилища данных содержат данные, поступающие из нескольких источников.

  • Хранилище данных обладает инструментами выполнения запросов, которые можно использовать для выборки подмножеств записей и полей, под­ходящих для выполнения разработки данных.

  • Результаты разработки данных особенно полезны, если существует способ для дальнейшего исследования нераскрытых закономерностей. Хранилища данных позволяют вернуться к исходным источникам данных.

Благодаря тому что технологии разработки данных и хранилищ данных взаимно дополняют друг друга, многие фирмы-разработчик и исследуют способы интеграции этих технологий. Например, фирма Red Brick Systems предлагает свой продукт Red Brick Warehouse 5.0, который может быть дополнен необязательным инструментом Red Brick Data Mine.

Резюме

  • Оперативная аналитическая обработка данных (ОLAP-технология) включает дина­мический синтез, анализ и консолидацию многомерных данных большого объема.

  • Большинство ОLAP-приложений реализовано с помощью специализированных тех­нологий многомерных СУБД (ММ СУБД), узкого набора данных и специально на­строенного пользовательского интерфейса. OLAP-архитектура обладает ясно опреде­ленными уровнями с четким разделением функций между приложением и СУБД.

  • ОLAP-серверы баз данных используют многомерные структуры для сохране­ния данных и связей между ними. Многомерные структуры можно лучше все­го представить в виде кубов данных, составленных из других кубов данных. Каждая сторона куба рассматривается как отдельная размерность.

  • Многомерные OLAP-серверы баз данных могут выполнять распространенные аналитические операции, включая консолидацию, нисходящий анализ и раз­биение с поворотом.

  • Предварительная агрегация, иерархическая структура размерностей и управ­ление разреженными данными может существенно сократить размер базы данных и потребность в выполнении вычислений. Эти подходы устраняют не­обходимость выполнения соединения большого количества таблиц и обеспечи­вают быстрый и прямой доступ к массивам данных, что позволяет существен­но повысить скорость выполнения многомерных запросов.

  • Э.Ф. Кодд сформулировал двенадцать правил для ОLAP-систем, которые были по­лучены в результате исследования, проведенного в интересах фирмы Arbor Software (создателя программного продукта Essbase). Их появление вызвало необ­ходимость переопределения требований, предъявляемых к ОLAP-инструментам.

  • ОLAР-инструменты классифицируются в соответствии с типом: базы данных, которая используется для аналитической обработки: многомерные ОLAP-инструменты (MOLAP, или MD-OLAP), реляционные OLАР-инструменты (RОLAP), иначе называемые мультиреляционными OLAP-инструментами, а также инструменты управляемой среды запросов (MQE).

    • В некоторых системам язык SQL расширен многочисленными специальными операциями, предназначенными для анализа данных в приложениях поддержки принятия решений, такими как ранжирование, вычисление скользя­щих средних, сравнения, определение доли рынка, сравнение показателей это­го года с показателями прошлого года.

  • Разработка данных — это процесс извлечения истинной и ранее неизвестной, комплексной и необходимой информации из больших баз данных, а также ис­пользование этой информации для принятия ответственных бизнес-решений.

  • Существует четыре основные операции, связанные с методами разработки дан­ных; прогнозирующее моделирование, сегментирование базы данных, анализ связей и обнаружение отклонений.

  • Методы являются специфическими реализациями операций (алгоритмов), ко­торые используются для выполнения операций разработки данных. Каждая операция обладает своими преимуществами и недостатками.

  • Отдельная фирма-разработчик иногда предлагает на выбор несколько алгорит­мов для реализации того или иного метода. Выбор должен строиться на осно­вании пригодности некоторых типов вводимых данных, прозрачности резуль­татов разработки данных, допустимости наличия отсутствующих значений, достигаемого уровня точности и, в особенности, способности обрабатывать большие объемы данных.

  • С каждой из четырех основных операций разработки данных связаны определен­ные методы (они указаны в скобках): прогнозирующее моделирование (классифи­кация и прогнозирование значения), сегментирование базы данных (демографи­ческая кластеризации и шифонная кластеризация), анализ связей (поиск ассо­циации, поиск последовательные закономерностей и поиск сходных временных зависимостей) и обнаружение отклонений (статистика и визуализация).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]