Скачиваний:
190
Добавлен:
02.05.2014
Размер:
796.16 Кб
Скачать

10.12. Архитектура систем иад

Следует отметить, что средства аналитической обработки— OLAP и ИАД— могут использовать в качестве исходного материала для анализа любые данные, но наибольшего эффекта можно добиться при анализе корпоративного хранилища данных, содержащего максимально полный объем актуальных и исторических сведений обо всех аспектах деятельности объек­та управления и ситуации вокруг него.

Для обозначения объединения технологий MD&KD и OLAP применяется название — «OLAP Mining» и предлагается несколько вариантов интеграции двух технологий:

«Cubing then mining». Возможность выполнения интеллектуального ана­лиза должна обеспечиваться над любым результатом запроса к многомерному концептуальному представлению, т.е. над любым фрагментом любой проекции гиперкуба показателей.

«Mining then cubing». Подобно данным, извлеченным из хранилища, результаты интеллектуального анализа должны представляться в гиперкубической форме для последующего многомерного анализа.

«Cubing while mining». Этот гибкий способ интеграции позволяет ав­томатически активизировать однотипные механизмы интеллектуальной обработки над результатом каждого шага многомерного анализа (перехо­да между уровнями обобщения, извлечения нового фрагмента гиперкуба и т.д.).

ИАД средства могут быть интегрированы в хранилище данных и в средства бизнес-анализа. Многие средства ИАД в настоящее время рабо­тают вне хранилища данных, что требует дополнительных шагов на из­влечение, импорт и анализ данных. Начать можно с хранилища данных, содержащего комбинацию внутренних данных, учитывающих все кон­такты клиента с внешними данными рынка относительно активности конкурентов. Хранилище данных может быть организовано при помощи систем Sybase, Oracle, Redbrick и т.д.

OLAP server служит бизнес-моделью конечного пользователя, применяе­мой для навигации в хранилище данных. DM-сервер должен быть интегри­рован с хранилищем данных и OLAP-сервером, чтобы ROI-фокусированный бизнес-анализ непосредственно в этой структуре.

Многомерные OLAP-структуры позволяют пользователю анализировать данные, так как необходимо для бизнеса — суммируя по продуктовым лини­ям, регионам и другим ключевым направлениям бизнеса.

Такая схема обработки представляет собой фундаментальный сдвиг по сравнению с обычными системами поддержки решений. Вместо того, чтобы просто поставлять данные конечным пользователям посредством запросов и отчетов, Advanced Analysis Server применяет бизнес-моделирование непосредственно к хранилищу данных и возвращает данные перспективного ана­лиза наиболее релевантной информации.

Эти результаты облегчают метаданные в OLAP-сервере, обеспечивая слой динамических метаданных, который представляет очищенный взгляд на данные. Собранные о деятельности организации данные, организованные для их эффективного использования в Хранилище Данных, являются бази­сом для получения ответа на сложные стратегические вопросы, жизненно важные для успешного выживания на быстро меняющемся рынке. Исполь­зование специализированных и OLAP-приложений является хорошей помо­щью для получения ответов на хорошо сформулированные вопросы. Поста­новка же более широких вопросов требует серьезного аналитического ис­следования на базе всей доступной информации о деятельности организа­ции. Одной из перспективных технологий реализации методов ИАД являет­ся объектная реляционная технология раскопки данных. Объектная Реляци­онная Технология Раскопки данных (ОРТРД), используемая при открытии знаний, отличается от системы запросов, OLAP, визуализации или статисти­ческого анализа, применяемых в DSS.

Техника ОРТРД реализует специфическую форму DM, при которой мно­гие операции реализуются в самой базе данных, а не связаны с извлечением плоских файлов, последнее неприемлемо во многих реальных задачах DM. Примеры задач, выполняемых в самой базе данных— это динамические примеры, формирование перекрестных таблиц, профилей данных, гисто­грамм, кодирование и т.д.

Автоматизированный, перспективный анализ, осуществляемый ИАД отличается от ретроспективного анализа, выполняемого системами поддержки решений (DSS). Большинство компаний уже накопили и обработали боль­шие массивы данных. Техника ИАД может внедряться на основе сущест­вующих и программных средств, а также интегрироваться с новыми продук­тами и системами. ИАД предпочтительно устанавливать на высокопроизво­дительных компьютерах с параллельной обработкой, чтобы получить ответы на такие вопросы, как «какие клиенты наиболее вероятно ответят на мои почтовые рекламные сообщения и почему?»

Многие фирмы накопили сотни гигабайт экономической информации. В настоящее время экономически эффективная обработка этих объемов информации достигается при помощи параллельной многопроцессорной обработки. Параллельная обработка— это краеугольный камень для соз­дания успешной системы добычи данных. Так как каждый запрос извлекает данные из различных хранилищ, обрабатывает их с использованием уст­ройств ввода/вывода, а также выполняет итеративную сортировку и объе­динение, то последовательные процессоры возвращают ответ на запрос только через несколько дней или недель, если вообще это делают. Парал­лельные процессоры же разделяют запросы на крохотные куски и затем распределяют их между несколькими компьютерами, извлекающими ин­формацию параллельно.

Для эффективной работы алгоритмов ИАД желательно, чтобы анализи­руемые базы данных имели больше столбцов и больше строк.

  • Больше столбцов. Обычно аналитик вынужден часто ограничивать число переменных, которые он изучает, когда делает анализ в условиях временных ограничений. Однако опущенные переменные могут нести важную информацию относительно неизвестных образов.

  • Больше строк. Большее количество отсчетов позволяет уменьшить ошибку и дисперсию и позволяет пользователю делать выводы относи­тельно малых, но важных сегментов популяции.

Когда ИАД, средства устанавливаются на параллельных системах обра­ботки данных, они могут анализировать массивы баз данных в течение не­скольких минут. Более быстрая обработка означает, что пользователи могут автоматически экспериментировать с большим количеством моделей, чтобы понять сложные данные. Высокая скорость позволяет пользователю анали­зировать огромные количества данных. Большие базы данных, в свою оче­редь, позволяют получить наилучшее предсказание.

Появление сравнительно недорогих систем параллельной обработки да­ло возможность поставщикам повысить сложность программного обеспе­чения добычи данных. Традиционные приложения поддержки принятия решений были зачастую ограничены двухмерными запросами, например: «продажа за ноябрь [деятельность и период времени]». Благодаря парал­лельной обработке многие приложения для добычи данных стали ставить многомерные запросы, например: продажа сезонных товаров в северо-восточном регионе в ноябре месяце [деятельность, товар, география, пери­од времени].

После параллелизма проектировщики сетей должны рассмотреть переда­ваемый по сети объем данных. Если пользователям будет разрешено пода­вать сложные запросы или производить поиск в крупных корпоративных базах данных, то без мощных серверов и процессоров не обойтись. Предпо­ложим, новая кампания по рассылке каталогов торговой компании может потребовать поиска в 50 Гбайт данных о 25 миллионах клиентов. При неаде­кватном проекте такой поиск может полностью исчерпать пропускную спо­собность системы.

Помимо объема данных, отдельный вопрос — сколько пользователей одновременно могут использовать данную систему. В литературе приводится пример финансовой компании, использующей добычу данных в подразделе­нии по исследованиям конъюнктуры и выработке стратегии. Операции одно­го типа могут одновременно выполнять до 15 пользователей, при этом неко­торые из них просматривают данные объемом 30 Гбайт. С началом выпол­нения более изощренных операций по добыче данных приходится переме­щать гораздо больше данных, причем, чем выше интеграция таких компо­нентов, тем лучше

По некоторым оценкам, затраты на хранение составляют до 30% затрат на систему добычи данных. Отраслевые эксперты считают, что хранение 500 Гбайт данных обойдется не менее чем в миллион долларов. На первый взгляд подобные затраты кажутся действительно фантастическими, но об­щая стоимость решения по добыче данных может быть меньше ожидаемой. «Добыча данных стала гораздо более приемлемой по цене, — уверяет Парсайе из Information Discovery. — Снижение стоимости и рост производи­тельности платформ с параллельной обработкой, например RISC-машин и SlVfP-устройств, дает покупателям возможность иметь миллион операций в секунду по минимальной на сегодняшний день цене».

С увеличением мощности небольших серверов и крупных рабочих стан­ций они способны справляться с большей нагрузкой по анализу добычи дан­ных, чем необходимые прежде суперсерверы. То, для чего пять лет назад требовалась система Teradata стоимостью 10 миллионов долларов, теперь можно осуществить на рабочих станциях Hewlett-Packard, Sun Solaris, Digital Alpha и Silicon Graphics.

В принципе нет ничего нового в постановке задачи ИАД. Специалисты на протяжении нескольких последних десятков лет решали подобные задачи («поиск эмпирических закономерностей», «эвристический поиск в сложных средах», «индуктивный вывод» и т. п.). Но только сейчас общество в целом созрело для понимания практической важности и широты этих задач. Во-первых, в связи с развитием технологий записи и хранения данных сегодня на людей обрушились колоссальные потоки информационной руды в самых различных областях, которые без продуктивной переработки грозят превратиться в никому не нужные свалки. И, во-вторых, средства и методы обработки данных стали доступными и удобными, а их результаты понятными любому человеку.

Соседние файлы в папке Романов В.П. Интеллектуальные информационные системы в экономике