- •Глава 10. Машинное обучение
- •10.1. Компоненты процесса обучения
- •10.2. Индуктивное обучение
- •10.3. Система id3
- •10.4. Система induce
- •Индуктивно сгенерированные правила
- •Переменные, используемые для классификации
- •10.5. Алгоритм обучения понятиям
- •10.6. Неинкрементальное (параллельное) обучение в решетках Галуа
- •10.7. Адаптивная дискретизация непрерывных значений атрибутов
- •10.8. Открытие знаний
- •10.9. Типы закономерностей, выявляемых методами над
- •10.10. Бизнес-приложения методов иад
- •10.11. Классы систем иад Предметно-ориентированные аналитические системы
- •Статистические пакеты
- •Системы рассуждений на основе аналогичных случаев (cbr case based reasoning)
- •Деревья решений (decision trees)
- •Эволюционное программирование
- •Генетические алгоритмы
- •Алгоритмы ограниченного перебора
- •К-ближайший сосед
- •Технология deep data mining
- •10.12. Архитектура систем иад
- •10.13. Применение алгоритмов типа аво (вычисления оценок) для построения итерационных алгоритмов поиска
- •10.14. Алгоритм распознавания типа «Кора»
- •10.15. Обучение машин распознаванию образов
- •10.16. Алгоритмы автоматического построения классификаций
- •Общее описание методов партициальной кластеризации
- •Алгоритм партициальной кластеризации. Метод k-средних (k-means)
- •Алгоритмы иерархической кластеризации
- •Программные средства интеллектуального анализа данных
- •Ibm Visualization Data Explorer
- •Data mining suite
10.12. Архитектура систем иад
Следует отметить, что средства аналитической обработки— OLAP и ИАД— могут использовать в качестве исходного материала для анализа любые данные, но наибольшего эффекта можно добиться при анализе корпоративного хранилища данных, содержащего максимально полный объем актуальных и исторических сведений обо всех аспектах деятельности объекта управления и ситуации вокруг него.
Для обозначения объединения технологий MD&KD и OLAP применяется название — «OLAP Mining» и предлагается несколько вариантов интеграции двух технологий:
«Cubing then mining». Возможность выполнения интеллектуального анализа должна обеспечиваться над любым результатом запроса к многомерному концептуальному представлению, т.е. над любым фрагментом любой проекции гиперкуба показателей.
«Mining then cubing». Подобно данным, извлеченным из хранилища, результаты интеллектуального анализа должны представляться в гиперкубической форме для последующего многомерного анализа.
«Cubing while mining». Этот гибкий способ интеграции позволяет автоматически активизировать однотипные механизмы интеллектуальной обработки над результатом каждого шага многомерного анализа (перехода между уровнями обобщения, извлечения нового фрагмента гиперкуба и т.д.).
ИАД средства могут быть интегрированы в хранилище данных и в средства бизнес-анализа. Многие средства ИАД в настоящее время работают вне хранилища данных, что требует дополнительных шагов на извлечение, импорт и анализ данных. Начать можно с хранилища данных, содержащего комбинацию внутренних данных, учитывающих все контакты клиента с внешними данными рынка относительно активности конкурентов. Хранилище данных может быть организовано при помощи систем Sybase, Oracle, Redbrick и т.д.
OLAP server служит бизнес-моделью конечного пользователя, применяемой для навигации в хранилище данных. DM-сервер должен быть интегрирован с хранилищем данных и OLAP-сервером, чтобы ROI-фокусированный бизнес-анализ непосредственно в этой структуре.
Многомерные OLAP-структуры позволяют пользователю анализировать данные, так как необходимо для бизнеса — суммируя по продуктовым линиям, регионам и другим ключевым направлениям бизнеса.
Такая схема обработки представляет собой фундаментальный сдвиг по сравнению с обычными системами поддержки решений. Вместо того, чтобы просто поставлять данные конечным пользователям посредством запросов и отчетов, Advanced Analysis Server применяет бизнес-моделирование непосредственно к хранилищу данных и возвращает данные перспективного анализа наиболее релевантной информации.
Эти результаты облегчают метаданные в OLAP-сервере, обеспечивая слой динамических метаданных, который представляет очищенный взгляд на данные. Собранные о деятельности организации данные, организованные для их эффективного использования в Хранилище Данных, являются базисом для получения ответа на сложные стратегические вопросы, жизненно важные для успешного выживания на быстро меняющемся рынке. Использование специализированных и OLAP-приложений является хорошей помощью для получения ответов на хорошо сформулированные вопросы. Постановка же более широких вопросов требует серьезного аналитического исследования на базе всей доступной информации о деятельности организации. Одной из перспективных технологий реализации методов ИАД является объектная реляционная технология раскопки данных. Объектная Реляционная Технология Раскопки данных (ОРТРД), используемая при открытии знаний, отличается от системы запросов, OLAP, визуализации или статистического анализа, применяемых в DSS.
Техника ОРТРД реализует специфическую форму DM, при которой многие операции реализуются в самой базе данных, а не связаны с извлечением плоских файлов, последнее неприемлемо во многих реальных задачах DM. Примеры задач, выполняемых в самой базе данных— это динамические примеры, формирование перекрестных таблиц, профилей данных, гистограмм, кодирование и т.д.
Автоматизированный, перспективный анализ, осуществляемый ИАД отличается от ретроспективного анализа, выполняемого системами поддержки решений (DSS). Большинство компаний уже накопили и обработали большие массивы данных. Техника ИАД может внедряться на основе существующих и программных средств, а также интегрироваться с новыми продуктами и системами. ИАД предпочтительно устанавливать на высокопроизводительных компьютерах с параллельной обработкой, чтобы получить ответы на такие вопросы, как «какие клиенты наиболее вероятно ответят на мои почтовые рекламные сообщения и почему?»
Многие фирмы накопили сотни гигабайт экономической информации. В настоящее время экономически эффективная обработка этих объемов информации достигается при помощи параллельной многопроцессорной обработки. Параллельная обработка— это краеугольный камень для создания успешной системы добычи данных. Так как каждый запрос извлекает данные из различных хранилищ, обрабатывает их с использованием устройств ввода/вывода, а также выполняет итеративную сортировку и объединение, то последовательные процессоры возвращают ответ на запрос только через несколько дней или недель, если вообще это делают. Параллельные процессоры же разделяют запросы на крохотные куски и затем распределяют их между несколькими компьютерами, извлекающими информацию параллельно.
Для эффективной работы алгоритмов ИАД желательно, чтобы анализируемые базы данных имели больше столбцов и больше строк.
Больше столбцов. Обычно аналитик вынужден часто ограничивать число переменных, которые он изучает, когда делает анализ в условиях временных ограничений. Однако опущенные переменные могут нести важную информацию относительно неизвестных образов.
Больше строк. Большее количество отсчетов позволяет уменьшить ошибку и дисперсию и позволяет пользователю делать выводы относительно малых, но важных сегментов популяции.
Когда ИАД, средства устанавливаются на параллельных системах обработки данных, они могут анализировать массивы баз данных в течение нескольких минут. Более быстрая обработка означает, что пользователи могут автоматически экспериментировать с большим количеством моделей, чтобы понять сложные данные. Высокая скорость позволяет пользователю анализировать огромные количества данных. Большие базы данных, в свою очередь, позволяют получить наилучшее предсказание.
Появление сравнительно недорогих систем параллельной обработки дало возможность поставщикам повысить сложность программного обеспечения добычи данных. Традиционные приложения поддержки принятия решений были зачастую ограничены двухмерными запросами, например: «продажа за ноябрь [деятельность и период времени]». Благодаря параллельной обработке многие приложения для добычи данных стали ставить многомерные запросы, например: продажа сезонных товаров в северо-восточном регионе в ноябре месяце [деятельность, товар, география, период времени].
После параллелизма проектировщики сетей должны рассмотреть передаваемый по сети объем данных. Если пользователям будет разрешено подавать сложные запросы или производить поиск в крупных корпоративных базах данных, то без мощных серверов и процессоров не обойтись. Предположим, новая кампания по рассылке каталогов торговой компании может потребовать поиска в 50 Гбайт данных о 25 миллионах клиентов. При неадекватном проекте такой поиск может полностью исчерпать пропускную способность системы.
Помимо объема данных, отдельный вопрос — сколько пользователей одновременно могут использовать данную систему. В литературе приводится пример финансовой компании, использующей добычу данных в подразделении по исследованиям конъюнктуры и выработке стратегии. Операции одного типа могут одновременно выполнять до 15 пользователей, при этом некоторые из них просматривают данные объемом 30 Гбайт. С началом выполнения более изощренных операций по добыче данных приходится перемещать гораздо больше данных, причем, чем выше интеграция таких компонентов, тем лучше
По некоторым оценкам, затраты на хранение составляют до 30% затрат на систему добычи данных. Отраслевые эксперты считают, что хранение 500 Гбайт данных обойдется не менее чем в миллион долларов. На первый взгляд подобные затраты кажутся действительно фантастическими, но общая стоимость решения по добыче данных может быть меньше ожидаемой. «Добыча данных стала гораздо более приемлемой по цене, — уверяет Парсайе из Information Discovery. — Снижение стоимости и рост производительности платформ с параллельной обработкой, например RISC-машин и SlVfP-устройств, дает покупателям возможность иметь миллион операций в секунду по минимальной на сегодняшний день цене».
С увеличением мощности небольших серверов и крупных рабочих станций они способны справляться с большей нагрузкой по анализу добычи данных, чем необходимые прежде суперсерверы. То, для чего пять лет назад требовалась система Teradata стоимостью 10 миллионов долларов, теперь можно осуществить на рабочих станциях Hewlett-Packard, Sun Solaris, Digital Alpha и Silicon Graphics.
В принципе нет ничего нового в постановке задачи ИАД. Специалисты на протяжении нескольких последних десятков лет решали подобные задачи («поиск эмпирических закономерностей», «эвристический поиск в сложных средах», «индуктивный вывод» и т. п.). Но только сейчас общество в целом созрело для понимания практической важности и широты этих задач. Во-первых, в связи с развитием технологий записи и хранения данных сегодня на людей обрушились колоссальные потоки информационной руды в самых различных областях, которые без продуктивной переработки грозят превратиться в никому не нужные свалки. И, во-вторых, средства и методы обработки данных стали доступными и удобными, а их результаты понятными любому человеку.