- •Глава 10. Машинное обучение
- •10.1. Компоненты процесса обучения
- •10.2. Индуктивное обучение
- •10.3. Система id3
- •10.4. Система induce
- •Индуктивно сгенерированные правила
- •Переменные, используемые для классификации
- •10.5. Алгоритм обучения понятиям
- •10.6. Неинкрементальное (параллельное) обучение в решетках Галуа
- •10.7. Адаптивная дискретизация непрерывных значений атрибутов
- •10.8. Открытие знаний
- •10.9. Типы закономерностей, выявляемых методами над
- •10.10. Бизнес-приложения методов иад
- •10.11. Классы систем иад Предметно-ориентированные аналитические системы
- •Статистические пакеты
- •Системы рассуждений на основе аналогичных случаев (cbr case based reasoning)
- •Деревья решений (decision trees)
- •Эволюционное программирование
- •Генетические алгоритмы
- •Алгоритмы ограниченного перебора
- •К-ближайший сосед
- •Технология deep data mining
- •10.12. Архитектура систем иад
- •10.13. Применение алгоритмов типа аво (вычисления оценок) для построения итерационных алгоритмов поиска
- •10.14. Алгоритм распознавания типа «Кора»
- •10.15. Обучение машин распознаванию образов
- •10.16. Алгоритмы автоматического построения классификаций
- •Общее описание методов партициальной кластеризации
- •Алгоритм партициальной кластеризации. Метод k-средних (k-means)
- •Алгоритмы иерархической кластеризации
- •Программные средства интеллектуального анализа данных
- •Ibm Visualization Data Explorer
- •Data mining suite
Программные средства интеллектуального анализа данных
Одна из технологий ИАД состоит в выявлении ассоциаций между множествами предметов. Например, может быть выявлена также зависимость, что покупка чипсов сопровождается покупкой воды (напитка). Для того чтобы определить наличие ассоциации, программа вычисляет процент записей, в которых совместно встречаются как А, так и В. Затем программа вычисляет степень уверенности, которая представляет собою процент всех транзакций, в которых встречается В.
Другая технология предусматривает выявление последовательности / темпоральной зависимости.
Этот вид зависимости используется для того, чтобы выявить ассоциации, связанные с временными (темпоральными) отношениями, например:
через три месяца после приобретения ноутбука приобретаются батареи;
клиенты, которые на 25% снижают уровень использования сотового телефона в течение трех предыдущих месяцев, имеют коэффициент правдоподоподобия, равный 60% того, что они откажутся от услуг мобильной связи в последующем;
продажа огнетушителей увеличивается на 400 % в течение месяца, по следующего за землетрясением.
Разработка и поставка на рынок программных средств интеллектуального анализа данных является на сегодняшний день хорошо отлаженным бизнесом. Рассмотрим некоторые программные продукты и фирмы, которые их предлагают.
Angoss Software International Limited
Angoss Software International Limited предлагает Knowledge Seeker — средство построения дерева, которое использует автоматическое обнаружение взаимосвязей для таких приложений, как маркетинг на основе баз данных, финансовый анализ. Интерфейс в виде меню выводит поля для отображения атрибутов, которые сильно связаны с изучаемыми атрибутами и порождает модель, показывающую предикторы для целевого атрибута. Провайдером средств Data Mining являются: Angoss Software International Limited, Data Distilleries B.V.NeoVista Solutions, Inc.Syllogic B.V. http://www.angoss.com
Data Distilleries B.V.
Data Distilleries B.V. — компания, обеспечивающаяся знания и средства для выполнения ИАД в оперативном режиме в общественном секторе экономики. Data Distilleries B.V. образована в 1996 г. как ответвление CWI — ведущий международного центра математики и информатики. Менеджеры могут улучшить свой процесс бизнеса, используя средства оперативного ИАД, который открывает скрытые закономерности в больших базах данных. Область применения: анализ рисков, анализ трендов, оценка возможных пределов кредитования, логистика и контроль качества продуктов, http://www.ddi.nl
Magnify, Inc.
Magnify поддерживает потребность в ИАД клиентов, для которых необходимы средства с высокими характеристиками. Magnify сосредотачивается на финансовых услугах и связанных с ними операциях маркетинга. Входящее в состав продукта программное обеспечение обеспечивает анализ очень больших баз данных. Алгоритм Pattern включают параллельные и распределительные варианты классификации, регрессии, деревья оптимизации. http://www.magnify.com
NeoVista Solutions, Inc.
Программное обеспечение NeoVista Solutions Decisions Series имеет непосредственный интерфейс с базами данных для алгоритмов ИАД. Результаты ИАД отображаются при помощи удобного интерфейса, http://neovista.com
Syllogic B.V.
Поддерживает все стадии процесса ИАД, включая отбор данных, очистку данных, обогащения данных, кодирование, открытие и визуализацию. Применяются такие методы, как деревья решений, правила ассоциаций К- ближайших соседей, кластеризацию и визуализацию для решения задач бизнеса в финансах, транспортировке, управлении, http://www.syllogic.nl
Pilot Software DIG
Pilot Software DIG разрабатывают средства ИАД для работы с многомерными базами данных и технологиями OLAP и гиперкуба. Эти средства работают с такими продуктами ИАД, как CARD и CHAID, а также нейронные сети. В основном пытаются автоматизировать часто повторяющиеся операции аналитических задач. Отделения фирмы в Токио совместно с Tokyo Shoko Research применяют ИАД информационного менеджмента, используют ИАД и многомерные базы данных используются для того, чтобы лучше понимать покупательское поведение клиента. Средства визуализации для аналитической обработки результатов деятельности обслуживания клиентов.
Такие инструменты Data Mining, как CARD, могут помочь в анализе рынка ценных бумаг, а также в проведении социо-экономических исследований для экономического моделирования и анализа рисков.
АС2
АС2 — это набор библиотеки C/C++, дающих возможность разработчику и специалисту по информационным технологиям встраивать средства ИАД в их собственное программное обеспечение (ПО). АС2 также может использоваться как графическая оболочка, работающая под Windows 3.1/95/NT и Unix/Motif. AC2 охватывает все шаги процесса ИАД, от моделирования данных (с полной объектно-ориентированной моделью) до перекрестной проверки и Good-Strapping. Разработчик: Cyril Way, cyril@isoft.fr
ALICE d'l Soft.
Мощное и легко используемое средство ИАД. Использует дерево решений для изучения данных. Текстовые отчеты, генерация SQL- запросов, анализ «что, если». Разработчик: cyril@isoft.fr
AuyoClassC.
Общедоступная версия программы AuyoClass III, с некоторыми улучшениями AuyoClassX, реализованная на языке С. AuyoClass реализует обучаемую байесовую систему классификации без учителя, которая находит максимальную апостериорную вероятность классификации.
Входы составляют вектора атрибутов базы данных либо с действительными, либо с дискретными значениями класса модели. Класс модели может быть выбран по умолчанию. AuyoClass находит множество классов, которые наиболее вероятны по отношению к данным и модели. Выходом является класс описаний и частичная функция принадлежности объектов к классам.
C5.0/See5
Разработчик: quinlan@rulequest.com
CLEMENTINE
Один из главнейших средств ИАД, дважды выигравший премию SMART правительства Великобритании за инновации. Приложения Clementine включают сегментирование/программирование для маркетинговых компаний, предложение прибылей.
DATA SURVEYOR
Это инструментарий для пользователей-экспертов. Он состоит из набора мощных алгоритмов и обеспечивает поддержку для всех шагов процесса открытия знаний. Data Surveyor позволяет пользователю интерактивно открывать знания, инспектировать результаты во время открытия и руководить процессом открытия. Область применения Data Surveyor включает маркетинг на основе баз данных и анализа рисков. Разработчик: info@ddi.ne
DATA DETECTIVE
Разработчик: Peter Van der Putten, info@smr.ne
DATA ENGINE
Программный продукт для анализа данных использует понятие технологии ИАД, нейронные сети и обычную статистику. Он успешно применяется в области предсказания, маркетинга на основе баз данных, анализа процессов и диагноза. Обладает высокой гибкостью, обладая возможностью импорта MS-Excel файлов. Разработчик: rw@mitgmbh.de
Data Sage
Представляет набор C++ модулей, которые поддерживают данные внутри существующей реляционной базы данных. Data Sage использует высокоскоростные программы на C++, чтобы считывать и обрабатывать очень большие базы данных. Data Sage включает набор преобразования данных, средства моделирования и анализа средств, включая нейронные сети и факторный анализ. Компания сформирована в 1992 году и включает большое количество выпускников MIT.
Разработчик: brendy@cs.brandeis.edu
DATA SCOPE
Преобразует дискретные данные в вид легко обозримых диаграмм. Разработчик: Data X(tm) Scott Ivan, scott@zaptron.com
DB PROPHET
Средство ИАД на основе нейронных сетей. Trajectbe.
Используя сложную технологию нейронных сетей, Trajectbe предлагает широкий набор программных продуктов и услуг, которые обеспечивают предсказание сложного поведения клиентов и тенденции рынка.
Разработчик: stevew@trajectbe.com
Decision house
Разработчик: ANP
Explora
Свободно доступное средство для Mac.
FTP — программное обеспечение, доступное при помощи пр.
Comp.ai-tag/part4.
Graf-Fx-Graphical Data Mining Shareware. Разботчик: fx@bigpoud.com
Guiding Inductive Learning with Analytative Model.
Этот пакет представляет качественную модель для получения индуктивных предложений и правил «если ..., то», используя CN2 таким образом, что в процессе отбора сохраняются только те правила, которые допускают объяснение посредством качественных моделей. Работы по Lazy Evaluation.