Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Раздаточный материал по информатике / 10b- Программное обеспечение Data Mining

.doc
Скачиваний:
65
Добавлен:
23.05.2015
Размер:
556.54 Кб
Скачать

5

Программное обеспечение KXEN

Является разработкой одноименной французско-американской компании, работающей на рынке с 1998 года. Аббревиатура KXEN означает "Knowledge eXtraction Engines" - "движки" для извлечения знаний.

Разработка KXEN имеет особый подход к анализу данных. В KXEN нет деревьев решений, нейронных сетей и других популярных техник.

KXEN - это инструмент для моделирования, который позволяет говорить об эволюции Data Mining и реинжиниринге аналитического процесса в организации в целом.

В основе этих утверждений лежат достижения современной математики и принципиально иной подход к изучению явлений в бизнесе.

Бизнес-моделирование KXEN - это анализ деятельности компании и ее окружения путем построения математических моделей. Он используется в тех случаях, когда необходимо понять взаимосвязь между различными событиями и выявить ключевые движущие силы и закономерности в поведении интересующих нас объектов или процессов.

KXEN охватывает четыре основных типа аналитических задач:

  • Задачи регрессии/классификации (в т.ч. определение вкладов переменных);

  • Задачи сегментации/кластеризации;

  • Анализ временных рядов;

  • Поиск ассоциативных правил (анализ потребительской корзины).

Построенная модель в результате становится механизмом анализа, т.е. частью бизнес-процесса организации. Главная идея здесь - на основе построенных моделей создать систему "сквозного" анализа происходящих процессов, позволяющую автоматически производить их оценку и строить прогнозы в режиме реального времени (по мере того, как те или иные операции фиксируются учетными системами организации).

Реинжиниринг аналитического процесса

Использование в качестве инструмента для моделирования программного обеспечения KXEN предлагает усовершенствовать аналитический процесс, устранив трудности, часто возникающие в процессе поиска закономерностей, среди которых: трудоемкость подготовки данных; сложность выбора переменных, включенных в модель; требования к квалификации аналитиков; сложность интерпретации полученных результатов; сложность построения моделей. Особенность KXEN заключается в том, что заложенный в него математический аппарат (на основе Теории минимизации структурного риска Владимира Вапника) позволяет практически полностью автоматизировать процесс построения моделей и на порядок увеличить скорость проводимого анализа. Отличия традиционного процесса Data Mining и подхода KXEN приведены на рис.

Таким образом, построение модели в KXEN из исследовательского проекта превращается в функцию предсказательного анализа в режиме on-line в формате "вопрос-ответ". Ответы даются в тех же терминах, в которых был сформулирован вопрос, и задача пользователя сводится к тому, чтобы задавать нужные вопросы и указывать данные для анализа.

Среди преимуществ KXEN можно назвать:

  • Удобная и безопасная работа с данными: данные никуда не перегружаются, KXEN обрабатывает их строка за строкой (текстовые файлы или интеграция с DB2, Oracle и MS SQL Server, в т.ч. через ODBC);

  • Наглядность результатов моделирования, легкость для понимания: графическое отображение моделей + score-карты;

  • Широкие возможности применения моделей: автоматическая генерация кода моделей на языках С++, XML, PMML, HTML, AWK, SQL, JAVA, VB, SAS, при этом модель сможет работать автономно.

Отличия традиционного процесса Data Mining и подхода KXEN

Программное обеспечение PolyAnalist

Назначение системы. Система PolyAnalyst предназначена для автоматического и полуавтоматического анализа числовых баз данных и извлечения из сырых данных практически полезных знаний. PolyAnalyst находит многофакторные зависимости между переменными в базе данных, автоматически строит и тестирует многомерные нелинейные модели, выражающие найденные зависимости, выводит классификационные правила по обучающим примерам, находит в данных многомерные кластеры, строит алгоритмы решений. Разработчик системы PolyAnalyst - российская компания Megaputer Intelligence или "Мегапьютер".

Архитектура системы

По своей природе PolyAnalyst является клиент-серверным приложением. Пользователь работает с клиентской программой PolyAnalyst Workplace. Математические модули выделены в серверную часть - PolyAnalyst Knowledge Server. Такая архитектура предоставляет естественную возможность для масштабирования системы: от однопользовательского варианта до корпоративного решения с несколькими серверами. PolyAnalyst написан на языке С++ с использованием спецификации Microsoft's COM (ActiveX). Эта спецификация устанавливает стандарт коммуникации между программными компонентами. Архитектура системы PolyAnalyst представлена на рис.

Аналитический инструментарий PolyAnalyst

Версия PolyAnalyst 4.6 включает 18 математических модулей, основанных на различных алгоритмах Data и Text Mining. Большинство из этих алгоритмов являются Know-How компании Мегапьютер и не имеют аналогов в других системах.

  • моделирование,

  • прогнозирование,

  • кластеризация,

  • классификация,

  • текстовый анализ.

Модули текстового анализа

В системе PolyAnalyst реализована интеграция инструментов Data Mining с методами анализа текстов на естественном языке - алгоритмов Text Mining. Иллюстрация работы модулей текстового анализа показана на рис.

WebAnalyst

Помимо разработок PolyAnalyst и TextAnalyst, предназначенных соответственно для добычи данных и текстов (Data Mining и Text Mining), фирма Мегапьютер реализует третий продукт - WebAnalyst.

WebAnalyst - это корпоративный аналитический сервер, представляющий собой интегрированную платформу для хранения и обработки информации и адаптированный для работы с web-данными и для решения задач e-business.

WebAnalyst является масштабируемым сервером приложений с открытой архитектурой, который автоматизирует задачи сбора информации, ее преобразования, анализа и генерации персонализированного контента для потребителей. Кроме этого, клиентское приложение WebAnalyst предоставляет гибкий инструмент для визуального проектирования.

  • Обрабатывает данные из различных источников, таких как каналы передачи данных (HTTP), внешние базы данных и лог-файлы web-серверов.

  • Хранит связанную информацию в собственной единой универсальной базе данных.

  • Содержит набор встроенных аналитических инструментов и инструментов для работы с данными (модули WebAnalyst), предоставляет пользователю визуальное средство для разработки процедур обработки и анализа данных и для генерации контента.

WebAnalyst уже включает в себя все математические модули для Data и Text Mining систем PolyAnalyst и TextAnalyst, а также специальную аналитическую математику.

WebAnalyst может быть полезен при решении следующих задач:

  • регистрации взаимодействия посетителя с Web-сайтом;

  • преобразовании и хранении аналитической информации;

  • использовании собранных данных для изучения интересов посетителя и его предпочтений;

  • анализе эффективности ресурсов сайта и его архитектуры;

  • составлении отчетов для руководства;

  • использовании полученной информации для персонифицированного диалога с каждым посетителем.

В качестве "сырья" для своей работы WebAnalyst может использовать: информационные потоки от Web-серверов; базы данных информационного наполнения; базы данных клиентов, продуктов и транзакций; накопленные регистрационные файлы Web-серверов; другие внешние источники данных.