
2.2. Data Mining иText Mining
Средства интеллектуального анализа (DMg)
Предназначены для фундаментального аналитического исследования проблем в той или иной предметной области. Требования ко времени менее жесткие, чем в OLAP-средствах.
DMg наиболее сложная, интеллектуально насыщенная часть ИАС, поэтому входят в состав наиболее развитых ИАС.
Причины популярности Data Mining
Стремительное накопление данных
Всеобщая компьютеризация бизнес процессов
Рост научных данных (Tbytes/день)
Интернет и WEB
Технологический прогресс: стремительный рост производительности компьютеров, объемов накопителей, совершенствование СУБД, Хранилищ данных
Задачи:
выявление взаимозависимостей, причинноследственных связей, ассоциаций и аналогий;
определение значений факторов времени, локализация событий или явлений по месту;
классификация событий и ситуаций, определение профилей различных факторов;
прогнозирование хода процессов, событий.
При решении сложных аналитических задач используются мощные специальные программные средства, инструменты
Data Mining
Разработаны для поиска и выявления в данных скрытых связей и взаимозависимостей с целью предоставления их руководителю в процессе принятия решений
Методы:
Статистические методы корреляции
Оптимизации
Позволяющие находить зависимости и синтезировать обобщающую информацию
Возможности Data Mining
Поиск зависимых данных
Выявление устойчивых бизнес-групп
Ранжирование важности измерений при классификации объектов для проведения анализа
Прогнозирование бизнес-показателей
Оценка влияния принимаемых решений на достижение успеха предприятия
Поиск аномалий
От данных к решениям
Области применения Data Mining
Области применения Data Mining
Автономные программные системы
Специализированные системы
PolyAnalyst ( российская фирма Megaputer)
SAS ( фирма SAS Institute Inc., США)
Модуль Miner в составе пакета OLAP -анализа Business Objects
Система PolyAnalyst
Одна из самых мощных Data Mining систем, разработанных для Intel платформ
Сочетание высокой производительности и богатой функциональности с относительно низкой по сравнению с аналогичными системами стоимостью
PolyAnalyst
извлечение знаний в больших массивах данных;
автоматическое построение и тестирование формул, описывающих функциональные зависимости;
составление классификационных правил по заданным примерам;
формирование многомерных кластеров;
алгоритмы решений.
Удобный пользовательский интерфейс
PolyAnalyst
PolyAnalyst Lite, PolyAnalyst Power – программные модули для индивидуальных пользователей и малого бизнеса;
PolyAnalyst Professional для MS Windows NT — мощная система интеллектуального анализа для профессионалов;
PolyAnalyst Knowledge server — клиент-серверная версия предназначена для работы на высокопроизводительных платформах, обеспечивает доступ к SQL-СУБД (Оrасlе, DВ-2, Informix, MS SQL-Server и др.) и к ОLАР-системам.
Архитектура СОМ
Открытый программный интерфейс для создания собственных приложений Data Mining
Доступность из самых разных систем программирования:
Visual Basic for Applications
Visual C++
Автоматизация обработки данных
Поддержка OLE DB DM
Открытый программный интерфейс для работы с большими объемами данных
Возможность анализа больших объемов данных непосредственно на сервере базы данных
Доступ к данным
Текстовые файлы
Файлы Microsoft Excel
Объекты баз данных (таблицы, выражения SQL ) через ODBC
Проекты SAS
Business View из IBM Visual Warehouse
Многомерные кубы Oracle Express
Платформы
Microsoft Windows NT/2000
Microsoft Windows 95/98
Архитектура client/server
SAS
SAS/ETS - реализует методы анализа временных рядов, экономического системного моделирования и прогнозирования, финансового анализа и формирования отчетов. Производит восстановление пропущенных значений методом интерполяции, изменение временной привязки временного ряда, выделение сезонного компонента во временны рядах, построение трендов;
SAS/STA - модуль использует статистические методы регрессионного, дисперсионного анализа, нелинейного моделирования, анализа категориальных данных, многомерного, в т. ч. факторного анализа, кластерного и непараметрического анализа;
SAS
SAS/INSIGHT - модуль представляет собой динамическое средство для исследования и анализа данных, использует методы статистического исследования одномерных и многомерных данных;
SAS/IML - модуль, реализующий поддержку интерактивного матричного языка программирования, оперирующего с матрицами данных, которые могут быть числовыми и символьными;
SAS/OR - модуль, представляющий собой инструмент моделирования анализа, решения задач исследования операций, управления проектами
Задачи Text Mining
Аннотировать документы
Осуществлять навигацию в больших базах текстов;
Осуществлять поиск информации на естественном языке
Автоматически распределять документы по заранее определенным рубрикам
Структурировать большие неструктурированные хранилища документов
Находить взаимосвязи между ключевыми понятиями текстов
Распознавать в текстах, формализовывать факты и утверждения заданного вида и заполнять ими базу знаний
Интеллектуализировать поиск в Интернет/Интранет
Продукты TextAnalyst
Локальный TextAnalyst 2.0
TextAnalyst COM – средство разработки приложений Text Mining
TextAnalyst для MS IE
Поддержка русского и английского языков