Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Шпоры_ИСвЭ.doc
Скачиваний:
7
Добавлен:
25.09.2019
Размер:
212.48 Кб
Скачать

36. Технология Data Mining в корпоративных информационно-аналитических системах.

Интеллектуальный анализ данных (Data Mining) – процесс выявления тенденций, трендов, взаимных корреляций данных, находящихся в хранилище, с использованием статистических и кибернетических методов. Алгоритмы метода требуют большого количества информации, причем достоверной и точной, чтобы обнаруженные зависимости оказались верными.

Цель Data Mining – поиск скрытых от аналитика функциональных и логических закономерностей, тенденций в накопленной информации, построение моделей и правил, которые объясняют найденные аномалии или прогнозируют развитие рассматриваемых процессов. Методы Data Mining можно разделить на две группы: статистические и кибернетические методы.

Статистические методы Data Mining: •Дескриптивный анализ и описание исходных данных; •Анализ связей (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ); •Многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции и др.); •Анализ временных рядов (динамические модели и прогнозирование).

Кибернетические методы Data Mining: •искусственные нейронные сети; •эволюционное программирование; •генетические алгоритмы (оптимизация); •ассоциативная память (поиск аналогов, прототипов); •нечеткая логика; •деревья решений; •системы обработки экспертных знаний.

Большинство инструментов Data Mining (пакеты Deductor, Statastica), имеющихся на рынке программного обеспечения, реализуют комплекс перечисленных методов.

Технология Data Mining позволяет решать следующие задачи: 1) Классификация –обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных – классы; по этим признакам новый объект можно отнести к тому или иному классу. 2) Кластеризация – особенность кластеризации заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы. 3) Ассоциация – в процессе поиска ассоциативных правил отыскиваются закономерности между связанными событиями в наборе данных. Поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно. 4) Последовательная ассоциация – позволяет найти временные закономерности между транзакциями. Ее целью является установление закономерностей между событиями, связанными во времени. 5) Прогнозирование – на основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей. 6) Определение отклонений или выбросов – обнаружение и анализ данных, наиболее отличающихся от общего множества данных, выявление так называемых нехарактерных шаблонов. 7) Оценивание – сводится к предсказанию непрерывных значений признака. 8) Анализ связей – задача нахождения зависимостей в наборе данных.

Следует отметить, что на сегодняшний день наибольшее распространение технология Data Mining получила при решении следующих задач: •информационно-аналитические системы в бизнесе; • решение задач государственной безопасности; •научные исследования; •анализ Web-контентов.