Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
госы / ias.docx
Скачиваний:
80
Добавлен:
20.05.2015
Размер:
190.86 Кб
Скачать

Интеллектуальный анализ данных, определение, основные особенности. Классификация задач Data Mining

Широкое распространение программного и аппаратного обеспечения для Хранилищ данных приводит к тому, что компании получают возможность собирать данные легко и «с избытком». И теперь для поддержания конкурентоспособности без средств Data Mining уже не обойтись, тем более что они становятся всё более и более доступными.

Data Mining - процесс анализа баз данных, направленный на поиск новой полезной информации, обычно представленной в форме ранее неизвестных отношений между переменными. Обнаружение новых знаний можно использовать для повышения маркетинговой эффективности базы данных. Анализируя соответствующие данные пользователей, можно предсказать поведение клиентов и даже повлиять на него. Компании в самых разных отраслях экономики используют преимущества этой технологии.

Определим наиболее важные на текущий момент задачи DM. Две ключевые задачи DM определяются через понятияпрогнозирования и объяснения.Прогнозированиемназывается задача предсказания значения целевой переменной при наличии значений других переменных (атрибутов) в БД, либо предсказание значения целевой переменной в будущем. Подобъяснениемпонимают поиск полезных и интерпретируемых закономерностей в целях создания требуемой модели приложения. Вторая задача является значительно более трудоемкой и поэтому она считается основной в процессе KDD

Задачи прогнозирования и объяснения распадаются на следующие подзадачи:

Описание понятий и классов с целью построения их моделей или их различения. Обычно данные ассоциированы либо с некоторыми понятиями или классами понятий, компактное, агрегированное описание которых позволяет пользователю получить ценную информацию. С другой стороны, часто для принятия решений важно понять различие двух или более понятий, классов.

Анализ ассоциаций. Эта задача имеет обширные приложения в области маркетинга (исследование "покупательской корзины") и в ряде других приложений. В частности, результаты анализа ассоциаций позволяют получать паттерны типа ассоциативных правил, которые далее могут использоваться для формирования продукционных баз знаний в системах принятия решений, обнаружения причин отказов аппаратуры, причин негативного или, наоборот, позитивного развития событий и т.п.

Классификация. Задача отнесения отдельного примера к одному из нескольких классов. Является на данный момент одной из превалирующих задач DM (типичный представитель – задача обнаружения вторжений в компьютерной сети (intrusion detection)).

Регрессионный анализ. Задача нахождения функции, задающей отношение вектора вещественных переменных в момент времени к вектору тех же (либо других) вещественных переменных в момент времени . В общем случае данная пара векторов может не зависеть от времени.

Кластерный анализ. Задача поиска конечного числа категорий, разделяющих множество примеров на непересекающиеся подмножества. Элементы данных подмножеств должны быть «похожи» в заданном смысле внутри подмножества и отличаться от элементов других подмножеств.

Агрегирование (суммаризация). Задача поиска компактного описания подмножества данных. (напр. задача отыскания вектора средних значений и матрицы отклонений для набора данных; поиск функциональных зависимостей между переменными или ассоциативных правил).

Моделирование зависимостей. Задача поиска значимых зависимостей между переменными. Обычно разделяется на два уровня: структурный, дающий графическое представление зависимостей, и количественный, присваивающий атрибутам значений, играющих роль сильных зависимостей, определенных на структурном уровне. Примером данной задачи может служить Алгебраическая Байесовская Сеть.

Обнаружение отклонений. Целью задачи является поиск наиболее значимых в заданном смысле изменений в данных по сравнению со средними, нормативными показателями.

Соседние файлы в папке госы