Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Tema_6 all.docx
Скачиваний:
33
Добавлен:
13.03.2015
Размер:
338.17 Кб
Скачать

Методы поиска ассоциативных правил

Ассоциативное правило имеет вид: "Из события A следует событие B".

Алгоритм AIS.

В алгоритме AIS кандидаты множества наборов генерируются и подсчитываются "на лету", во время сканирования базы данных.

Алгоритм SETM.

SETM также формирует кандидатов "на лету", основываясь на преобразованиях базы данных. Чтобы использовать стандартную операцию объединения языка SQL для формирования кандидата, SETM отделяет формирование кандидата от их подсчета.

Неудобство алгоритмов AIS и SETM - излишнее генерирование и подсчет слишком многих кандидатов, которые в результате не оказываются часто встречающимися.

Для улучшения их работы был предложен алгоритм Apriori.

Работа данного алгоритма состоит из нескольких этапов, каждый из этапов состоит из следующих шагов:

- Формирование кандидатов - этап, на котором алгоритм, сканируя базу данных, создает множество i-элементных кандидатов (i - номер этапа).

- Подсчет кандидатов - этап, на котором вычисляется поддержка каждого i-элементного кандидата. Здесь же осуществляется отсечение кандидатов, поддержка которых меньше минимума, установленного пользователем (min_sup). Оставшиеся i-элементные наборы называем часто встречающимися.

Методы визуализации

Традиционные методы визуализации могут находить следующее применение:

· представлять пользователю информацию в наглядном виде;

· компактно описывать закономерности, присущие исходному набору данных;

· снижать размерность или сжимать информацию;

· восстанавливать пробелы в наборе данных;

· находить шумы и выбросы в наборе данных.

Методы визуализации, в зависимости от количества используемых измерений, принято классифицировать на две группы [22]:

· представление данных в одном, двух и трех измерениях - к этой группе методов относятся хорошо известные способы отображения информации, которые доступны для восприятия человеческим воображением. Практически любой современный инструмент Data Mining включает способы визуального представления из этой группы. Среди двухмерных и трехмерных средств наиболее широко известны линейные графики, линейные, столбиковые, круговые секторные и векторные диаграммы.;

· представление данных в четырех и более измерениях - представления информации в четырехмерном и более измерениях недоступны для человеческого восприятия. Однако разработаны специальные методы для возможности отображения и восприятия человеком такой информации.

Наиболее известные способы многомерного представления информации:

· параллельные координаты;

· "лица Чернова" - основная идея представления информации состоит в кодировании

значений различных переменных в характеристиках или чертах человеческого лица;

· лепестковые диаграммы .

8. Этапы процесса Data Mining: анализ предметной области; · постановка задачи; · подготовка данных; построение моделей;· проверка и оценка моделей;· выбор модели;· применение модели;· коррекция и обновление модели.

Этап 1. Анализ предметной области

Исследование - это процесс познания определенной предметной области, объекта или явления с определенной целью.

Процесс исследования заключается в наблюдении свойств объектов с целью выявления и оценки важных, с точки зрения субъекта-исследователя, закономерных отношений между показателями данных свойств.

Например, при решении задачи "Выдавать ли кредит?" важными являются все данные про частную жизнь (дети, образования и т.д).

В процессе изучения предметной области должна быть создана ее модель. Знания из различных источников должны быть формализированы при помощи каких-либо средств - текстовые описания предметной области, специализированные графические нотации.

Этап 2. Постановка задачи

Постановка задачи Data Mining включает следующие шаги:

формулировка задачи;

формализация задачи.

Постановка задачи включает также описание статического (описание объектов и их свойств) и динамического поведения (описывается поведение объектов и те причины, которые влияют на их поведение) исследуемых объектов.

Этап 3. Подготовка данных

Цель этапа: разработка базы данных для Data Mining.

На этап подготовки данных, по некоторым оценкам, может быть потрачено до 80% всего времени, отведенного на проект.