Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Международный университет информационных технологий

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

DataMining.pdf

Скачиваний:

1382

Добавлен:

25.02.2016

Размер:

3.32 Mб

Скачать

☆

►Содержание►

<<< < Предыдущая 50 51 52 53 54 55 56 57 58 59 60 6162 / 10562 63 64 65 66 67 68 69 70 71 72 73 74 > Следующая >>>

Если уровень достоверности слишком мал, то ценность правила вызывает серьезные сомнения. Например, правило с достоверностью в 3% только условно можно назвать правилом.

Методы поиска ассоциативных правил

Алгоритм AIS. Первый алгоритм поиска ассоциативных правил, называвшийся AIS [62], (предложенный Agrawal, Imielinski and Swami) был разработан сотрудниками исследовательского центра IBM Almaden в 1993 году. С этой работы начался интерес к ассоциативным правилам; на середину 90-х годов прошлого века пришелся пик исследовательских работ в этой области, и с тех пор каждый год появляется несколько новых алгоритмов.

В алгоритме AIS кандидаты множества наборов генерируются и подсчитываются "на лету", во время сканирования базы данных.

Алгоритм SETM. Создание этого алгоритма было мотивировано желанием использовать язык SQL для вычисления часто встречающихся наборов товаров. Как и алгоритм AIS, SETM также формирует кандидатов "на лету", основываясь на преобразованиях базы данных. Чтобы использовать стандартную операцию объединения языка SQL для формирования кандидата, SETM отделяет формирование кандидата от их подсчета.

Неудобство алгоритмов AIS и SETM - излишнее генерирование и подсчет слишком многих кандидатов, которые в результате не оказываются часто встречающимися. Для улучшения их работы был предложен алгоритм Apriori [63].

Работа данного алгоритма состоит из нескольких этапов, каждый из этапов состоит из следующих шагов:

∙формирование кандидатов;

∙подсчет кандидатов.

Формирование кандидатов (candidate generation) - этап, на котором алгоритм, сканируя базу данных, создает множество i-элементных кандидатов (i - номер этапа). На этом этапе поддержка кандидатов не рассчитывается.

Подсчет кандидатов (candidate counting) - этап, на котором вычисляется поддержка каждого i-элементного кандидата. Здесь же осуществляется отсечение кандидатов, поддержка которых меньше минимума, установленного пользователем (min_sup). Оставшиеся i-элементные наборы называем часто встречающимися.

Рассмотрим работу алгоритма Apriori на примере базы данных D. Иллюстрация работы алгоритма приведена на рис. 15.1. Минимальный уровень поддержки равен 3.

174

Рис. 15.1. Алгоритм Apriori

175

<<< < Предыдущая 50 51 52 53 54 55 56 57 58 59 60 6162 / 10562 63 64 65 66 67 68 69 70 71 72 73 74 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.2025165.08 Кб0CW_TEORSKII_ANATOLII.docx
#
25.02.2016613.17 Кб25C_200.docx
#
25.02.20162.09 Mб33c__test.docx
#
25.02.2016455.72 Кб23c__test2.docx
#
25.02.201614.84 Кб32database.docx
#
25.02.20163.32 Mб1382DataMining.pdf
#
16.08.201924.95 Кб7Dauletbai Gulzat CSSE 1 1 1...docx
#
25.02.2016170.28 Кб25Digital-Logic.pdf
#
01.07.202525.83 Кб0diplom.docx
#
01.07.2025227.27 Кб0DIPLOM30_05.docx
#
01.07.20252.55 Mб0Diplomdy_1179_zh_1201_mys_uchebnik.docx