27. Технология Data Mining.

Data Mining — совокупность методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пиатецким-Шапиро.

Цель этого поиска — представить данные в виде, четко отражающем бизнес-процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для планирования бизнеса (например, динамику спроса на те или иные товары или услуги либо зависимость их приобретения от каких-то характеристик потребителя).

В основе - концепция шаблонов, отражающих закономерности, свойственные подвыборкам данных.

Важная особенность Data Mining - нестандартность и неочевидность разыскиваемых шаблонов. Средства Data Mining отличаются тем, что вместо проверки заранее предполагаемых пользователями взаимозависимостей они на основании имеющихся данных способны находить такие взаимозависимости самостоятельно и строить гипотезы об их характере.

Применение Data Mining оправданно при наличии достаточно большого количества данных.

Cогласно Дюку, выделяют 5 стандартн типов закономерностей, выявляемых методами DM:

ассоциация — высокая вероятность связи событий друг с другом (например, один товар часто приобретается вместе с другим);
последовательность — высокая вероятность цепочки связанных во времени событий (например, в течение определенного срока после приобретения одного товара будет с высокой степенью вероятности приобретен другой);
классификация — имеются признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила);
кластеризация — закономерность, сходная с классификацией и отличающаяся от нее тем, что сами группы при этом не заданы — они выявляются автоматически в процессе обработки данных;
временные закономерности — наличие шаблонов в динамике поведения тех или иных данных (типичный пример — сезонные колебания спроса на те или иные товары либо услуги), используемых для прогнозирования.

На основе классиф-ии Дюка можно выделить след. методы исследования данных в DM:

регрессионный, дисперсионный и корреляционный анализ;
эмпирич. модели;
нейросетевые алгоритмы;
метод «ближайшего соседа»;
деревья решений;
кластерные модели (модели сегментации)
алгоритмы ограниченного перебора;
эволюционное программирование.

Задачи DataMining:

1) описательные (самое главное – дать наглядное описание имеющихся скрытых закономерностей): поиск ассоциативных правил, группировка объектов, построение регрессионной модели.

2) предсказательные (самое главное – предсказание случаев, для кот-ых данных еще нет): классификация объектов, построение регрессионной модели.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2021 / 2121

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
06.09.20191 Mб3Zadanie_na_kursovuyu_rabotu_2012_dlya_ochnikov.doc
#
22.03.201517.55 Кб22Zanyatie_9-10_emotsii.docx
#
01.05.20251.56 Mб5zapiska.doc
#
01.03.2025128 Кб2Zveno_2010.doc
#
01.04.202592.67 Кб3_company_personal_user_8065_files_lib_КТ в агро...doc
#
26.04.2019529.92 Кб35_кпп_ответы.doc
#
06.08.2019114.18 Кб15_ощвоспр_экз_2к.doc
#
22.03.2015399.87 Кб42_РП_по_физике_7-9_кл.doc
#
01.07.2025160.77 Кб0~WRL1385.tmp.doc
#
01.05.202588.06 Кб4« Психология учебной деятельности».doc
#
01.05.2025179.71 Кб4« Учебная деятельность, ее структура, закономер...doc