Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

КОНСПЕКТ ЛЕКЦИЙ КОДЭИ

.pdf
Скачиваний:
108
Добавлен:
14.03.2016
Размер:
28.31 Mб
Скачать

3. Трансформация данных. Этот шаг необходим для тех методов, при использовании которых исходные данные должны быть представлены в каком-то определенном виде. Дело в том, что различные алгоритмы анализа требуют специальным образом подготовленных данных.

14.12.2014 Доцент С.Т. Касюк

5

4.Data Mining. На этапе Data Mining строятся модели.

5.Интерпретация. В случае, когда извлеченные

знания непрозрачны для пользователя, должны существовать методы постобработки, позволяющие привести эти знания к интерпретируемому виду. Для оценки качества полученной модели нужно использовать как формальные методы, так и знания аналитика. Именно аналитик может сказать, насколько применима полученная модель к реальным данным. Полученные модели являются, по сути, формализованными знаниями эксперта, а следовательно, их можно тиражировать. Найденные знания должны быть применимы и к новым данным с некоторой степенью достоверности.

14.12.2014 Доцент С.Т. Касюк

6

Термин Data Mining дословно переводится как «добыча данных» или «раскопка данных» и имеет в англоязычной среде несколько определений.

Data Mining— обнаружение в «сырых» данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

14.12.2014 Доцент С.Т. Касюк

7

Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, например, сведения о средних спортивных результатах таковыми не являются. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других.

14.12.2014 Доцент С.Т. Касюк

8

Задачи, решаемые методами Data Mining, можно условно разбить на пять классов:

1.Классификация — это установление зависимости дискретной выходной переменной

от входных переменных.

2.Регрессия — это установление зависимости

непрерывной выходной переменной от входных переменных.

3.Кластеризация — это группировка объектов (наблюдений, событий) на основе данных, описывающих свойства объектов. Объекты внутри кластера должны быть похожими друг на друга и отличаться от других, которые вошли в другие кластеры.

14.12.2014 Доцент С.Т. Касюк

9

4.Ассоциация — выявление закономерностей между связанными событиями. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Такие правила называются ассоциативными.

5.Последовательные шаблоны

установление закономерностей между связанными во времени событиями. Примером такой закономерности служит правило, указывающее, что из события X спустя время t последует событие Y.

14.12.2014 Доцент С.Т. Касюк

10

Data Mining развивается на стыке математики, статистики, теории информации, машинного обучения, теории баз данных и других дисциплин.

14.12.2014 Доцент С.Т. Касюк

11

14.12.2014 Доцент С.Т. Касюк

12

14.12.2014 Доцент С.Т. Касюк

14