Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
1079.pdf
Скачиваний:
59
Добавлен:
07.01.2021
Размер:
854.54 Кб
Скачать

частых множеств признаков.

Свойство нисходящее замыкание: все подмножества частого множества признаков являются частыми.

Свойство антимонотонность: все надмножества множества признаков, не являющего частым, не частые.

1.5.Деревья решений

Вопросы для рассмотрения: Задача классификации в контексте машинного обучения. Деревья решений. Информационная энтропия и прирост информации. Алгоритмы IDЗ и С4.5. Критерии остановки и отсечения. Меры и методы оценки качества обучения (скользящий контроль).

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 5, перечень ресурсов сети Интернет.

Наименование вида самостоятельной работы: изучение ли-

тературы, подготовка к практическим и лабораторным занятиям, выполнение тестовых заданий.

Дерево принятия решений (также может называться деревом классификации или регрессионным деревом) — средство поддержки принятия решений, использующееся в машинном обучении, анализе данных и статистике. Структура дерева представляет собой «листья» и «ветки». На рёбрах («ветках») дерева решения записаны атрибуты, от которых зависит целевая функция, в «листьях» записаны значения целевой функции, а в остальных узлах — атрибуты, по которым различаются случаи. Чтобы классифицировать новый случай, надо спуститься по дереву до листа и выдать соответствующее значение. Подобные деревья решений широко используются в интеллектуальном анализе данных. Цель состоит в том, чтобы создать модель, которая предсказывает значение целевой переменной на основе нескольких переменных на входе.

Каждый лист представляет собой значение целевой переменной, изменённой в ходе движения от корня по листу. Каждый внутренний узел соответствует одной из входных переменных. Дерево может быть также «изучено» разделением исходных наборов переменных на подмножества, основанные на тестировании значений атрибутов. Это процесс, который повторяется на каждом из полученных

подмножеств. Рекурсия завершается тогда, когда подмножество в узле имеет те же значения целевой переменной, таким образом, оно не добавляет ценности для предсказаний.

Деревья решений, используемые в Data Mining, бывают двух основных типов:

Дерево для классификации, когда предсказываемый результат является классом, к которому принадлежат данные;

Дерево для регрессии, когда предсказываемый результат можно рассматривать как вещественное число (например, цена на дом, или продолжительность пребывания пациента в больнице).

Некоторые методы позволяют построить более одного дерева решений (ансамбли деревьев решений):

Бэггинг над деревьями решений, наиболее ранний подход. Строит несколько деревьев решений, неоднократно интерполируя данные с заменой (бутстреп), и в качестве консенсусного ответа выдаёт результат голосования деревьев (их средний прогноз);[3]

Классификатор «Случайный лес» основан на бэггинге, однако в дополнение к нему случайным образом выбирает подмножество признаков в каждом узле, с целью сделать деревья более независимыми;

Бустинг над деревьями может быть использован для задач как регрессии, так и классификации.[4] Одна из реализаций бустинга над деревьями, алгоритм XGBoost, неоднократно использовался победителями соревнований по анализу данных.

«Вращение леса» — деревья, в которых каждое дерево решений анализируется первым применением метода главных компонент (PCA) на случайные подмножества входных функций.

Есть различные способы выбирать очередной атрибут:

Алгоритм ID3, где выбор атрибута происходит на основании прироста информации, либо на основании критерия Джини.

Алгоритм C4.5 (улучшенная версия ID3), где выбор атрибута происходит на основании нормализованного прироста информации

(англ. Gain Ratio).

Алгоритм CART и его модификации — IndCART, DB-CART.

Автоматический детектор взаимодействия Хи-квадрат (CHAID). Выполняет многоуровневое разделение при расчёте классификации деревьев;[6]

MARS: расширяет деревья решений для обработки цифровых

данных.

1.6. Задачи кластеризации

Вопросы для рассмотрения: Задача кластеризации.

Определение меры расстояния между объектами (Евклидова, Минковского, Махаланобиса). Иерархические агломеративные методы группировки («ближнего соседа», «дальнего соседа», средней связи, центроидный). Метод k-средних. Спектральная кластеризация. Индексы качества кластеризации.

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 4, 5, перечень ресурсов сети Интернет.

Наименование вида самостоятельной работы: изучение ли-

тературы, подготовка к практическим и лабораторным занятиям, выполнение тестовых заданий.

Кластеризация предназначена для разбиения совокупности объектов на однородные группы ( кластеры или классы). Если данные выборки представить как точки в признаковом пространстве, то задача кластеризации сводится к определению "сгущений точек".

Цели кластеризации

Понимание данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа (стратегия «разделяй и властвуй»).

Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.

Обнаружение новизны (novelty detection). Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.

Кластеризация является описательной процедурой, она не делает никаких статистических выводов, но дает возможность провести разведочный анализ и изучить "структуру данных".

Задача кластеризации сходна с задачей классификации, является ее логическим продолжением, но ее отличие в том, что классы изучаемого набора данных заранее не предопределены. Она относится к широкому классу задач обучения без учителя.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]