- •Методичні вказівки
- •Содержание
- •Введение
- •Знакомство с программой интеллектуального анализа данных weka и подготовка данных Цель работы
- •Основные теоретические сведения
- •Формат файлов данных arff
- •Предварительная обработка данных
- •Отбор атрибутов
- •Пропущенные значения
- •Нормализация данных
- •Дискретизация числовых атрибутов
- •Выборка (sampling)
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Параметры настройки алгоритмов классификации
- •Методы оценки ошибок классификации
- •Критерии сравнения работы классификаторов
- •Интерпретация результатов классификации в weka (Classifier output)
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Методы оценки качества прогнозирования
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Параметры настройки алгоритмов
- •Интерпретация результатов кластеризации в weka (Clusterer output)
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Интерпретация результатов
- •Задание на лабораторную работу
- •Контрольные вопросы
- •Содержание отчета
- •Литература
- •Приложение а. Интерфейс программы weka
- •Основное окно программы
- •Модуль Explorer
- •Загрузка и предварительная обработка данных (Preprocess)
- •Классификация (Classify)
- •Кластеризация (Cluster)
- •Ассоциативные правила (Associate)
- •Отбор атрибутов (Selecting attributes)
- •Визуализация (Visualizing)
- •Модуль Experimenter
- •Модуль Knowledge flow
- •Приложение б. Варианты индивидуальных заданий
- •Приложение в. Контрольная работа для заочников
Контрольные вопросы
1. В чем состоит задача кластеризации? Приведите практический пример?
2. Что такое обучение с учителем и без учителя? К какому типу относится задача кластеризации?
3. Задача кластеризации относится к описательным или предсказательным и почему?
4. Чем определяется «схожесть» объектов при решении задачи кластеризации?
5. Что такое одноуровневая и иерархическая кластеризация?
6. Что такое четкая и нечеткая кластеризация?
7. Какие есть подходы к расчету расстояния между кластерами?
8. Алгомеративная и дивизимная иерархическая кластеризация?
9. Опишите один из рассмотренных методов, решающих задачу кластеризации?
10. Как оценить качество построенной модели для задачи кластеризации?
Содержание отчета
1. Тема и цель работы
2. Задание к работе.
3. Результаты выполнения заданий раздела 4.3.
4. Ответы на контрольные вопросы.
5. Выводы, отображающие критический анализ результатов выполнения работы.
Поиск ассоциативных правил
Цель работы
На практике изучить работу алгоритмов поиска ассоциативных правил и научиться интерпретировать результаты их работы.
Основные теоретические сведения
В лабораторной работе рассматриваются два метода поиска ассоциативных правил:
алгоритм Apriori;
алгоритм FPGrowth.
Параметры настройки алгоритмов
Рассмотрим параметры настройки используемых алгоритмов поиска ассоциативных правил в WEKA (табл. 5.1).
Таблица 5.1 – Параметры настройки методов кластеризации
Метод |
Параметры |
Apriori |
car – поиск классовых (со значением целевого атрибута в правой части) или обычных ассоциативных правил. classIndex – индекс целевого атрибута. Если установлено значение -1, будет выбран последний атрибут. delta – итеративно уменьшать значение порога поддержки на данное значение. Уменьшение будет происходить до тех пор, пока не будет достигнуто минимальное значение поддержки или не будет сгенерировано заданное количество правил lowerBoundMinSupport – нижняя граница порога поддержки. metricType – устанавливает тип метрики, по которой будут ранжироваться правила (Confidence, Lift, Leverage, Conviction). minMetric – минимальное пороговое значение для выбранной метрики. numRules – количество правил, которые необходимо найти. outputItemSets – выводить ли частые наборы. removeAllMissingCols – убирать ли колонки (атрибуты) в которых все значения отсутствуют. significanceLevel – уровень значимости (только для достоверности). upperBoundMinSupport – верхняя граница минимальной поддержки. Итеративное уменьшение поддержки начинается с этого значения. |
FPGrowth |
delta – итеративно уменьшать значение порога поддержки на данное значение. Уменьшение будет происходить до тех пор, пока не будет достигнуто минимальное значение поддержки или не будет сгенерировано заданное количество правил findAllRulesForSupportLevel – найти все правила, которые удовлетворяют нижней границе минимального значения поддержки и минимального значения метрики. Включение этого режима отменить выполнение итеративного уменьшения поддержки для нахождения заданного количества правил. lowerBoundMinSupport - нижняя граница порога поддержки как доля количества экземляров. maxNumberOfItems – максимальное количество экземпляров в частом наборе; значение -1 означает без ограничений. metricType – устанавливает тип метрики, по которой будут ранжироваться правила. minMetric – минимальное пороговое значение для выбранной метрики. numRulesToFind – количество правил, которые необходимо найти. positiveIndex – устанавливает индекс бинарного атрибута, который будет рассматриваться как позитивный. rulesMustContain – выводить правила, которые содержат заданные объекты (список объектов, разделенных запятой). transactionsMustContain – для работы алгоритма использовать транзакции (экземпляры), которые содержат заданные объекты . upperBoundMinSupport – верхняя граница минимальной поддержки. Итеративное уменьшение поддержки начинается с этого значения. useORForMustContainList – использовать логическую связку «или» вместо «и» для списков обязательных элементов в транзакциях и правилах. |
