Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МУ_RM_Практика 1.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
5.28 Mб
Скачать

Практическая часть. Интерфейс Пользователя RapidMiner и Пример Процесса

    1. Запустите RapidMiner ( .ехе файл на рабочем столе)

    2. В появившимся окне выберете создание нового процесса

    1. Для создания репозотория необходимо нажать на кнопку. Репозиторий используется для хранения данных во внутреннем формате Rapid Mining

    1. Создайте новый репозиторий. Для этого выберите пункт указанный ниже и нажмите next.

    1. Замените стандартное название репозитория на Practic_1_ФИО, укажите путь, где будут храниться данные. Для этого нажмите на

    1. В появившемся окне укажите путь к вашей папке (Z:\.......\номер группы\ФИО) Создайте новую папку – назовите ее DM.

    1. После создания, выберете ее и нажать кнопку open. Итоговый результат должен выглядеть следующим образом

    1. Если все указано верно нажмите Finish

    2. Обратите внимание, появился ли репозиторий Practic_1_ФИО

    1. При отсутствии репозотория необходимо нажать на кнопку создания репозитория. и выполнить пункты 3-7

    2. После создания репозитория необходимо создать в нем две папки. Папку Proc для хранения процессов и моделей, и папку Data для хранения исходных данных. Создание папки осуществляется с помощью кнопки

    1. Разберем основные меню и окна представленные в RapidMiner

  1. Пункт меню файл

  2. Пункт меню вставка

  3. Пункт меню процессы

  4. Пункт меню инструменты

  5. Пункт меню вид

  6. Пункт меню помощь

  7. Отмена и возврат действия

  8. Запуск процесса

  9. Кнопка приостановления процесса

  10. Кнопка остановки процесса

  11. Кнопка перехода на рабочий лист создания процесса

  12. Кнопка перехода на рабочий лист результатов процесса

  13. Кнопка перехода на приветственную страницу RapidMiner

  14. Рабочее поле для создания процесса или модели

  15. Кнопка для создания нового репозитория или загрузки уже созданного

  16. Созданные папки для хранения данных (Data) и моделей, процессов (Proc) в репозитории (Practic_1)

  17. Кнопка для импорта данных

  18. Панель репозитория

  19. Панель операторов

  20. Панель параметры (меню будет видоизменятся в зависимости от активного элемента)

  21. Панель конфликтов. В нем будет появлятся информации о возникших проблемах при выполнении процесса.

  22. Журнал загрузок

  23. Узел входа данных (начало процесса)

  24. Узел выхода данных (завершение процесса)

  25. Меню комментариев

  26. Меню помощи

1

2

1

3

4 5 6

7 8 9 10 11 12 13

14

15

16

17

18

19

20

21

22

20

23

24

25

26

    1. Приступаем к созданию процессе. Для начала необходимо загрузить данные. Для этого нажимаем на и выбираем пункт импортировать лист из Excel

    1. Указываем путь к файлу Z:\........\Задания\DataMining\Practic_1\Исходные данные_(вариант). Выберите свой вариант нажмите next.В появившемся файле выберите лист с данными (лист не должен быть пустым), нажмите next.

    2. На следующем шаге необходимо стандартные заголовки столбцов заменить на заголовки, которые используются в исходных данных. (то есть вместо A, B, C сделать номер по порядку, диагноз, холодовая проба и т.д.). Для этого в столбце Annotation для первой строки выбратся Name. Нажмите next.

    1. В исходных данных находится информация в разных форматах.

  • для классов определяется вид данных label (в нашем случае классом является диагноз)

  • для порядкового номера вид данных id

  • остальные данные являются атрибутами

  • для качественных данных уставите тип данных nominal

  • для целых значений – integer

  • для значений с плавающей точкой – real

После определения вида и типа данных нажмите Next

    1. Сохраните данные как Practic_1 в репозитории в папке Data.

    1. Приступаем непосредственно к созданию процесса. На первом этапе необходимо вывести на рабочее поле оператор Retrieve. Это оператор в процессе отвечает за загрузку исходных даных. Если автоматически связь не появилась, необходимо ее сделать самостоятельно. Нажав на порт out у оператора и удерживая дотянуть до порта res на рабочем поле.

    1. Необходимо загрузить данные. Для этого, нажав на в панель Parametes, укажите путь к папке Data

    1. Запустите процесс, нажав на кнопку . Сохраните процесс в папке Proc, как Practic_1_data. На вопросы в деловых окнах отвечаем ОК. Для просмотра результатов более подробно перейдите с вкладки ResultOverview на ExampleSet.

В отчете необходимо отразить статистику и ранжирование данных (screenshot)

    1. Для того что бы вернуться на рабочий лист создания процесса нажмите

    2. Создайте процесс с использованием модели деревьев решений. Создайте новый процесс, нажав на . Повторите действия, описанные в пунктах 18-19, для того что бы вывести на рабочее поле оператор Retrieve.

    3. Из списка операторов необходимо выбрать оператор Х-Validation и связать с оператором Retrieve, как показано на рисунке ниже.

В отчет необходимо вставить screenshot созданного процесса,

    1. Двойным щелчком откройте оператор Х-Validation. Данный оператор состоит из двух разделенных панелей. В первой панели происходит обучение модели, во второй модель тестируется.

В первое поле необходимо перенести оператор для построения модели Decision Tree. Во второе Apply Model и Performance.

Apply Model- оператор применения построенного дерева к тестовой выборки

Performance- используется для визуализации результатов, результатом работы данного оператора является таблица в которой отражена точность определения того или иного класса.

    1. Установите связи между операторами согласно рисунку представленному ниже, запустите процесс, нажав на кнопку . Сохраните его в папке Proc, как Practic_1_Tree

В отчет необходимо вставить screenshot содержимого оператора Validation

    1. Для просмотра результатов более подробно перейдите с вкладки ResultOverview на PerformansVector. Оцените точность (accuracy) используя следующую таблицу.

В отчет необходимо вставить screenshot содержимого вкладки PerformansVector, сформулировать вывод относительно точности

Интервал точности

Значение

0-20

очень низкая

20-40

низкая

40-60

посредственная

60-80

высокая

80-100

очень высокая

    1. Для просмотра дерева решений перейдите на вкладку Tree. Оцените полученные результаты, какой признак стал корневым. Перейдите с GraphView на TextView. ознакомьтесь текстовое представление дерева решений.

В отчет необходимо вставить screenshot содержимого вкладки Tree, сформулировать выводами относительно корневого атрибута.

    1. Двойным щелчком откройте оператор Validation. Щелчком мыши сделаете активным модель Decision Tree. Обратите внимание на панель Parameters

С помощью пункт Criterion, можно определить используемый критерий для выбора атрибутов и численного распада. Возможны следующие варианты: gain_ratio, information_gain, gini_index, accuracy. По умолчанию указывается критерий "gain_ratio".

minimal size for split: минимальные количество узлов

minimal leaf size:- минимальное количество листьев

minimal gain: - минимальный прирост

maximal depth: - максимальная глубина

confidence: уровень доверия для пессимистического расчета погрешности обрезки.

number of prepruning – число альтернативных атрибутов, используется для уменьшения случаев раскола.

no pre pruning: без предварительной обрезки

no pruning: отключается обрезка дерева (используется для получения полной картины классификации)

    1. Ниже представлены значения, которые указываются по умолчанию.

    1. Измените исходные данные. Поменяйте Criterion с gain_ratio на information_gain. Запустите процесс, нажав на кнопку . Сохраните процесс в папке Proc, как Practic_1_tree2. Сохраните в отчете screenshot содержимого вкладки PerformansVector, с сформулированными выводами относительно точности (таблица представлена ниже), так же сохраните screenshot содержимого вкладки Tree, с сформулированными выводами относительно корневого атрибута.

Интервал точности

Значение

0-20

очень низкая

20-40

низкая

40-60

посредственная

60-80

высокая

80-100

очень высокая

    1. Измените исходные данные. Установите флажок на пункте no pre pruning и no pruning . Таким образом, мы увеличиваем количество узлов отраженных в дереве. Запустите процесс, нажав на кнопку . Сохраните процесс в папке Proc, как Practic_1_tree3. Сохраните в отчете screenshot содержимого вкладки PerformansVector, с сформулированными выводами относительно точности, так же сохраните screenshot содержимого вкладки Tree, с сформулированными выводами относительно корневого атрибута.

пп

Классификатор

Точность (accuracy)

Расп МКБ

Расп Варик

Расп Пиелон

Предск МКБ

Предск Варик

Предск Пиелон

1

ДР по умолчанию

gain_ratio

max depth 20

no pruning снят

no prepruning снят

2

gain_ratio

max depth 20

no pruning установлен

no prepruning установлен

3

gain_ratio

max depth 3

no pruning установлен

no prepruning установлен

4

gain_ratio

max depth 4

no pruning установлен

no prepruning установлен

5

Information gain

max depth 4

no pruning установлен

no prepruning установлен

Лучшее ДР по показателю

Вывод: лучший классификатор из предложенных в таблице: