Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Первый Санкт-Петербургский государственный медицинский университет им. И.П. Павлова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

МУ_RM_Практика 1.doc

Скачиваний:

Добавлен:

01.07.2025

Размер:

5.28 Mб

Скачать

☆

<<< < Предыдущая 1 2 34 / 44

Практическая часть. Интерфейс Пользователя RapidMiner и Пример Процесса

Запустите RapidMiner ( .ехе файл на рабочем столе)
В появившимся окне выберете создание нового процесса

Для создания репозотория необходимо нажать на кнопку. Репозиторий используется для хранения данных во внутреннем формате Rapid Mining

Создайте новый репозиторий. Для этого выберите пункт указанный ниже и нажмите next.

Замените стандартное название репозитория на Practic_1_ФИО, укажите путь, где будут храниться данные. Для этого нажмите на

В появившемся окне укажите путь к вашей папке (Z:\.......\номер группы\ФИО) Создайте новую папку – назовите ее DM.

После создания, выберете ее и нажать кнопку open. Итоговый результат должен выглядеть следующим образом

Если все указано верно нажмите Finish
Обратите внимание, появился ли репозиторий Practic_1_ФИО

При отсутствии репозотория необходимо нажать на кнопку создания репозитория. и выполнить пункты 3-7
После создания репозитория необходимо создать в нем две папки. Папку Proc для хранения процессов и моделей, и папку Data для хранения исходных данных. Создание папки осуществляется с помощью кнопки

Разберем основные меню и окна представленные в RapidMiner

Пункт меню файл
Пункт меню вставка
Пункт меню процессы
Пункт меню инструменты
Пункт меню вид
Пункт меню помощь
Отмена и возврат действия
Запуск процесса
Кнопка приостановления процесса
Кнопка остановки процесса
Кнопка перехода на рабочий лист создания процесса
Кнопка перехода на рабочий лист результатов процесса
Кнопка перехода на приветственную страницу RapidMiner
Рабочее поле для создания процесса или модели
Кнопка для создания нового репозитория или загрузки уже созданного
Созданные папки для хранения данных (Data) и моделей, процессов (Proc) в репозитории (Practic_1)
Кнопка для импорта данных
Панель репозитория
Панель операторов
Панель параметры (меню будет видоизменятся в зависимости от активного элемента)
Панель конфликтов. В нем будет появлятся информации о возникших проблемах при выполнении процесса.
Журнал загрузок
Узел входа данных (начало процесса)
Узел выхода данных (завершение процесса)
Меню комментариев
Меню помощи

4 5 6

7 8 9 10 11 12 13

Приступаем к созданию процессе. Для начала необходимо загрузить данные. Для этого нажимаем на и выбираем пункт импортировать лист из Excel

Указываем путь к файлу Z:\........\Задания\DataMining\Practic_1\Исходные данные_(вариант). Выберите свой вариант нажмите next.В появившемся файле выберите лист с данными (лист не должен быть пустым), нажмите next.
На следующем шаге необходимо стандартные заголовки столбцов заменить на заголовки, которые используются в исходных данных. (то есть вместо A, B, C сделать номер по порядку, диагноз, холодовая проба и т.д.). Для этого в столбце Annotation для первой строки выбратся Name. Нажмите next.

В исходных данных находится информация в разных форматах.

для классов определяется вид данных label (в нашем случае классом является диагноз)
для порядкового номера вид данных id
остальные данные являются атрибутами
для качественных данных уставите тип данных nominal
для целых значений – integer
для значений с плавающей точкой – real

После определения вида и типа данных нажмите Next

Сохраните данные как Practic_1 в репозитории в папке Data.

Приступаем непосредственно к созданию процесса. На первом этапе необходимо вывести на рабочее поле оператор Retrieve. Это оператор в процессе отвечает за загрузку исходных даных. Если автоматически связь не появилась, необходимо ее сделать самостоятельно. Нажав на порт out у оператора и удерживая дотянуть до порта res на рабочем поле.

Необходимо загрузить данные. Для этого, нажав на в панель Parametes, укажите путь к папке Data

Запустите процесс, нажав на кнопку . Сохраните процесс в папке Proc, как Practic_1_data. На вопросы в деловых окнах отвечаем ОК. Для просмотра результатов более подробно перейдите с вкладки ResultOverview на ExampleSet.

В отчете необходимо отразить статистику и ранжирование данных (screenshot)

Для того что бы вернуться на рабочий лист создания процесса нажмите
Создайте процесс с использованием модели деревьев решений. Создайте новый процесс, нажав на . Повторите действия, описанные в пунктах 18-19, для того что бы вывести на рабочее поле оператор Retrieve.
Из списка операторов необходимо выбрать оператор Х-Validation и связать с оператором Retrieve, как показано на рисунке ниже.

В отчет необходимо вставить screenshot созданного процесса,

Двойным щелчком откройте оператор Х-Validation. Данный оператор состоит из двух разделенных панелей. В первой панели происходит обучение модели, во второй модель тестируется.

В первое поле необходимо перенести оператор для построения модели Decision Tree. Во второе Apply Model и Performance.

Apply Model- оператор применения построенного дерева к тестовой выборки

Performance- используется для визуализации результатов, результатом работы данного оператора является таблица в которой отражена точность определения того или иного класса.

Установите связи между операторами согласно рисунку представленному ниже, запустите процесс, нажав на кнопку . Сохраните его в папке Proc, как Practic_1_Tree

В отчет необходимо вставить screenshot содержимого оператора Validation

Для просмотра результатов более подробно перейдите с вкладки ResultOverview на PerformansVector. Оцените точность (accuracy) используя следующую таблицу.

В отчет необходимо вставить screenshot содержимого вкладки PerformansVector, сформулировать вывод относительно точности

Интервал точности	Значение
0-20	очень низкая
20-40	низкая
40-60	посредственная
60-80	высокая
80-100	очень высокая

Для просмотра дерева решений перейдите на вкладку Tree. Оцените полученные результаты, какой признак стал корневым. Перейдите с GraphView на TextView. ознакомьтесь текстовое представление дерева решений.

В отчет необходимо вставить screenshot содержимого вкладки Tree, сформулировать выводами относительно корневого атрибута.

Двойным щелчком откройте оператор Validation. Щелчком мыши сделаете активным модель Decision Tree. Обратите внимание на панель Parameters

С помощью пункт Criterion, можно определить используемый критерий для выбора атрибутов и численного распада. Возможны следующие варианты: gain_ratio, information_gain, gini_index, accuracy. По умолчанию указывается критерий "gain_ratio".

minimal size for split: минимальные количество узлов

minimal leaf size:- минимальное количество листьев

minimal gain: - минимальный прирост

maximal depth: - максимальная глубина

confidence: уровень доверия для пессимистического расчета погрешности обрезки.

number of prepruning – число альтернативных атрибутов, используется для уменьшения случаев раскола.

no pre pruning: без предварительной обрезки

no pruning: отключается обрезка дерева (используется для получения полной картины классификации)

Ниже представлены значения, которые указываются по умолчанию.

Измените исходные данные. Поменяйте Criterion с gain_ratio на information_gain. Запустите процесс, нажав на кнопку . Сохраните процесс в папке Proc, как Practic_1_tree2. Сохраните в отчете screenshot содержимого вкладки PerformansVector, с сформулированными выводами относительно точности (таблица представлена ниже), так же сохраните screenshot содержимого вкладки Tree, с сформулированными выводами относительно корневого атрибута.

Интервал точности	Значение
0-20	очень низкая
20-40	низкая
40-60	посредственная
60-80	высокая
80-100	очень высокая

Измените исходные данные. Установите флажок на пункте no pre pruning и no pruning . Таким образом, мы увеличиваем количество узлов отраженных в дереве. Запустите процесс, нажав на кнопку . Сохраните процесс в папке Proc, как Practic_1_tree3. Сохраните в отчете screenshot содержимого вкладки PerformansVector, с сформулированными выводами относительно точности, так же сохраните screenshot содержимого вкладки Tree, с сформулированными выводами относительно корневого атрибута.

№пп	Классификатор	Точность (accuracy)	Расп МКБ	Расп Варик	Расп Пиелон	Предск МКБ	Предск Варик	Предск Пиелон
1	ДР по умолчанию gain_ratio max depth 20 no pruning снят no prepruning снят
2	gain_ratio max depth 20 no pruning установлен no prepruning установлен
3	gain_ratio max depth 3 no pruning установлен no prepruning установлен
4	gain_ratio max depth 4 no pruning установлен no prepruning установлен
5	Information gain max depth 4 no pruning установлен no prepruning установлен
	Лучшее ДР по показателю

Вывод: лучший классификатор из предложенных в таблице:

<<< < Предыдущая 1 2 34 / 44

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
05.05.2019280.58 Кб4МУ Курсовая (графическая) работа.doc
#
01.07.20254.76 Mб0МУ_Access_1_2010.docx
#
01.07.20258.79 Mб0МУ_Access_2016.docx
#
01.07.20254.83 Mб0МУ_Access_2_2010.docx
#
12.03.201613.61 Mб53МУ_Excel.docx
#
01.07.20255.28 Mб0МУ_RM_Практика 1.doc
#
14.02.2015439.7 Кб75МУ_Спектральный анализ.docx
#
01.03.202595.74 Кб0МЫШЦЫ И ФАСЦИИ ГРУДИ.doc
#
01.07.202528.91 Mб0Мышцы человека.docx
#
01.07.2025438.27 Кб1Написаниеи истории болезни.doc
#
14.02.2015697.48 Кб13Наркотические_аналгетики_леч_2014.pdf