- •Методичні вказівки
- •Содержание
- •Начало работы
- •Модуль Explorer
- •Загрузка и предварительная обработка данных (Preprocess)
- •Классификация (Classify)
- •Кластеризация (Cluster)
- •Ассоциативные правила (Associate)
- •Отбор признаков (Selecting attributes)
- •Визуализация (Visualizing)
- •Задание на лабораторную работу
Кластеризация (Cluster)
Выбор функции кластеризации и ее настройки происходят таким же образом, как и для рассмотренной выше классификации.
Область «Cluster mode» используется для того, чтобы определить, что кластеризовать и как оценивать результаты. Первые три опции такие же как и для классификации: Use training set, Supplied test set andPercentage split - при этом данные используются для отнесения к кластеру, а не для предсказания определенного класса.
Четвертый метод «Classes to clusters evaluation» сравнивает как хорошо был выбран кластер сравнивая его с предварительно заданным классом в данных.
Дополнительная опция в виде чекбокса «Store clusters for visualization» определяет возможно ли будет визуализировать кластеры по окончании обучения. При решении задач с очень большими объемами данных следует отключить данную опцию, чтобы избежать проблем с нехваткой памяти.

Кнопка «Ignoring Attributes» позволяет определить, какие признаки следует игнорировать при проведении кластеризации.
Вкладка Кластеризации также как и вкладка классификации содержит кнопки Start/Stop, область результатов и список результатов. Их назначение такое же, как и при решении задач классификации. Щелчок правой кнопкой мыши на записи в списке результатов дает аналогичное контекстное меню, за исключением того, что в нем только две опции визуализации:Visualize cluster assignments andVisualize tree.
Ассоциативные правила (Associate)
Вкладка «Assosiate» содержит схему обучения ассоциативных правил. Алгоритмы выбираются, настраиваются и выполняются аналогичным образом, как и для фильтров, классификаторов и кластеров.

Отбор признаков (Selecting attributes)
Отбор признаков включает перебор всех возможный комбинаций признаков данных для поиска подмножества признаков, дающих наилучший результат предсказания. Для этого должны быть настроены два объекта: оценка атрибутов и метод поиска. Оценщик определяет какой метод используется для назначения значимости каждого подмножества атрибутов. А метод поиска определяет стиль поиска подмножеств.
Область «Attribute Selection Mode» имеет два параметра
Use full training set. Значимость подмножества атрибутов определяется для полного набора обучающих данных.
Cross-validation (Скользящий контроль, кросс-проверка). Значимость подмножества атрибутов определяется при помощи кросс-валидации. Поля Fold и Seed определяют количество блоков (folds) и случайный сид (seed), используемый при перетасовке данных. Внизу находится выпадающий список, который задает целевой признак, который будет использоваться в качестве класса.
По нажатию кнопки «Start» запускается процесс выбора атрибутов. Когда процесс закончен, результаты выводятся в область результатов «Attribute selection output» и добавляются в список результатов. Нажатие правой кнопки мыши на результаты выдает контекстное меню. Первые три пункта этого меню(View in main window, View in separate window and Save result buffer), такие же как и для вкладки классификации. Дополнительными являютсяVisualize reduced data, или если был выбран метод Principal-Components,Visualize transformed data.

