Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИАД_методичка.doc
Скачиваний:
70
Добавлен:
07.02.2016
Размер:
622.59 Кб
Скачать
      1. Кластеризация (Cluster)

Выбор функции кластеризации и ее настройки происходят таким же образом, как и для рассмотренной выше классификации.

Область «Cluster mode» используется для того, чтобы определить, что кластеризовать и как оценивать результаты. Первые три опции такие же как и для классификации: Use training set, Supplied test set andPercentage split - при этом данные используются для отнесения к кластеру, а не для предсказания определенного класса.

Четвертый метод «Classes to clusters evaluation» сравнивает как хорошо был выбран кластер сравнивая его с предварительно заданным классом в данных.

Дополнительная опция в виде чекбокса «Store clusters for visualization» определяет возможно ли будет визуализировать кластеры по окончании обучения. При решении задач с очень большими объемами данных следует отключить данную опцию, чтобы избежать проблем с нехваткой памяти.

Кнопка «Ignoring Attributes» позволяет определить, какие признаки следует игнорировать при проведении кластеризации.

Вкладка Кластеризации также как и вкладка классификации содержит кнопки Start/Stop, область результатов и список результатов. Их назначение такое же, как и при решении задач классификации. Щелчок правой кнопкой мыши на записи в списке результатов дает аналогичное контекстное меню, за исключением того, что в нем только две опции визуализации:Visualize cluster assignments andVisualize tree.

      1. Ассоциативные правила (Associate)

Вкладка «Assosiate» содержит схему обучения ассоциативных правил. Алгоритмы выбираются, настраиваются и выполняются аналогичным образом, как и для фильтров, классификаторов и кластеров.

      1. Отбор признаков (Selecting attributes)

Отбор признаков включает перебор всех возможный комбинаций признаков данных для поиска подмножества признаков, дающих наилучший результат предсказания. Для этого должны быть настроены два объекта: оценка атрибутов и метод поиска. Оценщик определяет какой метод используется для назначения значимости каждого подмножества атрибутов. А метод поиска определяет стиль поиска подмножеств.

Область «Attribute Selection Mode» имеет два параметра

  1. Use full training set. Значимость подмножества атрибутов определяется для полного набора обучающих данных.

  2. Cross-validation (Скользящий контроль, кросс-проверка). Значимость подмножества атрибутов определяется при помощи кросс-валидации. Поля Fold и Seed определяют количество блоков (folds) и случайный сид (seed), используемый при перетасовке данных. Внизу находится выпадающий список, который задает целевой признак, который будет использоваться в качестве класса.

По нажатию кнопки «Start» запускается процесс выбора атрибутов. Когда процесс закончен, результаты выводятся в область результатов «Attribute selection output» и добавляются в список результатов. Нажатие правой кнопки мыши на результаты выдает контекстное меню. Первые три пункта этого меню(View in main window, View in separate window and Save result buffer), такие же как и для вкладки классификации. Дополнительными являютсяVisualize reduced data, или если был выбран метод Principal-Components,Visualize transformed data.