Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лаб_практ 2011.doc
Скачиваний:
18
Добавлен:
13.08.2019
Размер:
797.7 Кб
Скачать

Приложение 4. Указания по выполнению работы «Кластерный анализ»

Предварительная визуальная кластеризация.

Проводится с помощью звездных диаграмм, лиц Чернова, главных компонент. Диаграммы и лица Чернова доступны через пункт меню GraphIcon Plots (Рис. 1)

Рисунок 1

Работа с диалоговым окном Icon Plots (Рис. 2).

Перейти на закладку Advanced, в методе стандартизации (Standardize) выбрать пункт Cases. Нажать кнопку Variables и в появившемся диалоговом окне выбрать интересующие переменные.

Далее выбрать сначала Stars (звездные диаграммы), затем Chernoff Faces (лица Чернова)

По полученным диаграммам приблизительно определить число кластеров.

Рисунок 2

Кластеризация методом К- средних

Сначала необходимо стандартизовать данные: п. меню DataStandardize, в появившемся диалоговом окне (Рис. 3) указать переменные по которым будет проводиться анализ.

Рисунок 3

Затем перейти непосредственно к процедуре кластерного анализа: п. меню StatiaticsMultivariate Exploratory TechniquesCluster Analysis (Рис. 4)

Рисунок 4

В диалоговом окне кластерного анализа (Рис. 5) выбрать пункт K-means clustering

Рисунок 5

В следующем диалоговом окне снова используется закладка Advanced (Рис. 6)

Рисунок 6

  • Кнопка Variables – нажать и указать переменные для анализа

  • Выпадающий список Cluster – указать кластеризацию по объектам (cases)

  • Число кластеров (Number of clusters) – указать число кластеров, полученное по результатам визуального анализа числа кластеров (звездные диаграммы и лица Чернова)

  • В методах выбора начальных центров кластеров (Initial cluster centers) выбрать третью позицию, для реализации метода К-средних.

После расчета в пакете Statistica появится следующее диалоговое окно (Рис. 7)

Рисунок 7

В верхней части окна содержится информация о прошедшем процессе кластеризации, а именно: число переменных, по которым проводился анализ, число объектов, метод обработки недостающих данных, число кластеров, и число шагов, потребовавшихся для решения. Эту часть окна можно свернуть кнопкой , либо скопировать информацию в буфер обмена

Нижняя часть окна содержит панель с шестью (табл.1) кнопками описательных статистик. По нажатию любой из них соответствующая информация выводится в, так называемую, рабочую книгу (Workbook).

Таблица 1

Кнопка

Назначение

В нескольких таблицах статистика средних значений переменных по каждому кластеру, а также расстояния (под гл. диагональю)и квадраты расстояний (над гл. диагональю) между кластерами

Данные для дисперсионного анализа

Выводит график средних значений переменных для каждого кластера (эти графики помогут выявить качественную переменную, отвечающую за состав кластера)

Описательная статистика переменных по каждому кластеру

Состав каждого кластера, и расстояния между объектами и центром кластера

Сохраняет выбранные данные и принадлежность к кластеру

Данные о расстояниях между кластерами и расстояниях от объектов до центров кластеров используются для оценки качества разбиения.

Иерархический кластерный анализ.

Вернуться к первому диалогу кластерного анализа (Рис. 5), выбрать пункт Joining, и подтвердить нажатием кнопки ОК

Рисунок 8

Рисунок 9

Снова необходимо использовать закладку Advanced. Требуется указать:

  • переменные, по которым ведется анализ

  • тип входных данных (в нашем случае это просто значения)

  • кластеризация проводится по объектам(Cluster → Cases(rows))

  • правило объединения (взвешенное среднее)

  • вид метрики.

Фактически, дендрограмма показывает ход объединения объектов в кластеры.

Рисунок 10

Таблица 2

Кнопка

Назначение

Вывод дендрограммы

выдает матрицу, которая по шагам позволяет отследить процесс построения дендрограммы

График позволяет отследить изменение расстояний между объектами на каждом шаге

Матрица расстояний между объектами

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]