- •Оглавление
- •Лабораторная работа 1. Корреляционный анализ
- •Лабораторная работа 2. Регрессионный анализ
- •1. Парная регрессия
- •2. Многомерная регрессия
- •3. Сравнение регрессий
- •Лабораторная работа 3. Сглаживание временного ряда
- •Лабораторная работа 4. Анализ временного ряда по методу бокса-дженкинса
- •Лабораторная работа 5. Факторный анализ
- •Лабораторная работа 6. Кластерный анализ
- •Лабораторная работа 7. Многомерное шкалирование
- •Список рекомендуемой литературы
- •Приложение 1. Статистические таблицы
- •Приложение 2. Список сокращений и терминов, встречающихся в экранных формах, и их значение.
- •Приложение 3. Варианты исходных данных для лабораторной работы «Регрессионный анализ»
- •Приложение 4. Указания по выполнению работы «Кластерный анализ»
- •Приложение 5. Пример отчета
- •Кластеризация методом к-средних
- •Построение дендрограммы
- •Анализ и классификация
Приложение 4. Указания по выполнению работы «Кластерный анализ»
Предварительная визуальная кластеризация.
Проводится с помощью звездных диаграмм, лиц Чернова, главных компонент. Диаграммы и лица Чернова доступны через пункт меню Graph → Icon Plots (Рис. 1)
|
Рисунок 1 |
Работа с диалоговым окном Icon Plots (Рис. 2).
Перейти на закладку Advanced, в методе стандартизации (Standardize) выбрать пункт Cases. Нажать кнопку Variables и в появившемся диалоговом окне выбрать интересующие переменные.
Далее выбрать сначала Stars (звездные диаграммы), затем Chernoff Faces (лица Чернова)
По полученным диаграммам приблизительно определить число кластеров.
|
Рисунок 2 |
Кластеризация методом К- средних
Сначала необходимо стандартизовать данные: п. меню Data → Standardize, в появившемся диалоговом окне (Рис. 3) указать переменные по которым будет проводиться анализ.
|
Рисунок 3 |
Затем перейти непосредственно к процедуре кластерного анализа: п. меню Statiatics → Multivariate Exploratory Techniques → Cluster Analysis (Рис. 4)
|
Рисунок 4 |
В диалоговом окне кластерного анализа (Рис. 5) выбрать пункт K-means clustering
|
Рисунок 5 |
В следующем диалоговом окне снова используется закладка Advanced (Рис. 6)
|
Рисунок 6 |
Кнопка Variables – нажать и указать переменные для анализа
Выпадающий список Cluster – указать кластеризацию по объектам (cases)
Число кластеров (Number of clusters) – указать число кластеров, полученное по результатам визуального анализа числа кластеров (звездные диаграммы и лица Чернова)
В методах выбора начальных центров кластеров (Initial cluster centers) выбрать третью позицию, для реализации метода К-средних.
После расчета в пакете Statistica появится следующее диалоговое окно (Рис. 7)
|
Рисунок 7 |
В верхней
части окна содержится информация о
прошедшем процессе кластеризации, а
именно: число переменных, по которым
проводился анализ, число объектов, метод
обработки недостающих данных, число
кластеров, и число шагов, потребовавшихся
для решения. Эту часть окна можно свернуть
кнопкой
,
либо скопировать информацию в буфер
обмена
Нижняя часть окна содержит панель с шестью (табл.1) кнопками описательных статистик. По нажатию любой из них соответствующая информация выводится в, так называемую, рабочую книгу (Workbook).
Таблица 1
Кнопка |
Назначение |
|
В нескольких таблицах статистика средних значений переменных по каждому кластеру, а также расстояния (под гл. диагональю)и квадраты расстояний (над гл. диагональю) между кластерами |
|
Данные для дисперсионного анализа |
|
Выводит график средних значений переменных для каждого кластера (эти графики помогут выявить качественную переменную, отвечающую за состав кластера) |
|
Описательная статистика переменных по каждому кластеру |
|
Состав каждого кластера, и расстояния между объектами и центром кластера |
|
Сохраняет выбранные данные и принадлежность к кластеру |
Данные о расстояниях между кластерами и расстояниях от объектов до центров кластеров используются для оценки качества разбиения.
Иерархический кластерный анализ.
Вернуться к первому диалогу кластерного анализа (Рис. 5), выбрать пункт Joining, и подтвердить нажатием кнопки ОК
|
Рисунок 8 |
|
Рисунок 9 |
Снова необходимо использовать закладку Advanced. Требуется указать:
переменные, по которым ведется анализ
тип входных данных (в нашем случае это просто значения)
кластеризация проводится по объектам(Cluster → Cases(rows))
правило объединения (взвешенное среднее)
вид метрики.
Фактически, дендрограмма показывает ход объединения объектов в кластеры.
|
Рисунок 10 |
Таблица 2
Кнопка |
Назначение |
|
Вывод дендрограммы |
|
выдает матрицу, которая по шагам позволяет отследить процесс построения дендрограммы |
|
График позволяет отследить изменение расстояний между объектами на каждом шаге |
|
Матрица расстояний между объектами |
