- •1)) Табличные и графические формы представления данных, их построение и анализ
- •2)) Обработка и анализ нечисловых (категорийных) данных с помощью сводных таблиц
- •4)) Методы группировки данных
- •5)) Методы группировки данных с помощью функции частота
- •7)) Показатели изменения уровней ряда динамики
- •9)) Методы сглаживания динамических рядов
- •10)) Аналитическое выравнивание динамического ряда. Виды трендовых моделей
- •Трендовые модели прогнозирования
- •12)) Автокорреляция уровней ряда. Свойства коэффициентов автокорреляции. Коррелограмма
- •13)) Сезонные колебания. Расчетов индексов сезонности.
- •14)) Построение аддитивных и мультипликативных моделей прогнозирования
- •15)) Доверительные интервалы прогноза. Оценка адекватности и точности моделей
- •17)) Создание файлов данных. Элементы описательной статистики в ппп statistica
- •18)) Представление многомерных данных в пакете statistica Стандартизация данных.
- •19)) Определение и экономическая интерпретация коэффициентов корреляции и детерминация Построение корреляционной матрицы в пакете statistica и её анализ, средствами пакета
- •Коэффициент корреляции Пирсона
- •20)) Многомерный регрессионный анализ в пакете statistica: Определение коэффициентов уравнения регрессии, оценка адекватности уравнения и оценка параметров и остатков
- •21)) Понятие кластерного анализа и области его применения
- •22)) Основные способы определения расстояний между объектами. Методы разбиения на кластеры
- •23))Математические характеристики кластера
- •24))Методика объединения (разбиения) в кластеры по иерархическому агломеративному методу. Дендограмма
- •25))Технология выполнения метода к- средних. Описания графика средних
- •26))Проверка статистической значимости построенных кластеров
- •27)) Дисперсионный анализ результатов метода к – средних
26))Проверка статистической значимости построенных кластеров
Кластерный анализ не только предоставляет существенно меньшие возможности для кластеризации переменных (например, отсутствие возможности сохранять групповые рейтинги) по сравнению с факторным анализом, но и выдает гораздо менее наглядные результаты. В нашем случае, если кластеры 2, 3 и 4 еще поддаются логической интерпретации1, то кластер 1 содержит совершенно разные по смыслу утверждения. В данной ситуации можно либо попытаться описать кластер 1 как есть, либо перестроить статистическую модель с другим числом кластеров. В последнем случае для поиска оптимального числа кластеров, поддающихся логическому описанию, можно воспользоваться параметром Range of solutions в диалоговом окне Statistics (см. рис. 5.57), указав в соответствующих полях минимальное и максимальное число кластеров (в нашем случае 4 и 6 соответственно). В такой ситуации SPSS перестроит таблицу Cluster Membership для каждого числа кластеров. Задача аналитика в данном случае — попытаться подобрать такую классификационную модель, при которой все кластеры будут интерпретироваться однозначно. С целью демонстрации возможностей процедуры кластерного анализа для кластеризации переменных мы не будем перестраивать кластерную модель, а ограничимся лишь сказанным выше.
Необходимо отметить, что, несмотря на кажущуюся простоту проведения кластерного анализа по сравнению с факторным, практически во всех случаях из маркетинговых исследований факторный анализ оказывается быстрее и эффективнее кластерного. Поэтому для классификации (сокращения) переменных мы настоятельно рекомендуем использовать именно факторный анализ и оставить применение кластерного анализа для классификации респондентов.
При анализе результатов наибольший интерес для интерпретации разбиения представляют следующие характеристики: расстояние между центрами кластеров, количество объектов в кластере, характеристики типичного (среднего) объекта кластера, среднее расстояние объектов от центра кластера.
Из анализа внутрикластерного стандартного отклонения видно, что разброс характеристик внутри первой группы больше для ОЭ-1, для второй по ОЭ-1 и ОЭ-2, для третьей по ОЭ-2 (кластеры имеют вытянутую форму по этим осям). Из чего можно сделать вывод о нестабильности результатов обучающихся перечисленных групп по указанным обучающим элементам.
Проверка статистической значимости различия между средними значениями каждого кластера с использованием t-критерия Стьюдента, подтвердила гипотезу о различии между средними для уровня значимости р=0,05. Это, а также то, что расстояние объектов до центра каждого кластера невелико относительно расстояний между центрами кластеров и примерно равное, позволяет сделать вывод, что кластеры являются компактными скоплениями объектов, а данное разбиение устойчиво и отражает внутреннюю структуру данных.
Оценка значимости
Критерий качества разбиения, описанный выше, позволяет определить оптимальное разбиение при заданном количестве кластеров, но не может служить основанием для сравнения внутри ряда оптимальных разбиений. Это связано с тем, что значение этого критерия при возрастании количества кластеров ведет себя как монотонно убывающая функция (пока не достигнет нуля), но мы не располагаем информацией, насколько быстро она должнаубывать. Для получения такой информации мы ввели в качестве эталона для сравнения случайно сгенерированную, в соответствии с нулевой гипотезой, выборку данных того же объема, что и исходная. Нулевая гипотеза заключается в том, что распределение объектов в пространстве признаков соответствует многомерной нормальности. При этом длины осей эллипсоида рассеяния для случайной выборки совпадают с таковыми в исходной. В дальнейшем тексте нулевую гипотезу будем называть гипотезой однокластерной структуры или гипотезой отсутствия кластерной структуры.
Для определения оптимального количества кластеров мы использовали оценку значимости гипотезы однокластерной структуры. Минимум значимости достигается на числе кластеров, которое дает наиболее отклоняющуюся (в сторону меньших значений) долю остаточной дисперсии на исходных данных по сравнению со средним значением доли остаточной дисперсии в статистических экспериментах.
При разработке алгоритма оценки значимости необходимо принять два решения:
– как генерировать случайную выборку с однокластерной структурой (по построению), которая была бы по остальным параметрам сравнима с исходной выборкой?;
– как измерять значимость гипотезы однокластерности, располагая значениями критерия качества разделения (при k кластерах) на исходных данных и для всего множества случайных выборок?
Рассмотрим эти проблемы по порядку.
В монографии предлагалось имитировать однокластерную структуру выборкой, нормально распределенной в сферически симметричной области, а сами исходные данные преобразовывать к такому виду с помощью ориентации в многомерном пространстве вдоль главных компонентов (найденных факторным анализом). Поскольку при этом мы получаем облако рассеяния в виде многомерного эллипсоида, то следующим шагом растягиваем его оси так, чтобы их длина стала одинаковой, то есть превращаем эллипсоид в сферу. Такой подход страдает несколькими недостатками. Во-первых, при переходе к главным компонентам размерность пространства может уменьшиться за счет линейной зависимости выбранных переменных, а во-вторых, после растягивания осей мы меняем метрику пространства и в результате ищем уже совсем не ту кластерную структуру, которую обнаружили бы в исходном пространстве. Таким образом, решая задачу оценки значимости отсутствия кластерной структуры, нам пришлось бы накладывать слишком жесткие ограничения на саму процедуру кластеризации.
Учитывая указанные недостатки, мы пришли к альтернативному решению – преобразовывать не исходные данные к сферическому распределению, а генерировать случайные выборки в эллипсоиде, длины осей которого совпадают с главными компонентами. При этом оси нулевой длины не приносят неприятностей (умножать на ноль всегда проще, чем делить), а на процедуру кластеризации не накладывается дополнительных ограничений.
Теперь перейдем к вопросу измерения значимости гипотезы однокластерности. Поскольку критерием качества кластеризации была выбрана доля остаточной дисперсии, которая принимает значения от нуля до единицы, то естественно будет аппроксимировать распределение значений этого критерия в серии случайных экспериментов Бэта-распределением, которое работает для случайных величин, имеющих ограниченную с обоих сторон область допустимых значений:
-
(1)
Параметры a и b Бэта-распределения легко определить по выборочному среднему M и дисперсии D:
-
(2)
(3)
Получив оценки параметров Бэта-распределения, мы можем вычислить значимость гипотезы однокластерности при любом значении x(k) – доли остаточной диперсии на k кластерах. Значимость вычисляется как интеграл Бэта-распределения в пределах от нуля до остаточной дисперсии d(k):
