- •1)) Табличные и графические формы представления данных, их построение и анализ
- •2)) Обработка и анализ нечисловых (категорийных) данных с помощью сводных таблиц
- •4)) Методы группировки данных
- •5)) Методы группировки данных с помощью функции частота
- •7)) Показатели изменения уровней ряда динамики
- •9)) Методы сглаживания динамических рядов
- •10)) Аналитическое выравнивание динамического ряда. Виды трендовых моделей
- •Трендовые модели прогнозирования
- •12)) Автокорреляция уровней ряда. Свойства коэффициентов автокорреляции. Коррелограмма
- •13)) Сезонные колебания. Расчетов индексов сезонности.
- •14)) Построение аддитивных и мультипликативных моделей прогнозирования
- •15)) Доверительные интервалы прогноза. Оценка адекватности и точности моделей
- •17)) Создание файлов данных. Элементы описательной статистики в ппп statistica
- •18)) Представление многомерных данных в пакете statistica Стандартизация данных.
- •19)) Определение и экономическая интерпретация коэффициентов корреляции и детерминация Построение корреляционной матрицы в пакете statistica и её анализ, средствами пакета
- •Коэффициент корреляции Пирсона
- •20)) Многомерный регрессионный анализ в пакете statistica: Определение коэффициентов уравнения регрессии, оценка адекватности уравнения и оценка параметров и остатков
- •21)) Понятие кластерного анализа и области его применения
- •22)) Основные способы определения расстояний между объектами. Методы разбиения на кластеры
- •23))Математические характеристики кластера
- •24))Методика объединения (разбиения) в кластеры по иерархическому агломеративному методу. Дендограмма
- •25))Технология выполнения метода к- средних. Описания графика средних
- •26))Проверка статистической значимости построенных кластеров
- •27)) Дисперсионный анализ результатов метода к – средних
25))Технология выполнения метода к- средних. Описания графика средних
K-средние ― это популярный алгоритм кластеризации. Основная идея алгоритма К-средних заключается в том, что сначала для каждого класса случайным образом выбирается центральная точка. Затем алгоритм группирует члены в класс из точки, которая расположена ближе всего к данному члену. В большинстве случаев измеряется евклидово расстояние в многомерном пространстве. Следующий шаг заключается в поиске центральной точки (обычно называемой центроидом) каждой группы. Поскольку первая точка выбрана случайно, новый центр будет другим.
После того как новый центроид найден, снова вычисляется расстояние до всех точек, и члены перегруппировываются на основе сдвинутого центроида. Этот процесс повторяется до тех пор, пока перемещение центра не прекратится или не станет пренебрежимо мало.
Чтобы использовать кластеризацию методом К-средних, выберите Classify > K-Means Cluster из списка Analyze в главном меню редактора данных. Появится окно.
Перенесите переменные, которые вы хотите использовать в своем анализе, из левой части списка в список Variables (Переменные). Аналогично, выберите столбец для использования в качестве уникального идентификатора записи и поместите его в поле Label Cases by (Помечать случаи меткой…). В случае классификации клиентов это неизменный номер клиента.
На этом этапе будьте осторожны, чтобы необдуманно не ввести все переменные, предварительно не оценив их полезность. Иногда в этом списке могут оказаться неуместные переменные. Например, если есть поле, которое уже классифицировано, такое как оценка клиента продавцом, то эта информация может в значительной степени повлиять на конечное расположение кластеров. К счастью, K-средние не столь восприимчивы к наличию таких уже сгруппированных переменных, как некоторые другие алгоритмы.
Далее, отрегулируйте количество кластеров, которое вы хотели бы увидеть в итоге.
Если вы удовлетворены выбором, нажмите кнопку ОК. Позднее можно будет поэкспериментировать с кнопками Iterate (Повторение) иOptions (Параметры настройки). С их помощью можно влиять на результат, но нужно хорошо знать алгоритм и возможные последствия изменения этих настроек. Убедитесь, что в поле Method (Метод) выбран параметр Iterate and classify (Повторение и классификация).
В диалоговом окне Cluster Centers (Центры кластеров) установите флажок Write final (Запись конечного результата). Выберите вариант Data file (Файл данных); затем нажмите кнопку File и в появившемся обозревателе файлов присвойте файлу имя. Запомните, где находится этот файл.
Описательные статистики для каждого кластера. Другим способом определения природы кластеров является проверка средних значений для каждого кластера и для каждого измерения. Вы можете или отобразить описательные статистики отдельно (нажмите на кнопку Описат. статистики для каждого кластера), или отобразить средние для всех кластеров и расстояний (евклидовых и квадратов евклидовых, см. ниже) между кластерами в отдельную таблицу результатов (нажмите на кнопку Средние кластеров и евклидовы расстояния), или вывести диаграмму этих средних (нажмите на кнопку График средних). Обычно, этот график дает наилучшее представление результатов.
Взглянем, например, на линию для кластера экономичный седан (Кластер 1) и сравним её с кластером роскошный седан (Кластер 2) на графике ниже. Можно заметить, что и в самом деле, автомобили в последнем классе:
(1) Являются более дорогими,
(2) Имеют меньше время разгона (вероятно из-за большего веса),
(3) Имеют приблизительно тот самый тормозной путь,
(4) Являются одинаковыми с точки зрения управляемости, и
(5) Имеют меньший расход топлива.
Расстояния между кластерами. Другой полезный результат проверки - евклидовы расстояния между кластерами (нажмите на кнопку Средние кластеров и евклидовы расстояния). Эти расстояния (евклидовы и их квадраты) вычисляются по средним каждой переменной в кластере.
