Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
analiz_dannykh_polny.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
626.69 Кб
Скачать

25))Технология выполнения метода к- средних. Описания графика средних

K-средние ― это популярный алгоритм кластеризации. Основная идея алгоритма К-средних заключается в том, что сначала для каждого класса случайным образом выбирается центральная точка. Затем алгоритм группирует члены в класс из точки, которая расположена ближе всего к данному члену. В большинстве случаев измеряется евклидово расстояние в многомерном пространстве. Следующий шаг заключается в поиске центральной точки (обычно называемой центроидом) каждой группы. Поскольку первая точка выбрана случайно, новый центр будет другим.

После того как новый центроид найден, снова вычисляется расстояние до всех точек, и члены перегруппировываются на основе сдвинутого центроида. Этот процесс повторяется до тех пор, пока перемещение центра не прекратится или не станет пренебрежимо мало.

Чтобы использовать кластеризацию методом К-средних, выберите Classify > K-Means Cluster из списка Analyze в главном меню редактора данных. Появится окно.

Перенесите переменные, которые вы хотите использовать в своем анализе, из левой части списка в список Variables (Переменные). Аналогично, выберите столбец для использования в качестве уникального идентификатора записи и поместите его в поле Label Cases by (Помечать случаи меткой…). В случае классификации клиентов это неизменный номер клиента.

На этом этапе будьте осторожны, чтобы необдуманно не ввести все переменные, предварительно не оценив их полезность. Иногда в этом списке могут оказаться неуместные переменные. Например, если есть поле, которое уже классифицировано, такое как оценка клиента продавцом, то эта информация может в значительной степени повлиять на конечное расположение кластеров. К счастью, K-средние не столь восприимчивы к наличию таких уже сгруппированных переменных, как некоторые другие алгоритмы.

Далее, отрегулируйте количество кластеров, которое вы хотели бы увидеть в итоге.

Если вы удовлетворены выбором, нажмите кнопку ОК. Позднее можно будет поэкспериментировать с кнопками Iterate (Повторение) иOptions (Параметры настройки). С их помощью можно влиять на результат, но нужно хорошо знать алгоритм и возможные последствия изменения этих настроек. Убедитесь, что в поле Method (Метод) выбран параметр Iterate and classify (Повторение и классификация).

В диалоговом окне Cluster Centers (Центры кластеров) установите флажок Write final (Запись конечного результата). Выберите вариант Data file (Файл данных); затем нажмите кнопку File и в появившемся обозревателе файлов присвойте файлу имя. Запомните, где находится этот файл.

Описательные статистики для каждого кластера. Другим способом определения природы кластеров является проверка средних значений для каждого кластера и для каждого измерения. Вы можете или отобразить описательные статистики отдельно (нажмите на кнопку Описат. статистики для каждого кластера), или отобразить средние для всех кластеров и расстояний (евклидовых и квадратов евклидовых, см. ниже) между кластерами в отдельную таблицу результатов (нажмите на кнопку Средние кластеров и евклидовы расстояния), или вывести диаграмму этих средних (нажмите на кнопку График средних). Обычно, этот график дает наилучшее представление результатов.

Взглянем, например, на линию для кластера экономичный седан (Кластер 1) и сравним её с кластером роскошный седан (Кластер 2) на графике ниже. Можно заметить, что и в самом деле, автомобили в последнем классе:

(1) Являются более дорогими,

(2) Имеют меньше время разгона (вероятно из-за большего веса),

(3) Имеют приблизительно тот самый тормозной путь,

(4) Являются одинаковыми с точки зрения управляемости, и

(5) Имеют меньший расход топлива.

Расстояния между кластерами. Другой полезный результат проверки - евклидовы расстояния между кластерами (нажмите на кнопку Средние кластеров и евклидовы расстояния). Эти расстояния (евклидовы и их квадраты) вычисляются по средним каждой переменной в кластере.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]