Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
17, 18 билеты.doc
Скачиваний:
2
Добавлен:
26.04.2019
Размер:
437.25 Кб
Скачать

Билет №17 d.Кластерный анализ

Кластерный анализ – один из методов многомерного анализа, предназначенный для группировки (кластеризации) совокупности, элементы которой характеризуются многими признаками. Значения каждого из признаков служат координатами каждой единицы изучаемой совокупности в многомерном пространстве признаков. Каждое наблюдение, характеризующееся значениями нескольких показателей, можно представить как точку в пространстве этих показателей, значения которых рассматриваются как координаты в этом многомерном пространстве.

Основным критерием кластеризации является то, что различия между кластерами должны быть более существенны, чем между наблюдениями, отнесенными к одному кластеру.

Процесс кластеризации, как и процедуры регрессионного анализа, достаточно трудоемок, его целесообразно выполнять на компьютере.

Кластерный анализ (англ. Data clustering) — задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя. Кластерный анализ — это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры)(Q-кластеризация, или Q-техника, собственно кластерный анализ). Кластер — группа элементов, характеризуемых общим свойством, главная цель кластерного анализа — нахождение групп схожих объектов в выборке (примечание 1). Спектр применений кластерного анализа очень широк: его используют в археологии, медицине, психологии, химии, биологии, государственном управлении, филологии, антропологии, маркетинге, социологии и других дисциплинах. «Тематика исследований варьирует от анализа морфологии мумифицированных грызунов в Новой Гвинее до изучения результатов голосования сенаторов США, от анализа поведенческих функций замороженных тараканов при их размораживании до исследования географического распределения некоторых видов лишая в Саскачеване» (примечание 1). Однако универсальность применения привела к появлению большого количества несовместимых терминов, методов и подходов, затрудняющих однозначное использование и непротиворечивую интерпретацию кластерного анализа.

Задачи и условия

Кластерный анализ выполняет следующие основные задачи:

  • Разработка типологии или классификации.

  • Исследование полезных концептуальных схем группирования объектов.

  • Порождение гипотез на основе исследования данных.

  • Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных (примечание 1).

Независимо от предмета изучения применение кластерного анализа предполагает следующие этапы:

  • Отбор выборки для кластеризации.

  • Определение множества переменных, по которым будут оцениваться объекты в выборке.

  • Вычисление значений той или иной меры сходства между объектами.

  • Применение метода кластерного анализа для создания групп сходных объектов.

  • Проверка достоверности результатов кластерного решения (примечание 1).

Кластерный анализ предъявляет следующие требования к данным:

  1. показатели не должны коррелировать между собой

  2. показатели должны быть безразмерными

  3. распределение показателей должно быть близко к нормальному

  4. показатели должны отвечать требованию «устойчивости», под которой понимается отсутствие влияния на их значения случайных факторов

  5. выборка должна быть однородна, не содержать «выбросов» (примечание 2).

Если кластерному анализу предшествует факторный анализ, то выборка не нуждается в «ремонте» — изложенные требования выполняются автоматически самой процедурой факторного моделирования (есть ещё одно достоинство — z-стандартизация без негативных последствий для выборки; если её проводить непосредственно для кластерного анализа, она может повлечь за собой уменьшение чёткости разделения групп). В противном случае выборку нужно корректировать.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]