Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ГОС по социологии - все части.doc
Скачиваний:
2
Добавлен:
01.05.2025
Размер:
3.64 Mб
Скачать

Тема 7. Модели кластерного анализа в социологии.

7.1 Понятие автоматической классификации объектов (кластерного анализа). Цели ее использования в социологии.

Метод автоматической классификации является одним из двух основных классов методов классификации. Методы многомерной классификации в литературе иногда называются автоматической классификацией, кластерным анализом, распознаванием образов без учителя и т. д. Помимо этого класса методов, существуют еще класс «методы группировки». Методы группировки предполагают отнесение к тому или иному классу объектов, либо обладающих одним и тем же сочетанием значений некоторого фиксированного набора рассматриваемых признаков, либо обладающих сочетанием значений фиксированного набора признаков из некоторой совокупности таких сочетаний, либо для которых величина вариации по всем рассматриваемым признакам «не слишком большая».

Методы многомерной (автоматической) классификации позволяют отразить более многообразные представления о содержательном типе объектов, чем методы группировки.

Формальные свойства алгоритмов многомерной классификации и их связь с содержательным пониманием типа.

1. Большинство алгоритмов многомерной классификации предполагает наличие «сгустков» объектов, рассматриваемых как точки в исходном признаковом пространстве. Пользование подобными алгоритмами возможно лишь в случае, если мы считаем имеющей место определенную расчлененность изучаемой совокупности объектов. Используя алгоритм, рассчитанный на наличие «сгустков», мы тем самым делаем определенные содержательные предположения. Эти предположения должны быть четко сформулированы в виде определенных содержательных гипотез.

Вопрос о наличии «сгустков» связан с вопросом об их виде, о форме искомых классов. Разные алгоритмы классификации позволяют отыскивать классы разной формы. Выбор алгоритма в значительной мере должен определяться соответствующими содержательными предпосылками.

Существуют алгоритмы классификации, которые позволяют отыскивать интересующие нас «сгустки». Мы имеем в виду алгоритмы, основанные на оценивании функции плотности распределения изучаемой совокупности объектов в рассматриваемом признаковом пространстве.

2. Большинство алгоритмов многомерной классификации предполагает задание определенной метрики, т. е. функции расстоя­ния (либо меры близости) между любыми двумя рассматриваемы­ми объектами. При реализации алгоритма классификации объекты, расстояние между которыми не превышает некоторого порога (величина его задается априори или определяется из опыта), попадают в один класс. Соответственно объекты, расстояние между которыми превышает этот порог, попадают в разные классы.

Введением функции расстояния по существу задается понятие однотипности объектов. «Выбор метрики (или меры близости) является узловым моментом исследования, от которого решающим образом зависит окончательный вариант разбиения объектов на классы при задан­ном алгоритме разбиения. В каждой конкретной задаче этот выбор должен производиться по-своему. При этом решение данного вопроса зависит в основном от главных целей исследования, фи­зической и статистической природы вектора наблюдения X, полноты априорных сведений о характере вероятностного расп­ределения X, характера взаимосвязей отдельных компонент изучаемого явления.

В качестве других факторов, определяющих выбор функции расстояния, можно назвать и следующие: необходимость корректного сочетания функции расстояния с типом шкал, использованных для получения исходных данных; 2) взаимная обусловленность выбора функции расстояния и исходного признакового простран­ства; 3) оценка возможности ослабить некоторые традиционные требования, предъявляемые к функции расстояния, с целью рас­ширить круг тех функций, которые могут использоваться при ре­шении социологических задач типологии.

3. Почти все алгоритмы многомерной классификации пред­полагают реализацию нескольких «шагов» процесса разбиения совокупности на классы. Задавая определенные параметры (для различных алгоритмов эти параметры могут быть разными: чис­ло классов, на которые следует разбить совокупность, «радиус» искомых классов и т. д.), исследователь получает разные разбие­ния исходной совокупности на классы. Естественно, что выбор шага классификации, на котором следует остановиться, играет большую роль в обеспечении соответствия результатов формальной классификации представлениям о содержательных типах объектов. При анализе результатов классификации с целью выде­ления такого шага обычно используют содержательную интер­претацию классов, анализ характеристик распределения в классах рассматриваемых признаков, привлечение с аналогичной целью так называемых внешних признаков и т. д.

Цель использования автоматической классификации в социологии – выделение типов объектов по некоторым значимым с точки зрения гипотез и концепций исследования характеристикам.

7.2 Описание принципов работы алгоритма CLUSTER.

Методы кластерного анализа позволяют разбить изучаемую совокупность объектов на группы «схожих» объектов, называемых кластерами. Синонимами кластерного анализа являются «автоматическая классификация объектов без учителя», «таксономия».

Если данные понимать как точки в признаковом пространстве, то задача кластерного анализа формулируется как выделение "сгущений точек", разбиение совокупности на однородные подмножества объектов.

Кластерный анализ, равно как и факторный, является описательной процедурой, он не позволяет сделать никаких статистических выводов, но дает возможность провести своеобразную разведку - изучить "структуру совокупности".

Методы кластерного анализа можно разделить на 2 больших класса: иерархический кластерный анализ и кластерный анализ центров (K-means).

Большинство методов иерархической кластеризации являются агломеративными. Смысл агломеративного алгоритма состоит в том, что перед началом кластеризации все объекты считаются отдельными кластерами, которые в ходе алгоритма объединяются. Вначале берется N объектов и между всеми ними попарно вычисляются расстояния. Далее выбирается пара объектов, которые расположены наиболее близко друг от друга и которые объединяются в один кластер. В результате количество кластеров становится равным N-1. Процедура повторяется, пока все классы не объединятся. На любом этапе объединение можно прервать, получив нужное число кластеров.

Помимо агломеративного алгоритма существует еще дивизионный, в котором изначально все объекты объединены в один кластер, который в ходе реализации алгоритма последовательно делится на более мелкие и однородные кластеры.

Результат работы алгоритмов кластерного анализа определяют способы вычисления расстояния между объектами и определения близости между кластерами. Для определения расстояния между парой кластеров могут быть сформулированы различные разумные подходы. Предусмотрены следующие методы, определяемые на основе расстояний между группами объектов (кластерами):

  • Среднее расстояние между кластерами (Between-groups linkage) - Связь между группами – дистанция между кластерами равна среднему значению дистанций между всеми возможными парами наблюдений, причём одно наблюдение берется из одного кластера, а другое - из другого. Информация, необходимая для расчета дистанции, находится на основании всех теоретически возможных пар наблюдений. По этой причине данный метод и устанавливается по умолчанию.

  • Среднее расстояние между всеми объектами пары кластеров с учетом расстояний внутри кластеров (Within-groups linkage) - Связь внутри групп – дистанция между двумя кластерами рассчитывается на основании всех возможных пар наблюдений, принадлежащих обоим кластеров, причем учитываются также и пары наблюдений, образующиеся внутри кластеров.

  • Расстояние между ближайшими соседями - ближайшими объектами кластеров (Nearest neighbor) - дистанция между двумя кластерами определяется, как расстояние между парой значений наблюдений, расположенных друг к другу ближе всего, причем каждое наблюдение берется из своего кластера.

  • Расстояние между самыми далекими соседями (Furthest neighbor) - дистанция между двумя кластерами определяется как расстояние между самыми удаленными друг от друга значениями наблюдений, причем каждое наблюдение берется из своего кластера.

  • Расстояние между центрами кластеров (Centroid clustering), или центроидный метод. В обоих кластерах рассчитываются средние значения переменных относящихся к ним наблюдений. Затем расстояние между двумя кластерами рассчитывается как дистанция между двумя осредненными наблюдениями. Недостатком этого метода является то, что центр объединенного кластера вычисляется как среднее центров объединяемых кластеров, без учета их объема.

  • Метод медиан - тот же центроидный метод, но центр объединенного кластера вычисляется как среднее всех объектов (Median clustering). В предыдущем методе центроид нового кластера получается как взвешенное среднее центроидов обоих исходных кластеров, причем количества наблюдений исходных кластеров образовывают весовой коэффициент. В медианном же методе оба исходных кластера берутся с одинаковым весом.

  • Метод Варда (Ward's method). В качестве расстояния между кластерами берется прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения. сначала в обоих кластерах для всех имеющихся наблюдений производится расчёт средних значений отдельных переменных. Затем вычисляются квадраты евклидовых расстояний от отдельных наблюдений каждого кластера до этого кластерного среднего значения. Эти дистанции суммируются. Потом в один новый кластер объединяются те кластеры, при объединении которых получается наименьший прирост общей суммы дистанций

Расстояния и меры близости между объектами.

  • Евклидово расстояние (Euclidian distance).

  • Квадрат евклидова расстояния (Squared Euclidian distance)

Эвклидово расстояние и его квадрат целесообразно использовать для анализа количественных данных.

  • Мера близости - коэффициент корреляции , где и компоненты стандартизованных векторов X и Y. Эту меру целесообразно использовать для выявления кластеров переменных, а не объектов.

  • Расстояние хи-квадрат получается на основе таблицы сопряженности, составленной из объектов X и Y (рисунок 7.3.), которые, предположительно, являются векторами частот. Здесь рассматриваются ожидаемые значения элементов, равные E(Xi)=X.*(Xi+Yi)/(X.+Y.) и E(Yi)=Y.*(Xi+Yi)/(X.+Y.), а расстояние хи-квадрат имеет вид корня из соответствующего показателя .

  • Расстояние Фи-квадрат является расстоянием хи-квадрат, нормированным "числом объектов" в таблице сопряженности, представляемой строками X и Y, т.е. на корень квадратный из N=X.+Y. .

  • В иерархическом кластерном анализе в SPSS также имеется несколько видов расстояний для бинарных данных (векторы X и Y состоят из нулей и единиц, обозначающих наличие или отсутствие определенных свойств объектов). Наиболее естественными из них, по видимому, являются евклидово расстояние и его квадрат.

Результаты кластеризации сильно зависят от выбранного метода – алгоритма вычисления, меры близости между объектами и между кластерами. И эта зависимость тем сильнее, чем менее явно изучаемая совокупность разделяется на группы объектов. Поэтому результаты вычислительной кластеризации могут быть дискуссионными и часто они служат лишь подспорьем для содержательного анализа.

Стандартизация. Непосредственное использование переменных в анализе может привести к тому, что классификацию будут определять переменные, имеющие наибольший разброс значений. Поэтому применяются следующие виды стандартизации:

  • Z-стандартизация (Z-Scores). Из значений переменных вычитается их среднее и эти значения делятся на стандартное отклонение.

  • Разброс от -1 до 1. Линейным преобразованием переменных добиваются разброса значений от -1 до 1.

  • Разброс от 0 до 1. Линейным преобразованием переменных добиваются разброса значений от 0 до 1.

  • Максимум 1. Значения переменных делятся на их максимум.

  • Среднее 1. Значения переменных делятся на их среднее.

  • Стандартное отклонение 1. Значения переменных делятся на стандартное отклонение.

  • Кроме того, возможны преобразования самих расстояний, в частности, можно расстояния заменить их абсолютными значениями, это актуально для коэффициентов корреляции. Можно, также все расстояния преобразовать так, чтобы они изменялись от 0 до 1.

На практике интерпретация кластеров требует достаточно серьезной работы, изучения разнообразных характеристик объектов для точного описания типов объектов, которые составляют тот или иной класс. Кроме того, методы кластерного анализа не дают какого-либо сп-ба для проверки статистической гипотезы об адекватности полученных классификаций. Иногда результаты кластерного анализа можно обосновать с помощью метода дискриминантного анализа.

Процедура иерархического кластерного анализа хороша для малого числа объектов. Ее преимущество в том, что каждый объект можно, образно говоря, пощупать руками. Но эта процедура не годится для огромных социологических данных из-за трудоемкости агломеративного алгоритма и слишком большого размера и практической бессмысленности дендрограмм.

Описание принципов работы алгоритма K-means

Иерархические методы объединения, хотя и точны, но трудоёмки: на каждом шаге необходимо выстраивать дистанционную матрицу для всех текущих кластеров. Расчётное время растёт пропорционально третьей степени количества наблюдений, что при наличии нескольких тысяч наблюдений может утомить и серьёзные вычислительные машины.

Поэтому при наличии большого количества наблюдений применяют другие методы. Недостаток этих методов заключается в том, что здесь необходимо заранее задавать количество кластеров, а не так как в иерархическом анализе, получить это в качестве результата Эту проблему можно преодолеть проведением иерархического анализа со случайно отобранной выборкой наблюдений и, таким образом, определить оптимальное количество кластеров. Если количество кластеров указать предварительно, то появляется следующая проблема: определение начальных значений центров кластеров. Их также можно взять из предварительно проведённого иерархического анализа, в котором для каждого наблюдения рассчитывают средние значения переменных, использовавшихся при анализе.

Алгоритм заключается в следующем: выбирается заданное число k точек и на первом шаге эти точки рассматриваются как "центры" кластеров. Каждому кластеру соответствует один центр. Объекты распределяются по кластерам по такому принципу: каждый объект относится к кластеру с ближайшим к этому объекту центром. Таким образом, все объекты распределились по k кластерам.

Затем заново вычисляются центры этих кластеров, которыми после этого момента считаются покоординатные средние кластеров. После этого опять перераспределяются объекты. Вычисление центров и перераспределение объектов происходит до тех пор, пока центры не стабилизируются (кластерные центры не перестанут изменять свое положение).

Часто переменные, используемые в кластеризации, имеют разный диапазон изменений, так как измерены они в различных шкалах или просто из-за того, что характеризуют разные свойства объектов (например, рост и вес, килограммы и граммы). В этих условиях основное влияние на кластеризацию окажут переменные, имеющие большую дисперсию. Поэтому перед кластеризацией полезно стандартизовать переменные. К сожалению, в данной команде кластерного анализа средства стандартизации не предусмотрены непосредственно, как в процедуре иерархического кластерного анализа.

Говоря о допустимом уровне измерения для переменных, используемых при кластеризации необходимо помнить, команда использует только евклидово расстояние. Следовательно, корректные результаты при применении данного метода можно ожидать только при применении метрических переменных.

Интерпретация кластеров осуществляется на основе сравнения средних значений, выдаваемых процедурой, а также исследования сохраненной переменной средствами статистического пакета. Принципиально важным вопросом для понимания содержания полученных кластеров – групп респондентов - является то, на сколько действительно эти группы однородны.