Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Социология. Энциклопедия.doc
Скачиваний:
42
Добавлен:
09.11.2019
Размер:
8.42 Mб
Скачать

Св. Воробьёва

АНАЛИЗ КЛАСТЕРНЫЙ (автоматическая классификация, таксономия, распознавание образов) - совокупность многомерных статистических методов, предназначенных для исследования структуры некоторой совокупности объектов, переменных или других единиц анализа.

Анализ структуры объектов, т.е. разделение их на классы (кластеры - см.), производится на основе матрицы расстояний - квадратной таблицы, в которой представлены расстояния между всеми возможными парами объектов в многомерном пространстве переменных. Выбор мер расстояния зависит от типа измерительных шкал; наиболее просто он определяется, если все признаки измерены с помощью однотипных шкал -количественных, порядковых или дихотомических. Для некоррелированных количественных и порядковых переменных обычно используется расстояние Евклида, для коррелированных - расстояние Махалонобиса; для дихотомических шкал -расстояние Хемминга (city-block). Иногда вместо мер расстояния используются меры сходства или подобия объектов.

Алгоритмы А.К. можно разделить на иерархические, неиерархические и методы классификации "с обучением". Иерархические методы предполагают последовательное объединение объектов в кластеры по степени их близости друг к другу или, напротив, последовательное разбиение совокупности объектов на все более мелкие кластеры. В этом случае кластерное решение представляет собой иерархическую структуру вложенных друг в друга кластеров. Неиерархические методы позволяют находить и идентифицировать "сгущения" объектов в пространстве переменных. Кластеризация "с обучением" предполагает, что количество классов известно заранее, и имеется обучающая выборка - набор объектов, для которых известно, к каким классам они принадлежат. Остальные объекты классифицируются по степени их близости к объектам из выборки обучающей (см.).

Результаты А.К. чаще всего представляются графически, в виде дендрограммы ("дерева"), показывающей порядок объединения объектов в кластеры. Интерпретация кластерной структуры, которая во многих случаях начинается с определения числа кластеров, является творческой задачей. Для того, чтобы она могла быть эффективно решена, исследователь должен располагать достаточной информацией о кластеризуемых объектах. При кластеризации "с обучением" результаты могут быть представлены в виде списков объектов, отнесенных к каждому классу.

Основными преимуществами А.К. являются отсутствие ограничений на распределение переменных, используемых в анализе; возможность классификации (кластеризации) даже в

37

тех случаях, когда нет никакой априорной информации о количестве и характере классов; универсальность (кластерный анализ может применяться не только к совокупностям объектов, но также к наборам переменных или любых других единиц анализа).

О. В. Терещенко

АНАЛИЗ КОРРЕЛЯЦИОННЫЙ - группа методов, предназначенных для исследования корреляции (см.) между переменными (см.). Корреляционная связь не предполагает причинной зависимости между переменными, но А.К. может использоваться для анализа тесноты и направления связи и в причинных моделях. Инструментами А.К. являются разнообразные меры связи (см.). Выбор мер (коэффициентов) связи зависит от способов измерения переменных и характера связи между ними.

Для количественных, порядковых и дихотомических переменных используются понятия прямой и обратной связи. Связь между количественными и/или порядковыми переменными является прямой, если значения двух переменных одновременно возрастают или убывают; обратной - если возрастание значений одной переменной сопровождается убыванием значений второй.

Для дихотомических переменных связь является прямой, если измеряемые ими свойства объектов чаще встречаются или не встречаются одновременно, чем порознь; обратной -если соответствующие свойства чаще встречаются порознь.

Для номинальных переменных, за исключением дихотомических, понятия прямой и обратной связи не определены, связь между ними рассматривается как ненаправленная.

Отдельную методологическую проблему представляет так называемая ложная корреляция, проявляющаяся в корреляционной связи (иногда достаточно сильной) между переменными, которые заведомо не могут взаимно обусловливать друг друга. Причиной ложной корреляции обычно является наличие некого неучтенного в анализе фактора, который влияет на каждую из исследуемых переменных и, тем самым, порождает "корреляцию" между ними. Например, широко известный артефакт корреляции сорта губной помады с политическими убеждениями женщины объясняется ее общественным положением и уровнем благосостояния. Ложные корреляции, так же, как вызывающие их факторы, могут быть выявлены только в результате глубокого теоретического анализа структуры связей между переменными. Для их устранения применяется аппарат коэффициентов частной корреляции (см.).