
2.3. Методы анализа данных
В процессе анализа данных осуществляются следующие опера ций: расчет одномерного распределения признаков, построение группировок признаков, выявление зависимостей между признака ми. |При обработке данных прежде всего выявляют одномерные Распределения признаков (частоты появления различных значений
э тих признаков в полученном массиве данных). Например, в ходе
[47]
одного из массовых опросов 1993 г. было установлено, что полностью доверяли правительству 5% респондентов, в основном доверя ли 25%, не очень доверяли 36%, совсем не доверяли 25% (осталь ные затруднились ответить). На основе изучения этого распределе ния можно получить лишь предварительную информацию об отношении к правительству. Для всесторонней его оценки важно выяс нить специфику распределения ответов на указанный вопрос у представителей различных социальных групп, включенных в вы борку исследования: руководителей, специалистов, предпринимателей, военнослужащих, рабочих, учащихся, студентов, пенсионеров, безработных. Первым шагом на этом пути служит построение таблиц сопряженности (двумерных распределений) признаков. Анализ этих распределений обнаруживает, что руководители и служащие управленческого аппарата сильнее доверяют правительству, чем, например, рабочие, а среди последних преобладают люди, одно значно не доверяющие правительству. Это уже более точная харак теристика отношения населения к правительству. На основе дву мерных распределений признаков можно строить различные группировки опрошенных в соответствии с их социальными характе ристиками (профессия, квалификация, доход, образование и пр.). В итоге получаются простые и комбинированные таблицы данных, а также графики, диаграммы, гистограммы и др.
Однако все эти процедуры на самом деле представляют собой лишь подготовку к настоящему анализу данных. Главное в этом анализе — выявление зависимостей между признаками. Основны ми методами изучения зависимостей являются анализ статистичес ких таблиц, корреляционный, факторный, кластерный анализ и многомерное шкалирование.
Анализ статистических таблиц основан на оценке отсутст вия/наличия взаимосвязи признаков по критерию хи-квадрат [Ра бочая книга социолога, 194—195] и вычислении стандартизованныхостатков (величин, которые указывают на степень отклонения на блюдаемых частот от ожидаемых) [Сатаров Г.А. Структура полити ческих диспозиций россиян // Российский монитор. Архив совре менной политики. Вып. 1. 1992. С. 145]. Вычисление критерия хи-квадрат и стандартизованных остатков осуществляется с помощью пакета 8Р88 (опции: 8т.ат.1г.1с8\сго881аЪ$). Показателем наличия взаи мосвязи признаков служит значение критерия хи-квадрат, превы шающее табличное [Рабочая книга социолога, 507; Мангейм и Рич, 519] для соответствующего числа степеней свободы — ^(зна чение выдается 8Р85 в результатах (оигрш.) вместе со значением хи-квадрат) и уровня значимости. Принимаются во внимание аб солютные значения остатков, превышающие 1,65. Это служит ин-
[48]
дикатором существования значимой статистической зависимости между изучаемыми признаками. Знак «плюс» в стандартизованных остатках свидетельствует о том, что реальное количество наблюде ний больше ожидаемого, знак «минус» — о том, что оно меньше ожидаемого. Следует учитывать, что величина стандартизованных остатков указывает лишь на вероятность наличия линейной зависимости между изучаемыми переменными, но не на направление и интенсивность этой зависимости.
Рассмотрим особенности использования данной процедуры на примере анализа таблицы сопряженности альтернатив ответа на вопрос о возрасте респондентов и альтернатив ответа на вопрос о голосовании за избирательные объединения на парламентских вы борах 19 декабря 1999 г. (табл. 1).
Таблица 1 Взаимосвязь электоральных предпочтений и возраста респондентов
Объединение |
Величина |
Возраст респондента |
Всего | |||
18-34 |
35-44 |
45 и старше |
|
|
| |
«Единство» |
Наблюдаемая частота |
61 |
104 |
88 |
253 | |
Ожидаемая частота |
56,0 |
100,4 |
96,6 |
253,0 |
| |
Стандартизованный остаток |
+0,7 |
+0,4 |
-0,9 |
|
| |
ОВР |
Наблюдаемая частота |
11 |
34 |
17 |
62 | |
Ожидаемая частота |
13,7 |
24,6 |
23,7 |
62,0 |
| |
Стандартизованный остаток |
-0,7 |
+1,9 |
-1,4 |
|
| |
КПРФ |
Наблюдаемая частота |
6 |
38 |
90 |
134 | |
Ожидаемая частота |
29,7 |
53,2 |
51,2 |
134,0 |
| |
Стандартизованный остаток |
-4,3 |
-2,1 |
+5,4 |
|
| |
СПС |
Наблюдаемая частота |
53 |
59 |
37 |
149 | |
Ожидаемая частота |
33,0 |
59,1 |
56,9 |
149,0 |
| |
Стандартизованный остаток |
+3,5 |
0,0 |
-2,6 |
|
| |
«Яблоко» |
Наблюдаемая частота |
30 |
82 |
55 |
167 | |
Ожидаемая частота |
37,0 |
66,3 |
63,8 |
167,0 |
| |
Стандартизованный остаток |
-1,1 |
+1,9 |
-1,1 |
|
|
Источник: Опрос населения Санкт-Петербурга, проведенный ЦЭПИ СПбГУ в ноябре 2000 г. Таблица построена с помощью статистического пакета 8Р88.
[49]
Проверка взаимосвязи отобранных нами переменных по критерию хи-квадрат свидетельствует о ее наличии (наблюдаемое значение критерия хи-квадрат (116,158) выше табличного (45,315) для #=20 и уровня значимости 0,001). Анализ стандартизованных ос татков дает более сложную картину. Так, у «Единства» во всех возрастных группах зафиксированы статистически незначимые величины стандартизованных остатков. На этой основе можно сделать вывод о том, что в данном исследовании связь между возрастом и голосованием за «Единство» не наблюдается. У КПРФ и СПС зафиксирована диаметрально противоположная картина: в группе от 18 до 34 лет стандартизованные остатки составляют: у КПРФ -4,3, а у СПС +3,5. В группе 45 и старше: +5,4 и -2,6 соответственно. Это означает, что в младшей возрастной группе намного меньше, чем в старшей, тех, кто голосовал за КПРФ, и намного больше тех, кто голосовал за СПС. Голосование за ОВР и «Яблоко» в младшей и старшей возрастных группах характеризуется практическим отсутствием статистически значимых различий. За эти пар тии в основном голосовали представители средней возрастной группы (величина остатков составляет в обоих случаях +1,9).
Результаты анализа статистических таблиц дают возможность сформулировать гипотезы относительно взаимосвязи признаков изучаемого явления, нуждающихся в дополнительной проверке с помощью статистических методов, о которых пойдет речь далее.
Корреляционный анализ основан на расчете отклонения значений изучаемого признака от линии регрессии (от лат. гееге88ю — воз врат, в данном случае — возврат к средней) — условной линии, к которой эти значения тяготеют. Чем больше разброс значений, тем слабее связь двух интересующих нас признаков. Чем меньше разброс значений, тем сильнее связь (рис.1).
[50]
Корреляция (от лат. согге1атло — соотношение) — это статисти- I ческая взаимозависимость между признаками изучаемого явления. Корреляционный анализ представляет собой математическую процедуру, с помощью которой изучается эта взаимозависимость. Он заключается в вычислении коэффициентов корреляции — чисел, знак и величина которых характеризуют направление (прямая/об ратная) и интенсивность/тесноту (строгая, сильная, умеренная, слабая, нулевая) взаимозависимости. Показателем интенсивности связи служит значение коэффициента. Считается, что если он равен 1, то взаимозависимость признаков является строгой (пол ной); если его значение находится в интервале от 1 до 0,8, то это свидетельствует о сильной их взаимозависимости; если в интервале от 0,7 до 0,3 — об умеренной (неярко выраженной) взаимозависимости, а если же оно лежит в интервале от 0,2 до 0,0, то мы имеем дело со слабой или нулевой взаимозависимостью [Кимбл, 174—178; Тюрин и Макаров, 289]. Есть мнение, что в социологических исследованиях значения коэффициентов корреляции выше 0,5 встре чаются не очень часто, поэтому можно принимать во внимание те из них, которые равны или превышают 0,3 [Статистические мето ды анализа информации..., 97], т. е. характеризуют умеренную вза имосвязь признаков.
Следует отметить, что коэффициенты корреляции выражают не / причинную (обусловленность одного признака другим), а функцио-1 налъную (взаимная согласованность изменения признаков) зависимость между признаками [Рабочая книга социолога, 198]. Различают парную (между двумя признаками) и множественную (между несколькими признаками) корреляции.
Для изучения взаимосвязи признаков, измеренных с помощью различных типов шкал, используются разные коэффициенты кор реляции. На порядковом уровне измерения признаков наиболее широко применяется коэффициент ранговой корреляции Спирме- на, на интервальном уровне обычно используется коэффициент корреляции Пирсона. Коэффициент Спирмена равен +1, когда два ряда проранжированы строго в одном порядке, -1, когда два ряда проранжированы в строго обратном порядке, и равен нулю при полном взаимном беспорядочном расположении рангов.
Коэффициент корреляции Пирсона равен +1 при строгой (полной) прямой взаимозависимости двух признаков (увеличе ние/уменьшение значений одного признака сопровождается увели чением/уменьшением значений второго признака). Он равен -1 при строгой (полной) обратной взаимозависимости (увеличе ние/уменьшение значений одного признака сопровождается умень-
[51]
шением/увеличением значений второго признака). Наконец, вели чина этого коэффициента равна нулю при отсутствии взаимозависимости признаков. Об интерпретации значений коэффициентов корреляции, отличных от 1 и 0, говорилось в начале этого параграфа.
В качестве примера корреляционного анализа можно привести статью А. Ослона и Е. Петренко «Факторы электорального поведе ния: от опросов к моделям» (Вопросы социологии. 1994. № 5. С. 7—9). Авторы провели анализ связей между голосованием опреде ленных групп избирателей за разные партии и блоки на базе все российского опроса ФОМ (декабрь 1993 г.). В данной статье при водятся значения парных коэффициентов корреляции Пирсона для основных политических партий и блоков (табл. 2).
Таблица 2 Взаимосвязь голосования за различные партии и блоки
Партия, блок |
КПРФ |
«Выбор России» |
«Яблоко» |
ЛДПР |
КПРФ |
1,0 |
-0,57 |
-0,32 |
+ 0,08 |
«Выбор России» |
-0,57 |
1,0 |
+ 0,36 |
-0,53 |
«Яблоко» |
-0,32 |
+ 0,36 |
1,0 |
-0,63 |
ЛДПР |
+ 0,08 |
-0,53 |
-0,63 |
1,0 |
Авторы отмечают, что высокие значения (больше 0, 4) коэффи циента корреляции свидетельствуют о наличии линейной связи между голосованием за сравниваемые партии и блоки. Знак «минус» означает, что чем больше голосов определенная группа избирателей отдает за одну из сравниваемых партий, например за «Яблоко», тем меньше она отдает голосов за другую, например за ЛДПР (г = - 0,63). Знак «плюс» означает, что чем больше голосов группа избирателей отдает одной партии, например «Выбору Рос сии», тем больше она отдает голосов и другой сравниваемой пар тии, например «Яблоку» (г = +0,36). Значения г < 0,4 свидетельст вуют лишь о слабой выраженности линейной связи между голосова нием за разные партии, но это не исключает наличия другой формы связи (нелинейной).
В статье подчеркивается, что сам факт положительной или отрицательной корреляции говорит только о возможном механизме перераспределения голосов избирателей между партиями и блока ми, а не о сходстве или различии их политических позиций. Эти наблюдения в определенной мере подтверждаются результатами корреляционного анализа голосования за партии и блоки по ито-
[52]
гам парламентских выборов 1995 г., проведенного А.Е. Любаревым [Любарев А.Е. Корреляционный анализ результатов парламентских выборов 1995 года // Политические исследования. 1996. N° 5. С. 117—129]. Автором статьи были получены значения коэффици ентов корреляции, приведенные в табл. 3.
Таблица 3 Взаимосвязь голосования за различные партии и блоки
Партия, блок |
КПРФ |
ДВР |
«Яблоко» |
ЛДПР |
КПРФ |
1,0 |
-0,34 |
-0,45 |
+ 0,15 |
ДВР |
-0,34 |
1,0 |
+ 0,67 |
-0,60 |
«Яблоко» |
-0,45 |
+ 0,67 |
1,0 |
-0,48 |
ЛДПР |
+ 0,15 |
-0,60 |
-0,48 |
1,0 |
Как правило, на признаки изучаемого явления влияет множест во причин, поэтому для выявления полной картины недостаточно только анализа парных корреляций, нужна группировка этих корреляций и выявление на этой основе комплексов скрытых (латент ных) переменных, которые называются факторами (рис. 2).
Переменные П1 П2 ПЗ П4 П5 П6 П7 П8 П9
Факторы Ф1 Ф2
Рис. 2. Графическая структура факторного анализа
Необходимость факторного анализа обусловлена тем, что мы не можем воспринимать большое число сопоставляемых пар призна ков и вынуждены прибегать к помощи вычислительной техники. Факторный анализ основан на измерении доли влияния каждого из выделенных нами комплексов (независимых) переменных на изме нение изучаемых признаков явления (зависимых переменных) и обнаружениипричинной обусловленности этих изменений. Факторы выражают внутренние (скрытые) свойства системы переменных, характеризующих изучаемое явление.
Исходной информацией факторного анализа служит матрица \ (система чисел, размещенных в прямоугольной таблице в виде п столбцов и т строк) парных коэффициентов корреляции [Харман, 33] всех отобранных нами переменных. На основе матрицы выяв-
[53]
ляются скопления переменных, тесно связанных друг с другом и слабо связанных с переменными, входящими в другие скопления. Эти скопления переменных образуют факторы (рис. 3).
Первый фактор (горизонтальная ось графика) образуют переменные, характеризующие ориентации на коммунизм или либерализм. Второй фактор (вертикальная ось графика) образуют ориен тации на власть или оппозицию. Следует учесть, что данная струк тура существовала в сознании населения Санкт-Петербурга на момент опроса (ноябрь 2000 г.). Со временем эта конфигурация пере менных может измениться.
Целью факторного анализа служит выявление так называемой простой структуры. Согласно Терстоуну, эта структура должна удовлетворять следующим условиям [Харман, 114]:
• В каждой строке факторной матрицы должно быть хотя бы одно нулевое значение (нулевыми считаются также значения, пер вый разряд которых начинается с 1).
• В каждом столбце факторной матрицы число нулевых значе ний должно быть не меньше числа факторов.
• В каждой паре столбцов должно быть несколько переменных, которые имеют значения, равные нулю в одном из столбцов и не равные нулю — в другом.
• В каждой паре столбцов имеется мало переменных, значения которых в обоих из них отличны от нуля.
[54]
В качестве примера такой структуры можно привести результаты факторного анализа данных упомянутого выше опроса населения Санкт-Петербурга (табл. 4).
Таблица 4 Примерный вид «простой структуры»*
Переменные |
Компоненты | |||
1 |
2 |
3 |
4 |
|
Коммунистические |
+0,771 |
-0,411 |
+0,310 |
-0,192 |
Либеральные |
-0,202 |
+0,796 |
-0,473 |
0,000 |
Взгляды Зюганова |
+0,731 |
-0,337 |
+0,412 |
-0,142 |
Взгляды Путина |
+0,434 |
0,000 |
+0,721 |
-0,398 |
Взгляды Хакамады |
-0,477 |
+0,662 |
0,000 |
0,000 |
Взгляды Яковлева |
+0,275 |
-0,176 |
+0,795 |
+0,321 |
Взгляды Явлинского |
0,000 |
+0,866 |
0,000 |
+0,279 |
«Единство» |
-0,730 |
0,000 |
0,000 |
-0,174 |
«Отечество—Вся Россия» |
-0,106 |
- 0,601 |
- 0,708 |
0,000 |
КПРФ |
+0,872 |
-0,210 |
0,000 |
-0,376 |
СПС |
-0,627 |
+0,679 |
+0,237 |
+0,104 |
«Яблоко» |
+0,452 |
+0,132 |
-0,754 |
+0,379 |
* В таблицу включены переменные, характеризующие приверженность взглядам и голосование за избирательные объединения на парламентских выборах 19 декабря 1999 г. Анализ выполнен с помощью пакета 8Р85, методом главных компонент.
Переменные для факторного анализа отбираются в соответствии с определенными критериями. Считается, что эти переменные должны быть измерены с помощью интервальной шкалы [Факторный, дискриминантный и кластерный анализ, 63]. Для порядковых переменных не существует факторных моделей, поскольку операции сложения для них невозможны. Надо иметь в виду, что в дан ном случае «допускается лишьэвристическое использование таких моделей без статистической интерпретации резулътатов»(курсш мой. — ТА.) [Там же]. Это значит, что можно подвергать факторному анализу переменные, измеренные с помощью порядковых шкал, однако в данном случае нельзя оперировать собственными значениями факторов и определять более и менее значимые факторы.
[55]
На порядковом уровне с помощью факторного анализа можно лишь устанавливать кластерную структуру переменных [Там же, 65]. Часто предполагается, что порядковым переменным можно присваивать числовые значения, не нарушая их внутренних свойств. Например, можно присвоить числовые значения 5, 4, 3, 2, 1 позициям порядковой шкалы: целиком согласен, согласен, безразличен, не согласен, полностью не согласен. «Если искажения корреляций, вносимые при шкалировании порядковых переменных, не слишком велики, вполне законно использовать эти переменные в качестве числовых» [Там же, 63]. В отечественной социологии такие случаи встречаются довольно часто. Считается, что если основой факторного анализа служит матрица корреляций, а данные, полученные на порядковых шкалах, позволяют подсчи тывать коэффициенты корреляции, то это дает право использовать факторный анализ, но с учетом отмеченного выше ограничения — недопустимости статистической интерпретации собственных значе ний выделенных факторов. Здесь приходится ограничиваться лишь выявлением распределения переменных по скоплениям (кластерам).
Существует множество методов факторного анализа. Наиболее часто используется метод главных компонент. В нем факторы являются линейными функциями от наблюдаемых переменных. Зада ча в данном случае заключается не в объяснении корреляций между переменными, а в объяснении доли каждого скопления независимых переменных в дисперсии (отклонении от средней) ин тересующей нас зависимой переменной. В процессе факторного анализа определенная последовательность наблюдаемых перемен ных преобразуется в другую последовательность. Сначала вычисля ются парные коэффициенты корреляции между переменными и строится корреляционная матрица, которая образует основу факторного анализа. Затем последовательно строится матрица компо нент. При двухфакторном анализе первая компонента определяет ся таким образом, чтобы в ней содержалась максимальная доля дисперсии изучаемой переменной. Вторая компонента определяет ся аналогичным образом, но ее ось должна располагаться перпендикулярно первой. Выделенные компоненты должны объяснять не менее 50% суммарной дисперсии изучаемой переменной (напри мер, мотивации голосования за определенного кандидата в президенты). При трехфакторном анализе принцип определения главных компонент тот же самый, что и при двухфакторном: ось второй компоненты располагается перпендикулярно первой, ось третьей компоненты — перпендикулярно двум первым (рис. 4). Анализ проведен с помощью пакета 8Р88.
[56]
Число переменных, отобранных для факторного анализа, долж но превышать число факторов не менее, чем в два раза. В каждом факторе должно быть не менее трех переменных с максимальными значениями коэффициентов [Факторный, регрессионный и кластерный анализ, 28, 67].
На первом этапе анализа определяется минимальное число фак торов, адекватно воспроизводящих наблюдаемые корреляции. После этого осуществляется процедура вращения, с помощью кото рой устанавливаются легко интерпретируемые факторы. Графичес кий способ вращения заключается в проведении новых осей, кото рые обеспечивают воспроизводство вышеупомянутой простой структуры. Если после вращения обнаруживаются скопления точек (значений переменных), явно отделенных друг от друга, то это оз начает, что нам удалось провести оси через эти скопления.
Аналитический способ вращения осуществляется на основе оп ределенного объективного критерия. Этот способ включает два вида вращения: ортогональное и косоугольное. Наиболее часто используется ортогональное вращение с помощью метода варимакс (поиск максимальных значений 1-го фактора). Метод основан на Упрощении описания столбцов факторной матрицы, в результате него достигается лучшее разделение факторов (четче выделяется главный фактор). Целью любого способа вращения является полу-
[57]
чение наиболее простой факторной структуры, которая легче поддается содержательной интерпретации.
Число факторов определяется с помощью различных критериев:
1. Критерий собственных чисел: отбираются факторы с собст венными числами, превышающими 1, остальные не принимаютсяво внимание.
• Критерий воспроизводимой дисперсии: обычно отбирают факторы, объясняющие 50 — 60% общей дисперсии изучаемой переменной.
• Критерий отсеивания: на графическом изображении собственных чисел корреляционной матрицы заканчивают отбор на том факторе, после которого кривая принимает вид, близкий к горизонтальному (рис. 5).
[58]
Знаки «плюс» и «минус» факторных значений интерпретируют ся как увеличение или уменьшение значения переменной, т.е. про сто как разные направления. «Знак факторных нагрузок сам по себе не имеет внутреннего содержания и не несет информации о зависимости между переменной и фактором. Однако стоит сопо ставлять знаки разных переменных при одном факторе» [Фактор ный, дискриминантный и кластерный анализ, 67]. Факторные на грузки меньше 0,3 считаются несущественными [Там же, 60]. Ин терпретация факторов сводится к анализу величины и знаков на грузок. Рассмотрим эту процедуру на примере приведенного выше двухфакторного решения (см. рис. 3). Два вьщеленных фактора объясняют 61% дисперсии и включают переменные, указанные в табл. 5.
Таблица 5 Значения переменных после вращения*
Переменные |
Факторы | |
1 |
2 |
|
Взгляды Зюганова |
- 0,823 |
+0,368 |
Взгляды Пугина |
- 0,454 |
+0,777 |
Взгляды Хакамады |
+0,776 |
+0,202 |
Взгляды Яковлева |
-0,340 |
+0,679 |
Взгляды Явлинского |
+0,627 |
+0,261 |
«Единство» |
+0,443 |
-0,151 |
«Отечество—Вся Россия» |
- 0,232 |
- 0,872 |
КПРФ |
-0,842 |
0,000 |
СПС |
+0,884 |
+0,366 |
«Яблоко» |
0,000 |
-0,642 |
Коммунистические взгляды |
-0,898 |
+0,258 |
Социал-демократические взгляды |
+0,427 |
0,000 |
Либеральные взгляды |
+0,708 |
-0,187 |
* Матрица получена методом главных компонент в пакете SPSS .
Выпишем наибольшие значения переменных по выделенным факторам. Фактор 1: отрицательное направление (взгляды Зюгано ва, коммунистические взгляды, КПРФ), положительное направление (взгляды Хакамады, либеральные, СПС). Фактор 2: отрица тельное направление (ОВР, «Яблоко»), положительное направление (взгляды Путина, Яковлева). Содержание первого фактора состав-
[59]
ляет идеологический раскол (коммунисты — либералы), содержание второго фактора — политический раскол (власть — оппози ция). При интерпретации этих данных следует учитывать, что пе тербургские сторонники ОВР и «Яблока» в основном голосовали против Путина на президентских выборах 2000 г., а само петер бургское отделение «Яблока» (Региональная партия центра) нахо дилось в оппозиции губернатору Яковлеву. Эти расколы определя ли политическое поведение населения Санкт-Петербурга в 2000 г. (факторный анализ осуществлен на основе данных общегородского опроса, проведенного ЦЭПИ СПбГУ в ноябре 2000 г.). \Кластерный анализ (от англ. с1и$1ег — пучок, группа) — это про цедура, позволяющая классифицировать различные объекты. С его помощью можно разбить респондентов на группы, сходные по ряду признаков. На дендрограмме «дерева признаков» признаки соединяются линиями, образуя отдельные пучки («ветви»), связан ные с другими пучками («ветвями»). Эти пучки и называют клас терами. Чем короче линия, связьшающая переменные, тем ближе они находятся в пространстве признаков. В процессе кластериза ции происходит объединение сходных объектов во все более слож ные группы («разветвление»). Кластерный анализ представляет собой разновидность многомерной статистической процедуры, упорядочивающей объекты в относительно однородные группы. Переменные для кластерного анализа выбираются в соответствии с теорией (концепции, гипотезы), которая лежит в основе классифи кации [Факторный, дискриминантный, кластерный анализ, 153]. Перед началом анализа они должны быть преобразованы в бино минальные, принимающие значение «1» при наличии признака и «0» при его отсутствии. В статистическом пакете SPSS эта опера ция осуществляется в опции: 1гап$Гогт\гесоде. Кроме того, из ана лиза следует исключить альтернативы: «затрудняюсь ответить», «другое» и пр.
Важную роль в кластерном анализе играют «меры сходства». Наиболее часто в качестве такой меры употребляется коэффициент корреляции Пирсона, первоначально использовавшийся для опре деления зависимости переменных. Кластеры обладают рядом свойств, среди которых наиболее важными являются плотность, дисперсия, форма, отдельность. Плотность — это близость отдель ных точек скопления, позволяющая отличать его от других областей многомерного пространства, содержащих либо мало точек, либо не содержащих их совсем. Дисперсия характеризует степень рассеяния точек в пространстве относительно центра кластера. От дельность характеризует взаимное расположение скоплений точек в пространстве [Там же, 165—166]. Кластеры можно рассматривать
[60]
как «непрерывные области пространства с относительно высокой плотностью точек, отделенные от других таких же областей облас тями с относительно низкой плотностью точек» [Там же, 166].
Наиболее известными методами кластерного анализы являются методы одиночной, полной и средней связи, а также метод Уорда [Там же, 191]. Метод Уорда (\УагсР8 те1под) позволяет создавать кластеры приблизительно равных размеров [Там же, 171]. Он сна чала объединяет самые близкие объекты, затем к уже образован ным кластерам присоединяются сходные с ними объекты. Мерой сходства в данном случае является 1 — коэффициент корреляции Пирсона.
На основе анализа содержания переменных, входящих в отдельные кластеры, строится группировка респондентов по признакам, включенным в процесс кластеризации. Рассмотрим эту процедуру на примере (рис. 6)*