Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Попова. Методика и техника эмперических политич...doc
Скачиваний:
5
Добавлен:
01.03.2025
Размер:
2.81 Mб
Скачать

13. Статистический анализ

13.1. Корреляционный анализ

Выделяют несколько видов связи между переменными:

корреляционную зависимость (рис.12), которая предполагает вза­имную согласованность изменений переменных величин, а также то, что эти изменения можно измерить однократно или многократно;

Рис. 12. Корреляционная зависимость переменных.

функциональное воздействие (рис.13), предполагающее, что из­менения независимой переменной сопровождаются все ускоряющими­ся изменениями зависимой переменной;

Рис. 13. Функциональное воздействие.

функциональную зависимость – связь переменных, означающая, что изменение одной переменной оказывает воздействие на изменение другой переменной, которая, в свою очередь, воздействует на первую переменную, т. е. это связи взаимодействия.

Корреляционный анализ применяется для выяснения взаимодей­ствия и тенденций изменения характеристик изучаемого явления. Осуществляется с помощью сравнения и сопоставления рядов распре­деления, построенных на основании группировок по различным при­знакам. Корреляция – наличие статистической взаимосвязи призна­ков, когда каждому определенному значению одного признака X соот­ветствует определенное значение Y (или комплекс значений Y-ряда распределения). Корреляционный анализ выясняет функциональную зависимость между переменными величинами, которая характеризует­ся тем, что каждому значению одной из них соответствует вполне оп­ределенное значение другой. [c.123]

Различают парную и множественную корреляции. Парная корре­ляция характеризует тип, форму и плотность связи между двумя при­знаками, множественная – между несколькими.

Корреляционная зависимость возникает чаще всего там, где одно явление находится под воздействием большого числа факторов, дейст­вующих с разной силой, поэтому существуют специальные меры кор­реляционной связи, называемые коэффициентами корреляции. Коэф­фициенты (в статистике их общее количество исчисляется десятками) показывают степень зависимости одного социального явления от дру­гого (плотность корреляционной связи). Чем выше коэффициент кор­реляции между двумя переменными, тем точнее можно предсказать значения одной из них по значениям другой.

Коэффициент корреляции не содержит информации о том, явля­ется ли данная связь между ними причинно-следственной или сопут­ствующей (порожденной общей причиной). Этот вопрос исследователь должен решать самостоятельно на основе содержательных представ­лений о структуре, динамике изучаемых социальных объектов, корре­ляций между изучаемыми признаками. Но величина коэффициента позволяет оценить плотность связи как меньшую (незначимую) или большую. По знаку коэффициента корреляции для порядковых рядов мы можем сказать, является ли эта связь прямой или обратной (для номинальных рядов знак коэффициента не несет смысловой нагрузки).

Для установления корреляционной связи между двумя признака­ми необходимо доказать, что все другие переменные не оказывают воздействия на отношения двух переменных, являющихся предметом изучения. В противном случае возникает ситуация ложной корреляции. Например, американские социологи по результатам статистиче­ских данных за 1870–1910 гг. установили связь между зарплатой учи­телей и потреблением вин в США. Аналогичный случай – вывод о связи цвета кожи негров и уровнем преступности среди представите­лей этой этнической группы. Секрет возникновения ложной корреля­ции заключается в том, что у двух явлений есть общая причина, в рав­ной степени влияющая на них. В первом случае экономический подъ­ем позволил государственной структурам поднять заработную плату учителям, одновременно улучшив структуру потребления населения в целом, что позволило им «маленькие слабости». Более высокая пре­ступность в негритянской среде связана не с цветом кожи, а с разли­чиями в качестве жизни англосаксов и негров.

Для выяснения факторов, определяющих причинно-следственную связь между переменными, прибегают к пат-анализу. Чтобы избежать [c.124] ошибки в ситуации ложной корреляции используют анализ взаимосвя­зи двух переменных с помощью контрольного (опосредующего) фак­тора. Итак, корреляционный анализ позволяет отбросить несущест­вующие или несущественные связи. Следовательно, необходимы спе­циальные знания статистических расчетов. Операции по расчету ко­эффициентов корреляции осуществляют программы PC, но необходи­мо иметь хотя бы представление об элементарных процедурах анализа. Корреляционному анализу предшествует стадия расчета статистики . Она может быть применена по отношению к любому типу рядов и позволяет проверить нулевую гипотезу ( ) о наличии связи между двумя рядами признаков. Нулевая гипотеза – утверждение, отрицающее зависимость между рядами переменных. Доказательство ее ложности свидетельствует о том, что связь между переменными существует. Статистика не дает никакой информации о плотности и характере связи между признаками. Например, нам необходимо выяснить, существует ли зависимость между полом респондентов и их электоральной активностью. Для этого сначала составляют таблицу с данными опроса (табл. 8).

Таблица 8

Электоральная активность в зависимости от гендерного признака

Респонденты

Участие в выборах

Итого

Участвую практически всегда

На выборы не хожу

Участвую в выборах время от времени

Мужчины

80 (a)

200 (б)

200 (в)

480

Женщины

370 (г)

50 (д)

100 (e)

520

Итого

450

250

300

1000

Затем строят дополнительную таблицу ожидаемой (теоретической) частоты. Для заполнения ее ячеек произведение соответствую­щих маргинальных частот делят на общее число респондентов. Эта таблица будет иметь следующий вид (табл. 9):

Таблица 9

Таблица ожидаемой частоты

Респонденты

Участие в выборах

Итого

Участвую практически всегда

На выборы не хожу

Участвую в выборах время от времени

Мужчины

216 (a)

120 (б)

144 (в)

480

Женщины

234 (г)

130 (д)

156 (e)

520

Итого

450

250

300

1000

[c.125]

Величину вычисляют по формуле

На практике используют вспомогательную таблицу (табл. 10).

Таблица 10

Схема вычисления статистики

Ячейка

Частота

Ожидаемая частота

Разность реальной и ожидаемой частот

Квадрат разности реальной и ожидаемых частот

Отношение квадрата разности реальных и ожидаемой частоты к соответствующему значению ожидаемой частоты

а

80

216

-136

18496

85,63

б

200

120

80

6400

53,33

в

200

144

56

3136

21,78

г

370

234

136

18496

79,04

д

50

130

-180

32400

249,23

е

100

156

-56

3136

20,10

Σ

1000

1000

=509,11

Далее полученное значение необходимо сравнить с табличным критическим значением . Для этого нам необходимо определить так называемые степени свободы ( ) для нашей таблицы:

где r и с – количество категорий в колонке и строке (без учета марги­нальных значений). Для нашего примера .

Другая необходимая величина – уровень статистической зна­чимости. Он показывает, насколько вероятна связь, зафиксированная между двумя признаками в выборке. В социальных исследованиях эту величину (а) принимают равной 0,05, реже – 0,01. В таблице крити­ческих значений для распределения находим нужное значение.

Для нашего примера при , а значение критического равно 5,991. Это число значительно меньше расчетного для нашего случая. Следовательно, мы должны отвергнуть нулевую гипотезу об отсутствии связи между полом респондентов и их электоральной ак­тивностью. Но мы ничего на основании полученного значения стати­стики не можем сказать о плотности связи анализируемых пере­менных. Для решения такой задачи необходимо обратиться к коэффи­циентам корреляционной связи. [c.126]

Если при описании социального объекта определяется лишь на­личие или отсутствие признака или если изучается связь между аль­тернативными признаками, то корреляционные таблицы (таблицы со­пряженного признака) – 4-клеточные. В этом случае применяются коэффициенты Юла (Q) и коэффициент контингенции (Ф). Они осно­ваны на принципе совместного появления событий (значений призна­ков у объекта исследования) и пригодны для анализа любых признаков (метрических, порядковых и даже номинальных).

Коэффициент Юла (Q):

При Q = 0 связи между двумя признаками нет, при Q = 0,59 сущест­вует неустойчивая связь, при Q1, корреляция между парой призна­ков полная. При Q = 1 связь прямая, при Q<0 связь между характери­стиками обратная. При Q = 1 имеет место односторонняя зависимость. Если 0,5 < Q < 1, то связь считается достаточно тесной. Коэффициент Юла – показатель односторонней связи. Для измерения двусторонней зависимости используют коэффициент контингенции (Ф). При этом Ф всегда ≤ Q Если Ф значительно меньше Q, то связь односторонняя:

Рассмотрим следующий учебный пример. Допустим, были опро­шены 100 респондентов, имеющих различные доходы (переменная X) и высказавших различное отношение к ситуации в стране (перемен­ная Y) (табл.11).

Таблица 11

Таблица распределения ответов респондентов об уровне их доходов и удовлетворенностью ситуацией в стране

Уровень дохода респондентов ( )

Отношение к ситуации в стране ( )

N( )

Удовлетворены ситуацией ( )

Не удовлетворены ситуацией ( )

Высокий доход ( )

20 (а)

0 (b)

20

Низкий доход ( )

30 (d)

50 (с)

80

N( )

50

50

100

[c.127]

Для нашего примера . Коэффициент контингенции в этом случае равен

Следовательно, в нашем примере зависимость двусторонняя.

В случае если номинальные шкалы имеют большее число значе­ний, чем два, то для определения зависимости между признаками пользуются коэффициентами сопряженности Пирсона (Р), Чупрова (T) и Крамера (К). При этом определенное значение имеет размерность таблицы c на k, в которой отображены значения двух признаков. Коэффициенты Чупрова и Крамера считаются более «строгими», чем коэффициент Пирсона. Но поскольку вычисления в них строятся с учетом статистики , то все связанные с ней ограничения распро­страняются и на эти коэффициенты:

при полной независимости признака;

При изучении относительной интенсивности свойств (ранжирова­нии) для анализа связей используют коэффициенты ранговой корреляции. Эффективно используется он при анализе распределений социо­логической информации, полученной при помощи ранговой шкалы. Коэффициент ранговой корреляции основан на принципе ковариации, т. е. согласованности изменения свойств признака. Он может применяться для метрических и порядковых признаков. Один из наиболее употребимых коэффициентов ранговой корреляции – ранговый коэффициент Спирмена (Великобритания, 1904 г.): [c.128]

где d – разность между рангами (порядковыми номерами) каждой сопоставляемой пары; N–число сопоставляемых пар рангов; – сумма квадратов d.

Цель использования коэффициента ранговой корреляции заключается в выявлении сходства распределения ответов двух групп опрашиваемых на один и тот же вопрос. При этом варианты ответа на этот вопрос представляют собой ранговую шкалу. Параметры коэффициен­та: . При порядок распределения ответов по двум оп­рашиваемым группам прямо противоположен, а при он полностью совпадает.

Этот коэффициент удобен для сравнения данных анкетного опро­са и данных контент-анализа, например при изучении эффективности деятельности СМИ. Коэффициент ранговой корреляции р выявляет степень идентичности распределения ответов двух сравниваемых групп (например, социальных слоев) или изменения во времени стати­стических данных по различным территориальным образованиям.

Для решения аналогичных задач также можно использовать ко­эффициент ранговой корреляции Кендалла ( ). Множественный коэф­фициент корреляции (W) применяется для оценки согласованности двух или нескольких рядов ранжированных значений переменных.

13.2. Регрессионный анализ

Регрессионный анализ дает возможность предсказать значения одной или нескольких переменных в зависимости от другой перемен­ной (например, склонность к неконвенциональному политическому поведению в зависимости от уровня образования) или нескольких пе­ременных. Рассчитывается на PC. Для составления регрессионного уравнения, позволяющего измерить степень зависимости контроли­руемого признака от факторных, необходимо привлечь профессио­нальных математиков-программистов. Регрессионный анализ может оказать неоценимую услугу при построении прогностических моделей развития политической ситуации, оценки причин социальной напря­женности, при проведении теоретических экспериментов. Регрессион­ный анализ активно используется для изучения влияния на электо­ральное поведение граждан ряда социально-демографических параметров [c.129]: пола, возраста, профессии, места проживания, национально­сти, уровня и характера доходов.

Регрессионный анализ связан с необходимостью выбора взаимно независимых переменных, определяющих значения исследуемого по­казателя, определения формы уравнения регрессии, оценки параметров при помощи статистических методов обработки первичных социоло­гических данных. В основе этого вида анализа лежит представление о форме, направлении и тесноте (плотности) взаимосвязи. Различают парную и множественную регрессию в зависимости от количества ис­следуемых признаков. На практике регрессионный анализ обычно вы­полняется совместно с корреляционным. Уравнение регрессии описы­вает числовое соотношение между величинами, выраженное в виде тенденции к возрастанию или убыванию одной переменной величины при возрастании или убывании другой. При этом различают линейную и нелинейную регрессии. При описании политических процессов в рав­ной степени обнаруживаются оба варианта регрессии.

Диаграмма рассеяния для распределения взаимозависимости ин­тереса к статьям на политические темы (Y) и образования респондентов (X) представляет собой линейную регрессию (рис. 14).

Рис. 14. Схема линейной регрессии.

Диаграмма рассеяния для распределения уровня электоральной активности (Y) и возраста респондента (X) (условный пример) пред­ставляет собой нелинейную регрессию (рис. 15).

Рис. 15. Схема нелинейной регрессии.[c.130]

Для описания взаимосвязи двух признаков (X и Y) в модели пар­ной регрессии используют линейное уравнение:

где – случайная величина погрешности уравнения при вариации признаков, т.е. отклонение уравнения от «линейности».

Для оценки коэффициентов а и b используют метод наименьших квадратов, предполагающий, что сумма квадратов отклонений каждой точки на диаграмме разброса от линии регрессии должна быть мини­мальной. Коэффициенты а и b могут быть вычислены при помощи системы уравнений:

Метод оценки наименьших квадратов дает такие оценки коэффи­циентов а и Ь, при которых прямая проходит через точку с координатами х и у, т. е. имеет место соотношение . Графическое изображение уравнения регрессии называется теоретической линией регрессии. При линейной зависимости коэффициент регрессии представляет на графике тангенс угла наклона теоретической линии регрессии к оси абсцисс. Знак при коэффициенте показывает направление связи. Если он больше ноля, то связь прямая, если меньше – обратная.

В политической жизни значение изучаемой переменной чаще всего одновременно зависит от нескольких признаков. Например, на уровень и характер политической активности одновременно оказыва­ют влияние политический режим государства, политические традиции, особенности политического поведения людей данного района и социальная микрогруппа респондента, его возраст, образование, уровень дохода, политическая ориентация и т.д.

В этом случае необходимо воспользоваться уравнением множе­ственной регрессии, которое имеет следующий вид:

где коэффициент – частный коэффициент регрессии. Он показывает вклад каждой Независимой переменной в определение значений независимой (результирующей) переменной. Если частный коэффициент регрессии близок к 0, то можно сделать вывод, что непосредственной связи между независимыми и зависимой переменными нет. Расчет подобной модели можно выполнить на ЭВМ или PC, прибегнув к [c.131] помощи матричной алгебры. Множественная регрессия позволяет от­разить многофакторность социальных связей и уточнить меру воздей­ствия каждого фактора в отдельности и всех вместе на результирую­щий признак.

Обозначим основные проблемы построения уравнения множест­венной регрессии:

  1. Выбор факторов, включаемых в уравнение регрессии. На этой стадии исследователь сначала составляет общий список основных причин, которые согласно теории обусловливают изучаемое явление. Затем он должен отобрать признаки в уравнение регрессии. Основное правило отбора: факторы, включаемые в анализ, должны как можно меньше коррелировать друг с другом; только в этом случае можно приписать количественную меру воздействия определенному фактору-признаку.

  2. Выбор формы уравнения множественной регрессии (на прак­тике чаще пользуются линейной или линейно-логарифмической). Итак, для использования множественной регрессии исследователь сначала должен построить гипотетическую модель влияния несколь­ких независимых переменных на результирующую. Чтобы полученные результаты были достоверны, необходимо выполнить некоторые тре­бования:

а) модель должна точно соответствовать реальному процессу, т.е. связь между переменными должна быть линейной, нельзя проигнорировать ни одну значимую независимую переменную, точно так же нельзя включать в анализ ни одну переменную, не имеющую прямого отношения к изучаемому процессу;

б) все измерения переменных должны быть предельно точными;

в) переменные, должны быть измерены в интервальных шкалах.

Но известно, что в исследованиях с политической тематикой ин­тервальные шкалы встречаются редко. С их помощью можно измерить возраст, доход, партийный стаж и немногие другие показатели. Но это отнюдь не означает, что нужно отказаться от регрессионного анализа.

Если речь идет о дихотомической шкале, то ее значениям просто приписывают цифровые, коды; 1 и 0, а далее работают с ней как с ин­тервальной шкалой. Если необходимо работать с переменными, имеющими большое количество градаций, то прибегают к услугам системы фиктивных переменных. Для этого при создании регрессион­ного уравнения игнорируют значение переменной, которому соответ­ствуй наименьшее количество наблюдений; [c.132]

г) независимые переменные не должны коррелировать между собой (принцип мультиколлинеарности);

д) погрешности для каждого наблюдения должны быть минимальными и иметь нормальное распределение.

При соблюдении всех этих условий множественный регрессион­ный анализ дает в руки исследователя ценнейшую достоверную ин­формацию.

13.3. Кластерный анализ

Кластерный анализ уже многие годы активно используется в по­литических исследованиях. С его помощью классифицируют граждан по политическим установкам, особенностям электорального поведе­ния. Что же представляет собой кластерный анализ с точки зрения ал­горитма и процедуры?

Кластерный анализ – способ группировки многомерных объек­тов, основанных на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «сгустков» этих точек. В самом термине содер­жится указание на два значимых элемента анализа: на классификацию и ее искусственное формирование. До конца 1950-х годов для анало­гичных целей использовали другие конструкции: распознавание образа без учителя, стратификацию, таксономию, автоматическую классификацию. Как научное направление кластерный анализ заявил о себе в середине 1960-х годов. Безусловными достоинствами кластер­ного анализа являются относительная простота используемых алго­ритмов, ясность прочтения визуализированного материала в виде дендрограммы или по упорядоченной матрице расстояний, возможность контролируемого вмешательства в работу алгоритма и изменение па­раметров задания. Отличительная особенность кластерного анализа от других методов многомерного анализа – жесткая зависимость результатов расчетов от предварительных установок исследователя на содержательном уровне. Развитию данного вида анализа способствовали идеи немецкого биолога Ф. Гейнке, предложившего метод решения задачи группировки объектов по многим признакам. В. 1913 г. польский антрополог К. Чекановский предложил идею «структурной классификации», которая содержала узловую идею кластерного анализа (выделение компактных групп объектов), а также метод, трансформи­ровавшийся позднее в алгоритм диагонализации матрицы связи. [c.133]

В 1925 г. советский гидробиолог П.В. Терентьев предложил «метод корреляционных плеяд». В 1939 г. английский ученый Р. Трион впервые использовал понятие «кластерный анализ», шутливо называя его «факторным анализом для бедняков». В начале 1950-х годов публикуются работы по иерархическим процедурам (Р. Льюис, Б. Фикс, Дж. Ходжес). Тогда же коллективом авторов (Г. Штейнгауз и др.) создается алгоритм «вроцлавской таксономии».

В 1958 – 1959 гг. Р. Розенблатт выдвинул идею распознающего устройства (персептрона), вызвавшего бурное развитие теории «распознавания без учителя». Персептрон – устройство порогового типа, предназначенное для перевода входных объектов в классы образа.

1960-е годы – период создания множества алгоритмов и время обобщения накопленных знаний (Г. Болл, Д. Холл, У. Уильяме, Дж. Мак-Кини, Р. Сокал, Дж. Снит, Г. Ланс, Н. Джардайн и др.).

В 1970-е годы происходит интенсивное развитие теории кла­стерного анализа (Н. Джордайн, Дж. Эверит, М. Андерберг). Из оте­чественных авторов следует назвать С. А. Айвазяна, 3. И. Бежаеву, О. В. Староверову. В связи с развитием теории кластерного анализа необходимо упомянуть работы Б. Г. Миркина, И. И. Елисеевой, В. О. Рукавишникова.

В 1980-е годы среди разработчиков особенно значительна роль французских исследователей М. Жамбю и Э. Диде, среди отечествен­ных авторов – Б. Г. Миркина, И. Ромесбурга, И. Манделя.

В истории развития кластерного анализа легко прослеживаются три ключевые даты:

В конце 1950-х годов анализ был обращен к наиболее естественному пути нахождения образов: задавалось точное определение образа и отыскивалось скопление точек, обладающих соответствующими свойствами. В данном случае кластер можно определить как такое скопление точек, в котором среднее межточечное расстояние меньше среднего расстояния от данных точек до остальных. Таким образом, речь шла о процедуре прямой классификации.

В конце 1960-х годов набирает силу оптимизационное направле­ние, стремившееся направить кластерный анализ в традиционное ма­тематическое русло (поиск алгоритмов); в современной литературе описываются более 70 алгоритмов, пригодных для анализа социальных явлений.

В середине 1970-х годов развивается аппроксимационное направ­ление, требующее соблюдения следующего условия: отношения, за­ложенные в исходных данных, необходимо наилучшим образом аппроксимировать [c.134] отношением, отвечающим нашему представлению о классификации; задача заключается в поиске эквивалентности, бли­жайшей в исходной толерантности.

Кластерный анализ строится на статистической однородности групп наблюдений. Основная цель этого вида анализа – выделение в исходных многомерных данных таких подмножеств, чтобы объекты внутри групп были в известном смысле похожи друг на друга, а объек­ты из разнородных отличались. «Похожесть» – близость объектов в многомерном пространстве признаков. Задача кластерного анализа – выделить в пространстве и визуализировать эти естественные скопле­ния. Выделенные с помощью кластерного анализа изолированные группы объектов могут трактоваться как качественно различные. Если в пространстве группы значительно удалены друг от друга, то можно предположить, что в основе разделения лежит некоторый качественный, но скрытый признак, обусловливающий такое же четкое расслоение, как и наблюдаемая качественная переменная. Таким образом, задачей становится поиск данной переменной и ее интерпретация (в этом случае кластерный анализ весьма приближается к факторному).

Кластерный анализ и визуализация данных используется для двух видов исходных данных: матриц близости или расстояний между объектами и объектов, представленных как точки в многомерном пространстве. Вторые легко могут быть сведены к матрицам близости и расстояния, но не наоборот.

Основаниями для выделения различных типов кластерных алгоритмов могут быть:

характер отношения, который отыскивается как результат классификации:

а) разбиение с непересекающимися классами (отношения эквивалентности). Все объекты внутри найденного класса считаются тождественными, а объекты разных классов нет;

б) разбиение с пересекающимися классами. Задается по-разному, введением степени принадлежности объекта к классу в духе теорий размытых множеств, определением вероятности принадлежности объекта к классу или просто перечнем объектов в зоне пересечения;

в) иерархическое дерево: сложная система разбиений. Может быть заранее задано число искомых классов;

г) отношение произвольной структуры;

степень участия человека в процедуре выделения кластеров:

а) машинный способ. Программист задает параметры классификации, получает разбиение на классы как готовый результат; [c.135]

б) человек участвует в процессе разбиения. Программа выдает не собственно классификацию, а информацию (все виды визуализации связи, упорядочение матриц связи), на основании которой социолог принимает решение о разбиении объектов на группы;

характер априорных сведений (задаваемые в ЭВМ параметры) для работы алгоритма:

а) априорные сведения отсутствуют (свободная классификация). Идеален вариант, когда программа сама пытается обнаружить качественные отличия;

б) задано число искомых классов;

в) могут быть заданы пороговые значения величины близости объектов;

г) заданы комбинированные сведения (число классов и пороги разных типов);

характер работы алгоритма классификации. В зависимости от порядка просмотра точек выделяют процедуры:

а) зависящие от порядка просмотра точек (весьма серьезный недостаток, характерный для эталонных процедур);

б) не зависящие от порядка точек (иерархические алгоритмы). Различают неэталонные (исходные принципы классификации не задаются) и эталонные процедуры. Во втором случае задаются исход­ные зоны, поля, с помощью которых начинает работу алгоритм. Эта­лоны могут быть следующего вида: подмножество исходного множе­ства (первоначальное разбиение на классы); отдельные объекты; отдельные зоны (точки) метрического пространства (центр тяжести класса). Кроме того, существует множество процедур кластеризации, работающих по другому принципу: иерархические алгоритмы, проце­дуры диагонализации, разрезание графов и т. д.

При проведении кластерного анализа могут быть использованы следующие группы алгоритмов (всего их насчитывается более 40 ва­риантов, здесь мы приведем наиболее употребимые):

Иерархические алгоритмы. Первый шаг – рассмотрение каждого объекта как отдельного кластера (рис. 16).

Рис. 16. Представление изучаемых объектов в виде отдельных кластеров.

[c.136]

На следующем шаге объединяются два ближайших объекта, кото­рые образуют новый класс. Определяется расстояние от этого класса до всех остальных объектов, размерность матрицы расстояний D со­кращается на единицу. Далее на каждом шаге повторяется та же про­цедура, пока все объекты не объединяются в один класс. Если сразу несколько объектов имеют минимальное расстояние, то возможны две стратегии (рис. 17): выбор одной случайной пары (классический спо­соб, иногда его называют восходящей иерархической классификаци­ей); объединение сразу же всех пар (иногда его называют методом ближайших соседей; используется реже). Ориентировочным критери­ем для выбора деления совокупности на кластеры может быть резкое увеличение на очередном шаге расстояния между кластерами, что сви­детельствует о значительной разнородности объектов. Результаты работы иерархических процедур обычно оформляются в виде дендрограммы: один из параметров обозначает номера объектов, второй – значение межклассовых расстояний, при которых произошло объеди­нение.

Рис. 17. Дендрограммы.

Процедуры типа упорядочения (диагонализации) матрицы рас стояний и последовательного формирования кластеров (рис. 18).

Рис. 18. Начальная стадия процедуры диагонализации матрицы расстояний. [c.137]

Все расстояния условно разбиваются на малые, средние и большие. Вручную осуществляется такая перестановка строк и столбцов матрицы, чтобы у диагонали собирались малые и средние расстояния (рис. 19). Выделение классов производится визуально.

2

3

4

5

6

7

1

2

3

2

2

8

6

2

1

2

5

9

7

3

3

1

7

8

4

2

3

5

5

2

7

6

2

Рис. 19. Матрица расстояний.

Процедуры эталонного типа. Выбирается случайным образом N-точек, объявляемых центрами классов. Строятся окружности таким образом, чтобы не осталось свободных, неохваченных точек (рис. 20).

Рис. 20. Схема процедуры эталонного типа.

Затем интерпретируются свойства объектов, объединенных в одной окружности.

Алгоритмы типа разрезанного графа. Из полносвязанного графа размерностью N на N, внутри которого расположены все изучаемые объекты, удаляются последовательно дуги с самыми большими рас­стояниями, пока граф не распадется на несколько несвязанных под­графов (рис. 21).

Среди самых интересных программ последних лет, выполненных с помощью кластерного анализа, необходимо назвать компаративные исследования политической культуры населения в Северной Америке и Европе (руководитель проекта В. О. Рукавишников). На основании кластерного анализа были выделены 6 групп стран, жители которых принципиально различаются по параметрам политического сознания, традициям и поведению. [c.138]

Рис. 21. Схема выделения кластеров с помощью метода разрезанного графа.

К первому кластеру были отнесены Норвегия, Дания, Швеция, Исландия, Ирландия, Северная Ирландия, Нидерланды, Канада и США. Для жителей этих государств характерны высокий уровень удовлетворенности качеством жизни, межличностное доверие, высо­кая готовность к участию в организованных акциях протеста, привер­женность к либертарным ценностям и либеральным идеям.

Во второй кластер вошли Великобритания, Бельгия, Германия. В них менее выражены показатели, выделенные у населения стран пер­вой группы. Основное отличие – степень распространенности постматериалистических ценностей среди различных возрастных групп.

В третий кластер вошли Италия, Португалия, Испания, где для на­селения характерны наиболее низкий уровень удовлетворенности ка­чеством жизни, признание идеалов социальной справедливости, равен­ства и ответственности государства за условия жизни и труда своих граждан, ориентация на левые и социалистические партии.

В четвертый кластер были отнесены Чехия, Восточная Германия, Польша, Словакия – страны, жителям которых присущи высокая не­удовлетворенность жизнью при низком уровне межличностного дове­рия. В пятый кластер вошла только Венгрия. Показатели политической культуры граждан этой страны сходны с данными других постсоциалистических стран по основным переменным, но показатели удовле­творенности переменами в стране оказались очень низкими.

К шестому кластеру была отнесена Россия. Для большинства на­ших соотечественников характерны низкий уровень жизни, отчаянное недоверие властям, но чрезвычайно высокий уровень межличностного доверия, легкий крен влево по шкале политических ориентации «правые – левые». [c.139]

13.4. Факторный анализ

Основы факторного анализа были заложены в работах английско­го психолога и антрополога Ф. Гальтона (1822–1911). Многие идеи факторного анализа были разработаны английским философом и ма­тематиком К. Пирсоном, психологами Р. Кеттелом и Г. Айзенком, а также создателем современного варианта метода главных компонент американским математиком Г. Хоттелингом. Факторный анализ про­истекает из гипотезы, что изучаемое явление, описываемое исходной системой признаков, может быть описано посредством меньшего чис­ла других признаков, называемых факторами. Например, при анализе политического поведения какой-либо социально-статусной группы нам необходимо установить наличие возможных взаимосвязей среди 50 различных параметров (места рождения, политических традиций семьи, возраста, характера полученного образования, особенностей жизненной траектории, политических предпочтений, типа политиче­ской идентификации и т. д.). Для изучения всех возможных взаимосвя­зей этих переменных потребовалось бы провести анализ свыше 12 000 корреляций. Вместо этого исследователь может свести их к меньшему числу переменных, точно характеризующих всю совокупность пере­менных, называемых факторами.

В исследовании факторный анализ может использоваться как раз­ведочный (эксплораторный; служит для анализа уже измеренных пе­ременных с целью их структурирования) и проверочный (конфирматорный, он используется для проверки сформулированной гипотезы) метод анализа данных.

Исходная задача факторного анализа – компактное и всесторон­нее описание объекта исследования. Математическая модель этого вида анализа сходна с уравнением множественной регрессии:

,

где Vi – значение iпеременной, выраженное в виде линейной комбинации k общих факторов; – регрессионные коэффициенты, по­казывающие вклад каждого из к факторов в данную переменную; – факторы, общие для всех переменных; U – фактор, связанный только для переменной Vi.

Среди прочих задач факторный анализ понижает размерность корреляционной матрицы, он также используется как средство визуа­лизации многопараметрических объектов и для косвенного оценива­ния изучаемых переменных в случае невозможности их прямого изме­рений, кроме того, является источником новых гипотез. [c.140]

Выполнение факторного анализа возможно во многих статистиче­ских программах, наиболее популярны сейчас SPSS и «Stadia».

Фактором называют гипотетическую латентную переменную, которая одновременно объединяет несколько формально измеренных признаков объекта. Обобщение позволяет выделить связи между исходными переменными, которые ранее не были очевидны, а затем перейти на более высокий уровень понимания явления. Факторы являются относительно независимыми настолько, насколько имеется возможность разбить исходную систему признаков на группы таким образом, что коэффициенты корреляции между признаками одной группы были высокими, а признаки различных групп малы. Факторные нагрузки – это корреляции между фактором, как функциональным целым, и значениями конкретных переменных, входящих в этот фактор. Обычно требуется, чтобы факторные нагрузки были не ниже 0,40.

Фактор также может быть записан в виде линейной комбинации наблюдаемых переменных:

,

где – факторные нагрузки, которые определяют связь фактора с исходным признаком, – количество переменных. Факторный анализ включает в себя три этапа:

а) сбор данных и подготовку корреляционной матрицы;

б) выделение первоначальных ортогональных (некоррелированных, линейно независимых) факторов;

в) вращение факторной структуры и содержательную интерпретацию результатов.

Факторный анализ требует использования шкал не ниже интер­вальных. На практике это правило выполняется не всегда, ученые в силу ограниченности измерительных инструментов для исследований политической тематики вынуждены обращаться к порядковым (балльным) шкалам. При определении необходимого числа переменных в анализе учитывается правило, согласно которому на один гипотетиче­ский фактор должно приходиться не менее трех переменных (предло­жено Терстоуном). Вместе, с тем некоторые исследователи настаивают на том, что в конфирматорном факторном анализе достаточно двух переменных на один фактор.

Обработка данных в ходе факторного анализа (рис. 22 – 25), предполагает трансформацию матрицы смешения в корреляционную матрицу, затем в факторную матрицу и, наконец, в факторную диаграмму. [c.141]

В факторном анализе используется множество методов, позво­ляющих трансформировать корреляционную матрицу в факторную. На практике наиболее предпочтительным считается метод главных ком­понент.

Метод главных компонент. С его помощью рассматриваются линейные модели, т. е. каждый исходный признак представляется как линейная комбинация факторов. Коэффициентами служат факторные нагрузки, которые указывают на величину и направленность связи ме­жду латентными и явно наблюдаемыми свойствами. С помощью про­цедуры главных компонент исследователи переходят от пространства высокой размерности, образованного явно наблюдаемыми свойства­ми, к пространству небольшого числа латентных факторов. В резуль­тате объекты описываются в терминах (координатах) этого нового пространства. Координаты объектов в пространстве латентных факто­ров называются факторными весами.

Метод максимального правдоподобия позволяет при большой выборке получить статистический критерий значимости полученного факторного решения. [c.142]

Метод наименьших квадратов предполагает минимизацию оста­точной корреляции после выделения определенного числа факторов и оценку качества соответствия вычисленных и наблюдаемых коэффи­циентов корреляции по критерию минимума суммы квадратов откло­нений.

Факторизация образов (анализ образов) предполагает, что общ­ность каждой переменной определяется не как функция гипотетиче­ских факторов, а как линейная регрессия всех остальных переменных.

После трансформации корреляционной матрицы в факторную осуществляют анализ каждой из выделенных групп признаков с це­лью ее сжатия .посредством выделения взаимодействий и представле­ния в виде одного обобщенного показателя. Для формализации этой процедуры используют различные методы, в том числе весьма эффек­тивно метод последовательных разбиений. В основе этого алгоритма лежит процедура последовательных разбиений объектов на классы так, что при каждом разбиении образуются два класса, которые не пересе­каются. Процедура последовательных разбиений завершается, когда новый шаг не увеличивает (или увеличивает незначительно) процент объясняемой дисперсии целевого признака. Образовавшиеся в итоге «тупиковые классы», не подлежащие дальнейшему разбиению, озна­чают прекращение процедуры.

В хорошо организованном исследовании суммарный процент объясненной дисперсии достигает 85–90% (на практике ученые считают факторный анализ успешным, если этот показатель достигает 72–75%). Чаще всего, как свидетельствуют специалисты в области факторного анализа, этот суммарный процент объясняется тремя фак­торами. Тем не менее процедура факторного анализа на этом не закан­чивается. Далее следует процедура вращения факторной структуры.

Идеальным вариантом вращения считается результат, при кото­ром каждая переменная получает максимальное число больших фак­торных нагрузок по одним факторам и одновременно наибольшее ко­личество минимальных факторных нагрузок по другим факторам.

Выделяют два основных класса способа вращения:

ортогональное вращение, при котором при повороте осей коор­динат угол между факторами остается прямым, т. е. сохраняется предположение о некоррелированности факторов;

косоугольное вращение, при котором первоначальное ограничение по поводу некоррелированности факторов снимается.

Существует несколько методов ортогонального вращения: варимакс (на практике используется чаще всего), квартимакс, эквимакс, [c.143] биквартимакс. Цель варимакса – уменьшение количества перемен­ных, имеющих высокие нагрузки на данный фактор (это упрощает его описание) за счет группировки вокруг него только тех переменных, которые с ним связаны в большей степени, чем остальные. Квартимакс минимизирует количество факторов, необходимых для объяснения данной переменной. С его помощью выделяется один из общих факто­ров с достаточно высокими нагрузками на большинство переменных. В методиках вращения эквимакс и биквартимакс много общего, по­скольку они ориентированы на одновременное упрощение описания и факторов и переменных.

Среди методов косоугольного вращения наиболее популярен облимин, схожий с методом эквимакс. В расчетах с помощью облимина в статистических программах можно задавать специальный параметр (в разных пакетах его называют или косоугольности факторов при вращении.

Перед выполнением процедуры вращения в компьютерных программах задают количество факторов, в пространстве которых производится вращение. Вращение и анализ факторных диаграмм производится несколько раз с учетом различного количества факторов. Обыч­но начинают с избыточного количества факторов, уменьшая их число и доводя его до необходимого предела.

Интерпретация факторов сводится к анализу величины и знаков факторных нагрузок. Поиск названия фактора (маркировка) – это аб­солютно неформализуемая процедура. Название фактора выбирают с учетом смыслового значения той группы взаимосвязанных перемен­ных, которые нагружают фактор. Но два автора при анализе могут дать сходным факторам различные названия, а потому и выводы исследо­вания окажутся различными.

Качество реализации задач этого этапа напрямую связано с ква­лификацией специалиста, компетентностью его в исследуемой облас­ти, с его интуицией. При интерпретации полученных данных и напи­сании отчета необходимо дать ответы на некоторые вопросы:

  1. Подтверждают ли полученные результаты рабочие гипотезы и не противоречат ли они данным других авторов?

  2. В чем сходство и различие данного исследования с другими?

  3. Использовался ли факторный анализ ранее при решении анало­гичных задач?

  4. Согласуются ли данные факторного анализа с теоретическими разработками? [c.144]

13.5. Многомерное шкалирование

Во многих случаях в проектах с политической тематикой бывает трудно, а иногда и невозможно проводить непосредственное измере­ние характеристик объектов. Но при этом можно оценить степень сходства или различия между парами объектов. В этих ситуациях при­бегают к помощи методов многомерного шкалирования.

Развитие классических моделей метрического и неметрического многомерного шкалирования относится к 1950 – 1960-м годам (Торгерстон, Шепард, Крускал). В конце 1960-х годов Мак Ги разработал модель реплицирующего многомерного шкалирования, с помощью которого стало возможным одновременно анализировать более чем одну матрицу сходств различных объектов. В 1970-е годы (Кэррол, Чанг) появилась новая модель индивидуального многомерного шкали­рования (другое ее название – взвешенная модель многомерного шкалирования). Одной из наиболее удобных для обработки данных методом многомерного шкалирования считается процедура INDSCAL в системе SPSS.

В качестве исходных данных для шкалирования могут быть взяты не сами оценки степени сходства объектов, а результаты их ранжиро­вания. Эти методы анализа называют неметрическим шкалированием. Многомерное шкалирование может быть применено при изучении по­литических деятелей, элиты. В этом случае исходными данными для анализа могут служить экспертные оценки сходства или различия взглядов политиков по некоторым проблемам. В качестве исходных данных можно использовать голосование политиков по тем или иным вопросам. Многомерное шкалирование в этом случае поможет отве­тить на вопрос о характеристиках, которые в действительности опре­деляют характер голосования. Например, может оказаться, что отнюдь не принадлежность к той или иной фракции в Государственной Думе влияет на голосование, а, в частности, принадлежность к тому или иному поколению политиков (время прихода в «большую политику»). С помощью многомерного шкалирования можно выяснить, насколько в глазах избирателей близки те или иные политики вне зависимости от их политической платформы.

Многомерное шкалирование позволяет представить совокупность изучаемых объектов в виде некоторого набора точек многомерного пространства небольшой размерности, при этом каждому объекту со­ответствует одна точка. Аналогично геометрическим представлениям вводится система координат, число которых определяется количеством [c.145] признаков, описывающих объект. Это количество задает размерность пространства. Координаты точек интерпретируются как значения неких характеристик исходных объектов, которые и объясняют их свойства или взаимоотношения. Чем ближе характеристики объектов, тем ближе в данном пространстве объекты друг к другу.

Результаты многомерного шкалирования представляются на гра­фике в двухмерном (рис. 26) или трехмерном (рис. 27) пространстве в виде точек, обозначающих объекты анализа.

Рис. 26. Условная схема результатов многомерного шкалирования.

Исследователь просматривает различные варианты визуализации результатов многомерного шкалирования, выбирает наиболее удачные варианты, в которых явно выделяются конфигурации объектов, а затем пытается объяснить эти специфические конфигурации с помощью какой-либо концепции.

Рис. 27. Условная схема результатов многомерного шкалирования.

[c.146]