Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Социологический справочник (волович).docx
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
767.7 Кб
Скачать

3 Информации

Анализ дисперсионный - метод математической статистики,

предназначенный для выявления влияния отдельных независи-

мых друг от друга признаков, традиционно называемых фак-

торами (А, В, С,...), на некоторый наблюдаемый признак (У).

Концепция А. д. предложена американским математиком

Р. Фишером в 1920 г. и состоит в выделении и сравнении

между собой различных компонент дисперсии признака У

(отсюда и название метода). Эти компоненты выделяются

посредством разложения вариации (SS) - сумма квадратов

отклонения от среднего значения - признака У на составные

части. В случае трех факторов А, В, С:

SS==SSA+SSB+SSc+SSAB+SSAC+SSBC+SSABC+SSe.

В такого рода разложения входят три группы компонент, обу-

словленные: 1) главными эффектами факторов (SSA, SSe, SSc);

2) взаимодействиями факторов (SSAB, ЗЗдс, SSac, ЗЗдвс);

3) остаточной дисперсией признака У (SSe). Для примене-

ния А. д. требуется определенная структура представле-

ния данных. Например, при решении задачи выявления влия-

ния образования (фактор А с тремя градациями) и пола

(фактор В с двумя градациями) на удовлетворенность тру-

дом (признак У) данные должны быть представлены в виде

табл. 1, где каждая клетка-ячейка А. д.-отвечает опре-

деленному сочетанию градаций-уровни факторов-образо-

вания и пола. Так, ячейку (3,1) составляют значения <удов-

летворенности трудом> мужчин с высшим образованием.

(N -- общее число наблюдений, n - число наблюдений в

ячейке).

Для этой задачи: SS=SSA+SSB+SSAB+SSe.

А. д. начинается с вычисления компонент SS, на основе

которых рассчитываются т. н. средние квадраты (интерпрети-

руются как различные оценки дисперсии), вычисляемые де-

лением соответствующей компоненты на отвечающее ей чис-

ло степеней свободы. В табл. 2 они приводятся для случая

двух факторов. Для приведенного примера г=3. s=2 (/, s-

число уровней факторов). Положим, что п=5, тогда N==30.

176

муж.

среднее ср. спец. высшее{Ун}{У2|}{Уз,}{Via}{У22} {У32?

табл. 1

компонентыSSASSnАВSSeSS

число степеней свободыг-1S-1(r-1) (S-1)r.S (n-1)N-1

табл. 2

Суждение о значимости влияния того или иного источника

дисперсии выносится после сравнения оценки дисперсии, от-

вечающей этому источнику, с оценкой, вычисленной на основе

SSe. Сравнение осуществляется посредством критерия Фише-

ра (F-критерий). Для этого вычисляется значение отноше-

ния этих оценок, т. е., например, для выявления влияния

только <пола> на изменчивость <удовлетворенности> необхо-

димо вычислить FA=SSA.24/SSe и сравнить с табличным зна-

чением FT, которое однозначно определяется при заданных

степенях свободы и для заданного уровня значимости. Если

Рд>Рт, то влияние пола на степень удовлетворенности рес-

пондентов трудом статистически значимо. Тогда процедуру

Л. д. можно продолжить с помощью т. н. методов множест-

венного сравнения: метод Тьюки и метод Шеффе (1-.3). Они

позволяют определить степень влияния отдельных уровней

интересующего фактора.

А. д. представляет собой совокупность методов, основан-

ных на линейном характере модели изучаемого явления. А. д.,

возникший как метод планирования эксперимента, применя-

ется для анализа данных. Наиболее благоприятными усло-

виями для его применения в предположении независимости

факторов являются одинаковость числа наблюдений в ячей-

ках; равенство дисперсий в ячейках; подчинение нормально-

му распределению данных в каждой ячейке.

177

А. д. может применяться и при нарушении упомянутых

условий. Так, нарушение распределения происходит при

больших значениях числа степеней свободы; нарушение ра-

венства дисперсий возможно для случая равного числа на-

блюдений в ячейках. Нарушение независимости наблюдений

в ячейках недопустимо.

Анализ документов-один из основных методов сбора

данных в социологическом исследовании, который направлен

на получение надежной социальной информации (социаль-

ных фактов, ценностей и норм поведения различных катего-

рий населения), зафиксированной в документах. Изучение

документальных источников имеет давнюю традицию в марк-

систской социологической науке. Методология и основные

принципы А. д. разработаны в таких трудах, как подготови-

тельные материалы к книге <Гражданская война во Франции>

К. Маркса, <Положение рабочего класса в Англии> Ф. Эн-

гельса, <Развитие капитализма в России>, <Статистика и со-

циология> В. И. Ленина.

Диапазон применения А. д. в современном социологиче-

ском исследовании достаточно широк. Он используется как

основной метод изучения информационно-пропагандистских,

исторических, художественных, статистических документов, со-

циологического инструментария. Часто выступает дополни-

тельным методом съема первичной социологической информа-

ции с целью уточнения, обогащения или сравнения результатов

наблюдения и опроса, их проверки.

Необходимым условием получения достоверной информа-

ции с помощью А. д. является проверка надежности докумен-

тального источника, т. е. выяснение целей и мотивов создате-

лей этих документов, конкретной социальной ситуации и исто-

рического контекста, в которых они возникли, способов их

хранения и распространения. Выборочная совокупность доку-

ментальных источников, подлежащих обследованию, форми-

руется в соответствии с программой социологического иссле-

дования, а также в зависимости от типа изучаемых доку-

ментов.

Все многообразие способов А. д. условно сводится к двум

основным типам: традиционному (качественному, содержа-

тельному) анализу и формализованному (количественному)

анализу. Поскольку информация, полученная этими двумя

способами, представлена в различных показателях, необходи-

мо строго соблюдать границы ее интерпретации, ориентируясь

на возможности каждого из способов. Рслп в первом типе

анализа отдельный документ (текст) рассматривается преи-

мущественно как самостоятельная единица информации, то

178

второй тип анализа предполагает изучение определенной со-

вокупности текстов.

Традиционный анализ - это толкование докумен-

та, его всесторонняя интерпретация путем выяснения основных

мыслей и идей конкретного текста, воссоздания логических

связей и противоречий между ними. Применяя традиционный

анализ, исследователь стремится постичь суть изучаемого до-

кумента, оценить его содержание в соответствии с политиче-

скими, нравственными или эстетическими критериями. Тради-

ционный анализ бывает внешний и внутренний. Внешний

предполагает восстановление обстоятельств создания докумен-

та в историческом и социальном планах. Внутренний

представляет собой анализ содержания документального ис-

точника, выяснение отраженных в нем конкретных социальных

связей и отношений. Традиционный анализ применим для всех

без исключения типов документ ов, будь то вербальные, ико-

нографические или фонетические источники. К специальным

методам традиционного анализа, помимо социологического,

относятся также исторический, психологический, юридический,

лингвистический, которые, будучи инструментами других на-

учных дисциплин, иногда используются и в социологическом

исследовании.

Чаще всего интерпретация документа представляет собой

оценочные суждения самого исследователя, обусловленные его

мировоззренческой позицией и ситуативными установками в

социальной и научной сферах. Задачи снижения субъективиз-

ма этого метода стимулируют разработку иных методик вы-

явления смысловых структур текста, направленных на поиск

объективных показателей содержания.

Весьма перспективен в этом отношении предложенный со-

ветскими исследователями информационно-целевой

метод (Т. М. Дридзе). Он используется для адекватной

смысловой интерпретации документа как самостоятельного це-

лостного образования, но с элементами формализации тек-

ста, которая осуществляется на том основании, что количе-

ство смысловых опорных узлов содержания (как правило, от-

дельных ключевых слов) ограничено в документе и может

быть подсчитано. Вычислив отношение между числом ключе-

вых слов, включенных в систему не известных до этого смыс-

ловых связей, и общим числом смысловых единиц содержа-

ния, можно получить коэффициент новизны или информатив-

ности каждого текста.

Формализованный (количественный) анализ, под

которым чаще всего понимают различные модификации кон-

тент-анализа, направлен на получение объективной пнформа-

179

цни о некоторой совокупности однородных документов (ин-

формационного потока) путем фиксации существенных харак-

теристик содержания и их количественного описания. Приме-

ним для определенного круга задач.

Анализ качественный регрессионный - группа методов мно-

гомерного анализа данных, позволяющих оценить влияние

нескольких качественных (классификационных или номиналь-

ных) независимых признаков (Х-ов) на зависимый признак У.

К таким методам относятся анализ регрессионный с дихото-

мическими переменными (РАД), множественный классифика-

ционный анализ (МКА), множественный номинальный анализ

(МНА) и др. Методы объединены в одну группу, так как по-

зволяют решать один и тот же набор задач, который ставится

в классическом регрессионном анализе: 1) выявить объясня-

ющую способность каждого предиктора как при условии его

независимости от других предикторов, так и при закреплен-

ном влиянии других предикторов; 2) выявить объясняющую

способность каждого предиктора и вместе взятых предикто-

ров; 3) предсказать значение зависимого признака У при усло-

вии, что известны значен.1я предикторов; 4) определить, на-

сколько предсказанные значения У отличаются от реально

наблюдаемых. Различие методов МКА и МНА определяется

шкалой зависимого признака, в МКА он интервальный или

числовой, в МНА - классификационный. Метод РАД дает

возможность использовать обычный аппарат количественного

регрессионного анализа для изучения влияния номинальных

признаков путем кодирования градаций предикторов дихото-

мическими переменными, которые принимают значение 1 для

респондентов или объектов, принадлежащих соответствующей

градации, и 0 - для остальных. Здесь также зависимый при-

знак может быть количественным (интервальным) либо дихо-

томическим. В методе РАД различие шкалы зависимого при-

знака не приводит к различию метода оценки параметров, но

влияет на их интерпретацию.

МКА позволяет оценить <поведение> как отдельных респон-

дентов, так и групп, задаваемых различными наборами зна-

чений предикторов, в смысле выявления среднего значения У

либо регрессионной зависимости для таких групп. В этом со-

стоит осуществление так называемого индивидуального про-

гноза с помощью модели:

iih

Y+

1=1

180

где i - номер предиктора, / - номер градации (-того предик-

тора, который принадлежит к-тый респондент, р - число пре-

дикторов. Коэффициенты влияния ai, оцениваются таким об-

разом, чтобы обеспечить наилучшую <подгонку> наблюдаемых

данных в смысле минимума критерия суммы квадратов оши-

бок, т. е.

Л/

где N-число респондентов (объектов).

Коэффициент влияния aij интерпретируется как отклонение

средней j-той градации i-того предиктора для зависимого при-

знака от среднего значения У для всей выборки. На основа-

нии значений ai) рассчитываются оценки связи предикторов

с зависимым признаком как отдельно, так и в связи с други-

ми предикторами (с учетом коррелированности), а также сов-

местная связь всех признаков модели, т. е. множественный

коэффициент корреляции R, квадрат которого определяет объ-

ясняющую способность модели. Индивидуальные прогнозные

значения У определяются на основании равенства (1).

МНА связан концептуально и технически с методом МКА,

т. к. основан на параллельном применении МКА к серии G

регрессионных моделей типа (1), где G равно числу непустых

градаций зависимого классификационного У. Меняется толь-

/"S __

ко интерпретация оценок {Y}, {Y} и {a,,};, l=\,...,G.

Вместо средних значений Y и отклонений от средних ai, в МКА

имеем частоты распределений по выборке {Y}], по модели {Y}e

и частотные отклонения {ац}|. Прогноз состоит в выборе макси-

/\

мального значения из набора вероятностей (частот) {Y}i для

определенного сочетания значений Х-ов.

На основе результатов анализа этих методов исследова-

тель получает возможность активно влиять на формирование

шкал предикторов, выбор самих предикторов, глубже прони-

кая в механизмы взаимосвязей предикторов с зависимой пере-

менной. Такой процесс активного взаимодействия с данными,

не ограниченный каким-либо автоматическим селективным

процессом, как часто бывает в других методах и программах,

дает возможность повышать как объяснительную, так и пред-

сказывающую функции методов и вместе с этим их практиче-

скую направленность.

181

Анализ кластерный-метод классификации объектов (рес-

пондентов, территориальных единиц, текстов) и признаков,

описывающих эти объекты. Этот метод называют также таксо-

номия, распознавание образов без учителя.

Цель классификации - разделение рассматриваемой сово-

купности на однородные группы объектов (признаков), близ-

кие между собой по определенному критерию и отличающие-

ся от объектов в других группах. Классификация объектов

производится одновременно по ряду признаков на основе оп-

ределенной меры суммарной близости по всем признакам клас-

сификации. Классификация признаков осуществляется на ос-

нове различных коэффициентов парной корреляции.

При группировке объектов эта процедура используется в

качестве предварительного этапа для отбора и построения

признаков классификации. Выделение тесно связанных групп

признаков позволяет отсеять дублирующие признаки, выявить

общие <скрытые> факторы, обусловливающие связь призна-

ков в группах.

Важное значение при использовании метода А. к. имеет

выбор адекватной меры близости между классифицирующими

объектами и алгоритма классификации.

Имеется широкий набор различных мер близости для раз-

ных шкал измерения признаков. В этом случае, когда призна-

ки классификации количественные, часго используется эвкли-

дово расстояние:

/i><-

k=\

где XIK, к=1,2,...,п-значения признаков классификации для

i-го объекта; Х)к, к=1,2,...,п-значения признаков классифи-

кации для j-го объекта.

Для учета разной значимости признаков в мерах близости

используются весовые коэффициенты, позволяющие в боль-

шей степени учитывать различия по наиболее значимым при-

знакам, в меньшей степени-по менее существенным для клас-

сификации признакам.

Например, для вычисления близости между объектами на

основе эвклидова расстояния с использованием весовых ко-

эффициентов применяется следующая формула:

"

. - I/ V W Ix - х )1

~ \ _ " h "ih "W

k=l

182

где Wk - коэффициент, оценивающий относительную значи-

мость признака Xk.

Среди алгоритмов А. к. выделяются следующие основные

типы:

1. Иерархические алгоритмы, подразделяющиеся

на: агломеративные (последовательно объединяющие объек-

ты во все более крупные группы) и дивизимные (последова-

тельно разделяющие объекты на все более мелкие и однород-

ные группы).

При использовании агломеративного алгоритма, например,

на первом шаге каждый объект принимается за отдельный

кластер. На каждом последующем шаге объединяются по оп-

ределенному критерию (минимум расстояния между ближай-

шими объектами кластеров, минимум среднего значения рас-

стояния между всеми парами объектов, принадлежащих двум

разным кластерам и др.) два ближайших кластера. Каждый

шаг работы алгоритма соответствует разделению объектов на

группы определенной степени однородности.

2. Алгоритмы, оптимизирующие заданный

критерий качества классификации. Проводится

некоторое предварительное распределение объектов по класте-

рам. На каждом шаге работы алгоритма проводится перерас-

пределение объектов между кластерами, улучшающее перво-

начальную классификацию. Качество классификации оценива-

ется определенным количественным критерием, оценивающим

однородность получаемых групп и их различие между собой.

3. Алгоритмы поиска <сгущений> объектов.

Объекты классифицируются на основе поиска областей наи-

большей концентрации точек - <сгущений>,- представляющих

объекты в пространстве признаков классификации. Сгущения

в окрестности некоторого центра (которым может быть один

из объектов) определяются на основе подсчета объектов, от-

стоящих не более чем на расстояние R от выбранного центра,

то есть попавших в сферу радиуса R.

Алгоритмы классификации позволяют посредством итера-

тивного изменения центров и величины R сдвигать эти сферы

в области сгущений точек и тем самым выявлять однородные

группы объектов. Интерпретация результатов классификации

проводится на основе анализа статистических распределений

признаков, по которым проводилась группировка, а также не

участвовавших в классификации признаков (<внешних>) в по-

лученных группах (кластерах).

Результаты классификации представляются в виде различ-

ного рода таблиц, содержащих основные характеристики ста-

тистических распределений признаков в кластерах, а также

183

в графической форме, например, в виде так называемых денд-

рограмм, репрезентирующих распределение объектов по груп-

пам на различных шагах работы алгоритма.

Анализ латентно-структурный (от лат. Latentis - скрытый,

невидимый) - метод статистического анализа эмпирических

данных, позволяющий по ответу респондентов на некоторое

множество вопросов выявить их распределение по некоторому

скрытому (латентному) признаку. Этот признак нельзя изме-

рить непосредственно, но использованное социологом множе-

ство вопросов позволяет зафиксировать различные его прояв-

ления. Метод предложен в 40-х годах П. Лазарсфельдом. По

своим задачам А. л.-с. сходен с методом факторного анали-

за, но в отличие от факторного анализа, требующего, чтобы

исходные признаки были количественными, А. л.-с. предназна-

чен для анализа качественных дихотомических переменных.

Существуют также обобщения метода А. л.-с. (например, ме-

тод латентно-профильного анализа У. Гибсона), которые по-

зволяют анализировать не только качественные дихотомиче-

ские, но и качественные многовариантные, и количественные

признаки, причем итоговый (латентный) признак может быть

как качественным, так и количественным. Несмотря на опреде-

ленные преимущества по сравнению с методом факторного

анализа, А. л.-с. не получил широкого распространения у нас

в стране.

Анализ логлинейный - основан на одном из видов моде-

лей клеточных частот таблицы сопряженности. Предполага-

ется, что выборочные частоты анализируемой таблицы сопря-

женности nijK... порождаются теоретическими частотами

Пик-, характеризующими генеральную совокупность. Теорети-

ческие частоты отвечают определенным гипотезам о связях,

формируемым в виде тех или иных моделей. Соответствие

фактических и теоретических частот оценивается критерием

х2. В простейшем случае - двух дихотомических переменных

х и у логлинейная модель имеет вид:

log (.) = л + Ц + + /.,

где У - представляет взаимодействие переменных, л,," =0

только тогда, когда две переменные не связаны.

Логлинейная модель системы из трех переменных х, v, z

имеет вид:

184

Модель, включающая все возможные взаимосвязи перемен-

ных, является насыщенной (полной). На ее основе определя-

ется модель, наиболее адекватная анализируемой таблице со-

пряженности, в ее состав включаются только параметры, для

которых выполняется условие (л./S )>1крит.

Оценки параметров К выполняются следующим образом:

=..->-;

=я". -",..-"./. -

=",..+>/.+".

/ft

Точка в подстрочном индексе обозначает среднее значение по

- __Lv

опущенному индексу, так " - щ Z-nijh

{tjk}

где П[ж-наблюдаемая частота клетки (i, j, k), m-число

клеток таблицы сопряженности. Оценка дисперсии параметра

л, для насыщенной модели равна:

6" УМ, б",

пгх ./1 №[(/-!)" (J-l)" (fe-l)P

s -{-lyk) L-----------------

\!yk

-ijk

где 6- 1, если х принадлежит к группе переменных с и i-i,

в противном случае б =0. Подобным же способом вычисля-

ются 6, 8.

Анализ причинный - статистический метод, применяемый в

генетике, социологии, эконометрии с целью установления при-

чинно-следственных связей между определенными переменны-

ми. В социологическом контексте он является методом для

измерения силы постулируемых причинно-следственных связей

между наблюдаемыми признаками (переменными) и для под-

тверждения или опровержения внутренней <причинной> на-

полненности сети таких связей, т. е. проверки гипотез.

В А. п. переменные подразделяют на экзогенные (или ос-

новные, предположительно не имеющие прямой причины), эн-

догенные (имеющие прямую причину, т. е. являющиеся непо-

средственным следствием неких экзо- или эндо- генных пере-

менных) и остаточные (или внешние, которые заведомо не

оказывают сильного воздействия на рассматриваемые эндо-

и экзо- генные и сами не являются их следствием). Входными

данными для проведения А. п. являются диаграмма прпчнн-

185

ных связей (т. н. путевая диаграмма) между рассматривае-

мыми переменными и таблица парных корреляций. Отметим,

что сами по себе скоррелированностн переменных не означают

наличие прямых причинных связей, так же как и косвенных,

однако часто интерпретировались в ложно-причинном кон-

тексте.

Для однозначности решения задачи А. п. на основе парных

корреляций переменные должны удовлетворять двум усло-

виям. 1. Минимум одна переменная определяется как зависи-

мая (т. е. эндогенная), а стрелки на путевой диаграмме од-

нонаправлены (однозначность причинно-следственной связи).

2. Воздействие остаточных переменных на рассматриваемые

должно быть чисто случайным (сильно сказываться не более

чем на одной переменной). Привлечение необходимого числа

переменных, достаточного для <замкнутости> в указанном

смысле системы рассматриваемых переменных, является ос-

новной проблемой А. п. Проверка гипотез в рамках А. п. осу-

ществляется процедурой Саймона-Блалока: если в исходной

формулировке XJ имеет прямыми причинами хзо), Хзо>.., XK(I),

а X] есть непрямой причиной Xj, то полагая Xi(j)=xi и рассчиты-

вая частные корреляции между х, и х,, мы по равенству их О

(или достаточной малости), или неравенству их 0 будем судить

о том, является ли Xi непрямой причиной Xj. Задача установ-

ления силы причинной связи между рассматриваемыми пере-

менными сводится к нахождению т. н. причинных (путевых)

коэффициентов по линейной регрессионной схеме, имеющей

следующий вид:

Y=BY+RZ+V; (1)

Y=RZ+V,

(2)

где Y - эндогенные переменные. В, R, R - матрицы, элементы

которых суть причинные коэффициенты, Z - экзогенные пе-

ременные, V, V-внешние переменные (компенсирующие).

Схема (1) относится к рекурсивным системам (связность

путевой диаграммы). Схема (2) относится к случаю т. н. не-

рекурсивной системы (путевая диаграмма будет несвязанным

графом). Отметим, что схема (2) может давать неоднознач-

ные решения.

А. п. впервые был предложен генетиком С. Райтом в 1921 г.

для решения задач полуляционной генетики и сначала раз-

вивался в ее рамках. Как метод социальной статистики был

применен и развит в 50-х годах. На современную основу, с

учетом применения ЭВМ был поставлен в 70-х гг.

186

Анализ регрессионный - статистические методы исследова-

ния регрессионной зависимости (регрессии) между зависимым

признаком У и независимыми (регрессорами, предиктора-

ми) Xi,.......,Xp. А. р. решает задачи определения общего вида

уравнения регрессии, нахождения оценок параметров этого

уравнения, оценки качества регрессии, проверки статистиче-

ских гипотез, которые служат двум основным целям А. р.-

предсказания и объяснения. В ситуации прогноза акцент сме-

щается на получение оценок У по значениям Х-ов при мини-

?\

мизации суммы квадратов отклонений (У - У)2=l2-mn

ft- 1

реально наблюдаемых У и их оценок, N - объем выборки.

При объяснительном подходе необходимо решить задачу оцен-

ки индивидуального вклада каждого из предикторов X, ...... Xi

в объяснение дисперсии зависимого признака.

В случае многомерной линейной регрессии y=Bo+BiXi+

+...+ВрХр исследованию подлежит модель

YBo+BiXi+BaXa+.-.+BpXp+L, (1)

которую можно представить в матричной форме У=ХВ+Ь,

где у - вектор наблюдений зависимого признака размерности

(NXI);

X - матрица наблюдений предикторов размерности (NXP);

В-вектор параметров размерности (PXI);

(.-вектор ошибок размерности (NXI).

Для того, чтобы применить метод наименьших квадратов

для оценивания параметров модели, необходимо выполнение

следующих предположений равенства условных дисперсий,

т. е. D (y/X)=const, независимости ошибок от предикторов и

нормального их распределения с нулевым средним и постоян-

ной дисперсией, попарного нормального распределения всех

признаков модели. Решение нормальных уравнений записыва-

ется в виде B=(XX)-XY. Параметры B| ярляются частны-

ми коэффициентами корреляции, Bi2 интерпретируется как

доля дисперсии Y, объясненная Xi при закрепленном влиянии

остальных Х-ов, т. е. измеряет индивидуальный вклад Xi в

объяснение У. В случае коррелирующих Х-ов возникают

проблемы неопределенности в оценках Bi и др., которые ста-

новятся зависимыми от порядка включения Х-ов в модель.

В таких случаях необходимо применение методов корреля-

ционного анализа и пошагового А. р.

187

Построение доверительных интервалов для оценок парамет-

ров и проверка гипотезы об отсутствии связи (Bi=0) произ-

водится с помощью критерия Стыодента. Оценка значимости

регрессии производится с помощью критерия Фишера, для

которого оценивается коэффициент множественной корреля-

ции R, характеризующий общую связь всех признаков моде-

ли. R2 характеризует долю дисперсии, объясненную всеми

признаками модели (1).

I/ s

\ i

ft=l

A. p. позволяет оценивать также и нелинейные отношения,

оценить уравнение 1 с включением качественных признаков

в уравнение. При этом изменяется не метод оценки, а только

интерпретация результатов.

Методы А. р. широко используются в социально-экономи-

ческих исследованиях для оценок регрессионных отношений

спроса, предложения, при изучении бюджетов семей и т. д.

Анализ таблиц сопряженности-то есть распределений по

двум и более переменным, начинается с установления наличия

связи между переменными. Анализ основан на значениях кле-

точных частот. Если таблица сопряженности квадратная, т. е.

число строк равно числу столбцов и все частоты в диагональ-

ных клетках не равны нулю, а остальные - имеют нулевое

значение, то между переменными имеется полная связь и на-

оборот, если данные распределены достаточно равномерно по

клеткам таблицы, то имеется слабая связь, либо связь отсут-

ствует. При любом числе строк и столбцов факт наличия или

отсутствия связи устанавливается с помощью критерия хи-

квадрат:

(1)

С) (/>

где Пц-фактические значения клеточных частот, nij-теоре-

тические значения клеточных частот, вычисленные исходя из

предположения о независимости переменных, п. .=

rii., n.j-маргинальные частоты, п. = \ п.,, п = и...

77" ()

Вычисленное значение X2 сравнивается с табличной величиной

X2, соответствующей максимально вероятной величине случай-

ных расхождений фактических и теоретических частот. Таблич-

ное (критическое) значение X2 зависит ог числа степеней свобо-

ды (df) и принятого уровня значимости (вероятности ошибочно-

го решения) -a:df=(m-l) (п-1), где гп и п-число строк

и столбцов таблицы, соответственно; а обычно принимается

равным 0.01 или 0.05. Если фактические значения критерия

больше табличного, т. е. Xl>\г , то с вероятностью

(1-а) расхождения между nij и H]) нельзя считать случай-

ными. В этом случае факт наличия связи установлен, интен-

сивность связи можно измерить, применяя соответствующие

показатели: коэффициенты сопряженности (Пирсона, Чупро-

ва, Крамера), теоретико-информационные меры связей, коэф-

фициенты ранговой корреляции (Спирмена, Кендалла) и др.

Для разработки практических рекомендаций применяется

метод декомпозиции таблиц сопряженности. Он позволяет

установить, какой вклад в изучаемую связь вносят те или

иные значения переменных. Декомпозиция означает выделе-

ние фрагментов исходной таблицы в виде таблиц 2х2. Вычис-

ленные на их основе значения Х связаны с величиной X2 ,

для исходной таблицы число таких компонентов таблицы рав-

но числу степеней свободы: XSX (2). Разложение X2 на

W

аддитивные компоненты Х предполагает выполнение опре-

деленных правил построения компоненты таблиц 2х2 - каждая

из клеточных частот исходной таблицы должна встречаться

как клеточная частота только в одной из компонентных таб-

лиц; каждая маргинальная частота исходной таблицы должна

встречаться в одной из компонентных таблиц как частота оп-

ределенного типа - либо как клеточная, либо как маргиналь-

ная; каждая частота, которая содержится в одной из компо-

нентных таблиц, но которой нет в исходной таблице, должна

появиться в другой компонентной таблице как частота дру-

гого типа - как клеточная, если была маргинальной, или на-

оборот. Так как все компонентные таблицы 2х2, то критиче-

ское значение критерия X2 одно и то же для всех компонент-

ных таблиц, при a=0,05, df=l, ХЗ!. Компонентные таб-

лицы, для которых Xf; >Xdi соответствуют тем значениям

189

переменных, которые вносят статистически значимый вклад

в изучаемую связь.

Разные аспекты декомпозиции таблицы сопряженности вы-

являют разные аспекты изучаемой связи, поэтому целесооб-

разно не ограничиваться одним вариантом разложения исход-

ной таблицы.

Анализ факторный объединяет группу методов анализа

корреляций наблюдаемых признаков. Два коррелированные

признака (связанные положительно или отрицательно) позво-

ляют предположить существование третьего, непосредственно

не наблюдаемого признака (фактора), значение которого оп-

ределяет наблюдаемую корреляцию (может быть, является

ее причиной). Основное положение А. ф. заключается в том,

что наблюдаемые в исследовании группы тесно коррелирован-

ных между собой признаков можио объяснить и количествен-

но описать небольшим числом скрытых факторов. Таким об-

разом, А. ф. представляет собой определенный способ груп-

пировки признаков.

Исходными данными для А. ф. служит таблица xij изме-

рений признаков р) на объектах qi. Исходная таблица xi)

нормируется и представляется таблицей Xi) (рис. 1); хц=

= (xij-"xi)) / SJ, где Xj-среднее j-го признака, Sj-его дис-

персия. Нормирование превращает исходные признаки в безраз-

мерные позволяет изучать системы признаков разных наи-

менований; уравнивает вклад (вес) каждого признака в об-

щую изменчивость. По таблице вычисляется матрица коэффи-

циентов корреляции (рис. 2). Общая изменчивость (вариация)

признаков оценивается суммой rij. Если все Sn=l, то общая

вариация равна числу признаков.

Методами А. ф. устанавливается число факторов (в услов-

ном примере это число равно 2). Факторы определяются: фак-

торными нагрузками а11, которые являются коэффициентами

корреляции между i-м признаком и j-м фактором; факторны-

ми значениями (ц, которые являются значениями ненаблюдае-

мого (гипотетического) j-ro фактора на i-м объекте. Каче-

ство факторов (их объяснительная сила) определяется: вкла-

дами факторов в общую дисперсию vi=a ,, -hazi +-; общностя-

ми Н.Зц+арз +..., которые определяют вклад всех факторов

в дисперсию i-го признака. Для нормализованного признака

дисперсия равна 1, 1-H| характеризует специфичность при-

знака пли ту часть его дисперсии, которая не описывается

системой факторов.

Методы А. ф. различаются математической интерпрега-

цией основного п оценки общего чи утих методов за! (ГК), который мо этапа А. ф.исходная таблицаредполо ела скр1 имает жег быфакторн знаменижения ытых А. ф. ть рекые я>1F1и соответственно факторов. Особое методом главных омендован в каческорреляционная

Р1Р2РЗР4F1F2PIР,р,Р,F1F2н

q,Х"\2X>Xi.1"f"р,i1213Ка!!"1

Ч,х"\2X>X>I,il"Р,22232-а>22"2

ЧзХз,\.Х,э34(з,132РЗЭЭ.<312"3

44Х<\2х"f<14.Р,5"2"4

Ч,Х,>X.,Х,зX,.1"fs:qРиF1<",

Рис. FРЗа21 \1.2 1с. 2.2 3Г"1, 0 г Р

-1 Р1 -3 Т,, 0 45 -1Рио 3 Ч,-3с. 4. 191

/Р< Рис. 3

В ГК предполагается, что значения наблюденных признаков

являются линейной комбинацией скрытых факторов; факторы

вводятся последовательно так, что первый фактор вбирает

максимально возможную часть дисперсии, а каждый последу-

ющий фактор предполагается независимым от всех предыду-

щих и вбирает максимально возможную часть дисперсии,

оставшейся после предыдущих шагов. Процесс останавлива-

ется (этим фиксируется число факторов), когда введенные

факторы достаточно исчерпывают всю дисперсию (90 %) или