
- •10 Тыс. Населения материальных носителей: мест в учебных за-
- •1 Мес. До 1 г.) - на перспективу только количественных из-
- •2) Биосоциогенетическом (с. Индивидов в определенных соци-
- •2 Социологического исследования
- •IThOii;en][!I гспользопаиис II качестве сре.Ютпа более точного
- •11 Обработке первичной информации, принято называть о.
- •4) Написание итогового отчета с практическими рекоменда-
- •3 Информации
- •VI очередного фактора становится меньше 1, т. Е. Меньше чем
- •1) Вводная беседа и. С социологом; 2) ознакомление с ин-
- •31 Набор), но не требует предположений о транзитивности
- •11 Кластерного анализа, благодаря которым в дальнейшем про-
- •10 Различных ппп обработки социологических данных для
- •2) Наличия объекта, допускающего: а) возможность описания
- •II обучению (в некоторых из них предусмотрена возможность
- •60%), Около 20% составляют службы с 8 и более сотрудни-
- •Iiblii субъект производства и распространения массовой ни- ;
3 Информации
Анализ дисперсионный - метод математической статистики,
предназначенный для выявления влияния отдельных независи-
мых друг от друга признаков, традиционно называемых фак-
торами (А, В, С,...), на некоторый наблюдаемый признак (У).
Концепция А. д. предложена американским математиком
Р. Фишером в 1920 г. и состоит в выделении и сравнении
между собой различных компонент дисперсии признака У
(отсюда и название метода). Эти компоненты выделяются
посредством разложения вариации (SS) - сумма квадратов
отклонения от среднего значения - признака У на составные
части. В случае трех факторов А, В, С:
SS==SSA+SSB+SSc+SSAB+SSAC+SSBC+SSABC+SSe.
В такого рода разложения входят три группы компонент, обу-
словленные: 1) главными эффектами факторов (SSA, SSe, SSc);
2) взаимодействиями факторов (SSAB, ЗЗдс, SSac, ЗЗдвс);
3) остаточной дисперсией признака У (SSe). Для примене-
ния А. д. требуется определенная структура представле-
ния данных. Например, при решении задачи выявления влия-
ния образования (фактор А с тремя градациями) и пола
(фактор В с двумя градациями) на удовлетворенность тру-
дом (признак У) данные должны быть представлены в виде
табл. 1, где каждая клетка-ячейка А. д.-отвечает опре-
деленному сочетанию градаций-уровни факторов-образо-
вания и пола. Так, ячейку (3,1) составляют значения <удов-
летворенности трудом> мужчин с высшим образованием.
(N -- общее число наблюдений, n - число наблюдений в
ячейке).
Для этой задачи: SS=SSA+SSB+SSAB+SSe.
А. д. начинается с вычисления компонент SS, на основе
которых рассчитываются т. н. средние квадраты (интерпрети-
руются как различные оценки дисперсии), вычисляемые де-
лением соответствующей компоненты на отвечающее ей чис-
ло степеней свободы. В табл. 2 они приводятся для случая
двух факторов. Для приведенного примера г=3. s=2 (/, s-
число уровней факторов). Положим, что п=5, тогда N==30.
176
муж.
среднее ср. спец. высшее{Ун}{У2|}{Уз,}{Via}{У22} {У32?
табл. 1
компонентыSSASSnАВSSeSS
число степеней свободыг-1S-1(r-1) (S-1)r.S (n-1)N-1
табл. 2
Суждение о значимости влияния того или иного источника
дисперсии выносится после сравнения оценки дисперсии, от-
вечающей этому источнику, с оценкой, вычисленной на основе
SSe. Сравнение осуществляется посредством критерия Фише-
ра (F-критерий). Для этого вычисляется значение отноше-
ния этих оценок, т. е., например, для выявления влияния
только <пола> на изменчивость <удовлетворенности> необхо-
димо вычислить FA=SSA.24/SSe и сравнить с табличным зна-
чением FT, которое однозначно определяется при заданных
степенях свободы и для заданного уровня значимости. Если
Рд>Рт, то влияние пола на степень удовлетворенности рес-
пондентов трудом статистически значимо. Тогда процедуру
Л. д. можно продолжить с помощью т. н. методов множест-
венного сравнения: метод Тьюки и метод Шеффе (1-.3). Они
позволяют определить степень влияния отдельных уровней
интересующего фактора.
А. д. представляет собой совокупность методов, основан-
ных на линейном характере модели изучаемого явления. А. д.,
возникший как метод планирования эксперимента, применя-
ется для анализа данных. Наиболее благоприятными усло-
виями для его применения в предположении независимости
факторов являются одинаковость числа наблюдений в ячей-
ках; равенство дисперсий в ячейках; подчинение нормально-
му распределению данных в каждой ячейке.
177
А. д. может применяться и при нарушении упомянутых
условий. Так, нарушение распределения происходит при
больших значениях числа степеней свободы; нарушение ра-
венства дисперсий возможно для случая равного числа на-
блюдений в ячейках. Нарушение независимости наблюдений
в ячейках недопустимо.
Анализ документов-один из основных методов сбора
данных в социологическом исследовании, который направлен
на получение надежной социальной информации (социаль-
ных фактов, ценностей и норм поведения различных катего-
рий населения), зафиксированной в документах. Изучение
документальных источников имеет давнюю традицию в марк-
систской социологической науке. Методология и основные
принципы А. д. разработаны в таких трудах, как подготови-
тельные материалы к книге <Гражданская война во Франции>
К. Маркса, <Положение рабочего класса в Англии> Ф. Эн-
гельса, <Развитие капитализма в России>, <Статистика и со-
циология> В. И. Ленина.
Диапазон применения А. д. в современном социологиче-
ском исследовании достаточно широк. Он используется как
основной метод изучения информационно-пропагандистских,
исторических, художественных, статистических документов, со-
циологического инструментария. Часто выступает дополни-
тельным методом съема первичной социологической информа-
ции с целью уточнения, обогащения или сравнения результатов
наблюдения и опроса, их проверки.
Необходимым условием получения достоверной информа-
ции с помощью А. д. является проверка надежности докумен-
тального источника, т. е. выяснение целей и мотивов создате-
лей этих документов, конкретной социальной ситуации и исто-
рического контекста, в которых они возникли, способов их
хранения и распространения. Выборочная совокупность доку-
ментальных источников, подлежащих обследованию, форми-
руется в соответствии с программой социологического иссле-
дования, а также в зависимости от типа изучаемых доку-
ментов.
Все многообразие способов А. д. условно сводится к двум
основным типам: традиционному (качественному, содержа-
тельному) анализу и формализованному (количественному)
анализу. Поскольку информация, полученная этими двумя
способами, представлена в различных показателях, необходи-
мо строго соблюдать границы ее интерпретации, ориентируясь
на возможности каждого из способов. Рслп в первом типе
анализа отдельный документ (текст) рассматривается преи-
мущественно как самостоятельная единица информации, то
178
второй тип анализа предполагает изучение определенной со-
вокупности текстов.
Традиционный анализ - это толкование докумен-
та, его всесторонняя интерпретация путем выяснения основных
мыслей и идей конкретного текста, воссоздания логических
связей и противоречий между ними. Применяя традиционный
анализ, исследователь стремится постичь суть изучаемого до-
кумента, оценить его содержание в соответствии с политиче-
скими, нравственными или эстетическими критериями. Тради-
ционный анализ бывает внешний и внутренний. Внешний
предполагает восстановление обстоятельств создания докумен-
та в историческом и социальном планах. Внутренний
представляет собой анализ содержания документального ис-
точника, выяснение отраженных в нем конкретных социальных
связей и отношений. Традиционный анализ применим для всех
без исключения типов документ ов, будь то вербальные, ико-
нографические или фонетические источники. К специальным
методам традиционного анализа, помимо социологического,
относятся также исторический, психологический, юридический,
лингвистический, которые, будучи инструментами других на-
учных дисциплин, иногда используются и в социологическом
исследовании.
Чаще всего интерпретация документа представляет собой
оценочные суждения самого исследователя, обусловленные его
мировоззренческой позицией и ситуативными установками в
социальной и научной сферах. Задачи снижения субъективиз-
ма этого метода стимулируют разработку иных методик вы-
явления смысловых структур текста, направленных на поиск
объективных показателей содержания.
Весьма перспективен в этом отношении предложенный со-
ветскими исследователями информационно-целевой
метод (Т. М. Дридзе). Он используется для адекватной
смысловой интерпретации документа как самостоятельного це-
лостного образования, но с элементами формализации тек-
ста, которая осуществляется на том основании, что количе-
ство смысловых опорных узлов содержания (как правило, от-
дельных ключевых слов) ограничено в документе и может
быть подсчитано. Вычислив отношение между числом ключе-
вых слов, включенных в систему не известных до этого смыс-
ловых связей, и общим числом смысловых единиц содержа-
ния, можно получить коэффициент новизны или информатив-
ности каждого текста.
Формализованный (количественный) анализ, под
которым чаще всего понимают различные модификации кон-
тент-анализа, направлен на получение объективной пнформа-
179
цни о некоторой совокупности однородных документов (ин-
формационного потока) путем фиксации существенных харак-
теристик содержания и их количественного описания. Приме-
ним для определенного круга задач.
Анализ качественный регрессионный - группа методов мно-
гомерного анализа данных, позволяющих оценить влияние
нескольких качественных (классификационных или номиналь-
ных) независимых признаков (Х-ов) на зависимый признак У.
К таким методам относятся анализ регрессионный с дихото-
мическими переменными (РАД), множественный классифика-
ционный анализ (МКА), множественный номинальный анализ
(МНА) и др. Методы объединены в одну группу, так как по-
зволяют решать один и тот же набор задач, который ставится
в классическом регрессионном анализе: 1) выявить объясня-
ющую способность каждого предиктора как при условии его
независимости от других предикторов, так и при закреплен-
ном влиянии других предикторов; 2) выявить объясняющую
способность каждого предиктора и вместе взятых предикто-
ров; 3) предсказать значение зависимого признака У при усло-
вии, что известны значен.1я предикторов; 4) определить, на-
сколько предсказанные значения У отличаются от реально
наблюдаемых. Различие методов МКА и МНА определяется
шкалой зависимого признака, в МКА он интервальный или
числовой, в МНА - классификационный. Метод РАД дает
возможность использовать обычный аппарат количественного
регрессионного анализа для изучения влияния номинальных
признаков путем кодирования градаций предикторов дихото-
мическими переменными, которые принимают значение 1 для
респондентов или объектов, принадлежащих соответствующей
градации, и 0 - для остальных. Здесь также зависимый при-
знак может быть количественным (интервальным) либо дихо-
томическим. В методе РАД различие шкалы зависимого при-
знака не приводит к различию метода оценки параметров, но
влияет на их интерпретацию.
МКА позволяет оценить <поведение> как отдельных респон-
дентов, так и групп, задаваемых различными наборами зна-
чений предикторов, в смысле выявления среднего значения У
либо регрессионной зависимости для таких групп. В этом со-
стоит осуществление так называемого индивидуального про-
гноза с помощью модели:
iih
Y+
1=1
180
где i - номер предиктора, / - номер градации (-того предик-
тора, который принадлежит к-тый респондент, р - число пре-
дикторов. Коэффициенты влияния ai, оцениваются таким об-
разом, чтобы обеспечить наилучшую <подгонку> наблюдаемых
данных в смысле минимума критерия суммы квадратов оши-
бок, т. е.
Л/
где N-число респондентов (объектов).
Коэффициент влияния aij интерпретируется как отклонение
средней j-той градации i-того предиктора для зависимого при-
знака от среднего значения У для всей выборки. На основа-
нии значений ai) рассчитываются оценки связи предикторов
с зависимым признаком как отдельно, так и в связи с други-
ми предикторами (с учетом коррелированности), а также сов-
местная связь всех признаков модели, т. е. множественный
коэффициент корреляции R, квадрат которого определяет объ-
ясняющую способность модели. Индивидуальные прогнозные
значения У определяются на основании равенства (1).
МНА связан концептуально и технически с методом МКА,
т. к. основан на параллельном применении МКА к серии G
регрессионных моделей типа (1), где G равно числу непустых
градаций зависимого классификационного У. Меняется толь-
/"S __
ко интерпретация оценок {Y}, {Y} и {a,,};, l=\,...,G.
Вместо средних значений Y и отклонений от средних ai, в МКА
имеем частоты распределений по выборке {Y}], по модели {Y}e
и частотные отклонения {ац}|. Прогноз состоит в выборе макси-
/\
мального значения из набора вероятностей (частот) {Y}i для
определенного сочетания значений Х-ов.
На основе результатов анализа этих методов исследова-
тель получает возможность активно влиять на формирование
шкал предикторов, выбор самих предикторов, глубже прони-
кая в механизмы взаимосвязей предикторов с зависимой пере-
менной. Такой процесс активного взаимодействия с данными,
не ограниченный каким-либо автоматическим селективным
процессом, как часто бывает в других методах и программах,
дает возможность повышать как объяснительную, так и пред-
сказывающую функции методов и вместе с этим их практиче-
скую направленность.
181
Анализ кластерный-метод классификации объектов (рес-
пондентов, территориальных единиц, текстов) и признаков,
описывающих эти объекты. Этот метод называют также таксо-
номия, распознавание образов без учителя.
Цель классификации - разделение рассматриваемой сово-
купности на однородные группы объектов (признаков), близ-
кие между собой по определенному критерию и отличающие-
ся от объектов в других группах. Классификация объектов
производится одновременно по ряду признаков на основе оп-
ределенной меры суммарной близости по всем признакам клас-
сификации. Классификация признаков осуществляется на ос-
нове различных коэффициентов парной корреляции.
При группировке объектов эта процедура используется в
качестве предварительного этапа для отбора и построения
признаков классификации. Выделение тесно связанных групп
признаков позволяет отсеять дублирующие признаки, выявить
общие <скрытые> факторы, обусловливающие связь призна-
ков в группах.
Важное значение при использовании метода А. к. имеет
выбор адекватной меры близости между классифицирующими
объектами и алгоритма классификации.
Имеется широкий набор различных мер близости для раз-
ных шкал измерения признаков. В этом случае, когда призна-
ки классификации количественные, часго используется эвкли-
дово расстояние:
/i><-
k=\
где XIK, к=1,2,...,п-значения признаков классификации для
i-го объекта; Х)к, к=1,2,...,п-значения признаков классифи-
кации для j-го объекта.
Для учета разной значимости признаков в мерах близости
используются весовые коэффициенты, позволяющие в боль-
шей степени учитывать различия по наиболее значимым при-
знакам, в меньшей степени-по менее существенным для клас-
сификации признакам.
Например, для вычисления близости между объектами на
основе эвклидова расстояния с использованием весовых ко-
эффициентов применяется следующая формула:
"
. - I/ V W Ix - х )1
~ \ _ " h "ih "W
k=l
182
где Wk - коэффициент, оценивающий относительную значи-
мость признака Xk.
Среди алгоритмов А. к. выделяются следующие основные
типы:
1. Иерархические алгоритмы, подразделяющиеся
на: агломеративные (последовательно объединяющие объек-
ты во все более крупные группы) и дивизимные (последова-
тельно разделяющие объекты на все более мелкие и однород-
ные группы).
При использовании агломеративного алгоритма, например,
на первом шаге каждый объект принимается за отдельный
кластер. На каждом последующем шаге объединяются по оп-
ределенному критерию (минимум расстояния между ближай-
шими объектами кластеров, минимум среднего значения рас-
стояния между всеми парами объектов, принадлежащих двум
разным кластерам и др.) два ближайших кластера. Каждый
шаг работы алгоритма соответствует разделению объектов на
группы определенной степени однородности.
2. Алгоритмы, оптимизирующие заданный
критерий качества классификации. Проводится
некоторое предварительное распределение объектов по класте-
рам. На каждом шаге работы алгоритма проводится перерас-
пределение объектов между кластерами, улучшающее перво-
начальную классификацию. Качество классификации оценива-
ется определенным количественным критерием, оценивающим
однородность получаемых групп и их различие между собой.
3. Алгоритмы поиска <сгущений> объектов.
Объекты классифицируются на основе поиска областей наи-
большей концентрации точек - <сгущений>,- представляющих
объекты в пространстве признаков классификации. Сгущения
в окрестности некоторого центра (которым может быть один
из объектов) определяются на основе подсчета объектов, от-
стоящих не более чем на расстояние R от выбранного центра,
то есть попавших в сферу радиуса R.
Алгоритмы классификации позволяют посредством итера-
тивного изменения центров и величины R сдвигать эти сферы
в области сгущений точек и тем самым выявлять однородные
группы объектов. Интерпретация результатов классификации
проводится на основе анализа статистических распределений
признаков, по которым проводилась группировка, а также не
участвовавших в классификации признаков (<внешних>) в по-
лученных группах (кластерах).
Результаты классификации представляются в виде различ-
ного рода таблиц, содержащих основные характеристики ста-
тистических распределений признаков в кластерах, а также
183
в графической форме, например, в виде так называемых денд-
рограмм, репрезентирующих распределение объектов по груп-
пам на различных шагах работы алгоритма.
Анализ латентно-структурный (от лат. Latentis - скрытый,
невидимый) - метод статистического анализа эмпирических
данных, позволяющий по ответу респондентов на некоторое
множество вопросов выявить их распределение по некоторому
скрытому (латентному) признаку. Этот признак нельзя изме-
рить непосредственно, но использованное социологом множе-
ство вопросов позволяет зафиксировать различные его прояв-
ления. Метод предложен в 40-х годах П. Лазарсфельдом. По
своим задачам А. л.-с. сходен с методом факторного анали-
за, но в отличие от факторного анализа, требующего, чтобы
исходные признаки были количественными, А. л.-с. предназна-
чен для анализа качественных дихотомических переменных.
Существуют также обобщения метода А. л.-с. (например, ме-
тод латентно-профильного анализа У. Гибсона), которые по-
зволяют анализировать не только качественные дихотомиче-
ские, но и качественные многовариантные, и количественные
признаки, причем итоговый (латентный) признак может быть
как качественным, так и количественным. Несмотря на опреде-
ленные преимущества по сравнению с методом факторного
анализа, А. л.-с. не получил широкого распространения у нас
в стране.
Анализ логлинейный - основан на одном из видов моде-
лей клеточных частот таблицы сопряженности. Предполага-
ется, что выборочные частоты анализируемой таблицы сопря-
женности nijK... порождаются теоретическими частотами
Пик-, характеризующими генеральную совокупность. Теорети-
ческие частоты отвечают определенным гипотезам о связях,
формируемым в виде тех или иных моделей. Соответствие
фактических и теоретических частот оценивается критерием
х2. В простейшем случае - двух дихотомических переменных
х и у логлинейная модель имеет вид:
log (.) = л + Ц + + /.,
где У - представляет взаимодействие переменных, л,," =0
только тогда, когда две переменные не связаны.
Логлинейная модель системы из трех переменных х, v, z
имеет вид:
184
Модель, включающая все возможные взаимосвязи перемен-
ных, является насыщенной (полной). На ее основе определя-
ется модель, наиболее адекватная анализируемой таблице со-
пряженности, в ее состав включаются только параметры, для
которых выполняется условие (л./S )>1крит.
Оценки параметров К выполняются следующим образом:
=..->-;
=я". -",..-"./. -
=",..+>/.+".
/ft
Точка в подстрочном индексе обозначает среднее значение по
- __Lv
опущенному индексу, так " - щ Z-nijh
{tjk}
где П[ж-наблюдаемая частота клетки (i, j, k), m-число
клеток таблицы сопряженности. Оценка дисперсии параметра
л, для насыщенной модели равна:
6" УМ, б",
пгх ./1 №[(/-!)" (J-l)" (fe-l)P
s -{-lyk) L-----------------
\!yk
-ijk
где 6- 1, если х принадлежит к группе переменных с и i-i,
в противном случае б =0. Подобным же способом вычисля-
ются 6, 8.
Анализ причинный - статистический метод, применяемый в
генетике, социологии, эконометрии с целью установления при-
чинно-следственных связей между определенными переменны-
ми. В социологическом контексте он является методом для
измерения силы постулируемых причинно-следственных связей
между наблюдаемыми признаками (переменными) и для под-
тверждения или опровержения внутренней <причинной> на-
полненности сети таких связей, т. е. проверки гипотез.
В А. п. переменные подразделяют на экзогенные (или ос-
новные, предположительно не имеющие прямой причины), эн-
догенные (имеющие прямую причину, т. е. являющиеся непо-
средственным следствием неких экзо- или эндо- генных пере-
менных) и остаточные (или внешние, которые заведомо не
оказывают сильного воздействия на рассматриваемые эндо-
и экзо- генные и сами не являются их следствием). Входными
данными для проведения А. п. являются диаграмма прпчнн-
185
ных связей (т. н. путевая диаграмма) между рассматривае-
мыми переменными и таблица парных корреляций. Отметим,
что сами по себе скоррелированностн переменных не означают
наличие прямых причинных связей, так же как и косвенных,
однако часто интерпретировались в ложно-причинном кон-
тексте.
Для однозначности решения задачи А. п. на основе парных
корреляций переменные должны удовлетворять двум усло-
виям. 1. Минимум одна переменная определяется как зависи-
мая (т. е. эндогенная), а стрелки на путевой диаграмме од-
нонаправлены (однозначность причинно-следственной связи).
2. Воздействие остаточных переменных на рассматриваемые
должно быть чисто случайным (сильно сказываться не более
чем на одной переменной). Привлечение необходимого числа
переменных, достаточного для <замкнутости> в указанном
смысле системы рассматриваемых переменных, является ос-
новной проблемой А. п. Проверка гипотез в рамках А. п. осу-
ществляется процедурой Саймона-Блалока: если в исходной
формулировке XJ имеет прямыми причинами хзо), Хзо>.., XK(I),
а X] есть непрямой причиной Xj, то полагая Xi(j)=xi и рассчиты-
вая частные корреляции между х, и х,, мы по равенству их О
(или достаточной малости), или неравенству их 0 будем судить
о том, является ли Xi непрямой причиной Xj. Задача установ-
ления силы причинной связи между рассматриваемыми пере-
менными сводится к нахождению т. н. причинных (путевых)
коэффициентов по линейной регрессионной схеме, имеющей
следующий вид:
Y=BY+RZ+V; (1)
Y=RZ+V,
(2)
где Y - эндогенные переменные. В, R, R - матрицы, элементы
которых суть причинные коэффициенты, Z - экзогенные пе-
ременные, V, V-внешние переменные (компенсирующие).
Схема (1) относится к рекурсивным системам (связность
путевой диаграммы). Схема (2) относится к случаю т. н. не-
рекурсивной системы (путевая диаграмма будет несвязанным
графом). Отметим, что схема (2) может давать неоднознач-
ные решения.
А. п. впервые был предложен генетиком С. Райтом в 1921 г.
для решения задач полуляционной генетики и сначала раз-
вивался в ее рамках. Как метод социальной статистики был
применен и развит в 50-х годах. На современную основу, с
учетом применения ЭВМ был поставлен в 70-х гг.
186
Анализ регрессионный - статистические методы исследова-
ния регрессионной зависимости (регрессии) между зависимым
признаком У и независимыми (регрессорами, предиктора-
ми) Xi,.......,Xp. А. р. решает задачи определения общего вида
уравнения регрессии, нахождения оценок параметров этого
уравнения, оценки качества регрессии, проверки статистиче-
ских гипотез, которые служат двум основным целям А. р.-
предсказания и объяснения. В ситуации прогноза акцент сме-
щается на получение оценок У по значениям Х-ов при мини-
?\
мизации суммы квадратов отклонений (У - У)2=l2-mn
ft- 1
реально наблюдаемых У и их оценок, N - объем выборки.
При объяснительном подходе необходимо решить задачу оцен-
ки индивидуального вклада каждого из предикторов X, ...... Xi
в объяснение дисперсии зависимого признака.
В случае многомерной линейной регрессии y=Bo+BiXi+
+...+ВрХр исследованию подлежит модель
YBo+BiXi+BaXa+.-.+BpXp+L, (1)
которую можно представить в матричной форме У=ХВ+Ь,
где у - вектор наблюдений зависимого признака размерности
(NXI);
X - матрица наблюдений предикторов размерности (NXP);
В-вектор параметров размерности (PXI);
(.-вектор ошибок размерности (NXI).
Для того, чтобы применить метод наименьших квадратов
для оценивания параметров модели, необходимо выполнение
следующих предположений равенства условных дисперсий,
т. е. D (y/X)=const, независимости ошибок от предикторов и
нормального их распределения с нулевым средним и постоян-
ной дисперсией, попарного нормального распределения всех
признаков модели. Решение нормальных уравнений записыва-
ется в виде B=(XX)-XY. Параметры B| ярляются частны-
ми коэффициентами корреляции, Bi2 интерпретируется как
доля дисперсии Y, объясненная Xi при закрепленном влиянии
остальных Х-ов, т. е. измеряет индивидуальный вклад Xi в
объяснение У. В случае коррелирующих Х-ов возникают
проблемы неопределенности в оценках Bi и др., которые ста-
новятся зависимыми от порядка включения Х-ов в модель.
В таких случаях необходимо применение методов корреля-
ционного анализа и пошагового А. р.
187
Построение доверительных интервалов для оценок парамет-
ров и проверка гипотезы об отсутствии связи (Bi=0) произ-
водится с помощью критерия Стыодента. Оценка значимости
регрессии производится с помощью критерия Фишера, для
которого оценивается коэффициент множественной корреля-
ции R, характеризующий общую связь всех признаков моде-
ли. R2 характеризует долю дисперсии, объясненную всеми
признаками модели (1).
I/ s
\ i
ft=l
A. p. позволяет оценивать также и нелинейные отношения,
оценить уравнение 1 с включением качественных признаков
в уравнение. При этом изменяется не метод оценки, а только
интерпретация результатов.
Методы А. р. широко используются в социально-экономи-
ческих исследованиях для оценок регрессионных отношений
спроса, предложения, при изучении бюджетов семей и т. д.
Анализ таблиц сопряженности-то есть распределений по
двум и более переменным, начинается с установления наличия
связи между переменными. Анализ основан на значениях кле-
точных частот. Если таблица сопряженности квадратная, т. е.
число строк равно числу столбцов и все частоты в диагональ-
ных клетках не равны нулю, а остальные - имеют нулевое
значение, то между переменными имеется полная связь и на-
оборот, если данные распределены достаточно равномерно по
клеткам таблицы, то имеется слабая связь, либо связь отсут-
ствует. При любом числе строк и столбцов факт наличия или
отсутствия связи устанавливается с помощью критерия хи-
квадрат:
(1)
С) (/>
где Пц-фактические значения клеточных частот, nij-теоре-
тические значения клеточных частот, вычисленные исходя из
предположения о независимости переменных, п. .=
rii., n.j-маргинальные частоты, п. = \ п.,, п = и...
77" ()
Вычисленное значение X2 сравнивается с табличной величиной
X2, соответствующей максимально вероятной величине случай-
ных расхождений фактических и теоретических частот. Таблич-
ное (критическое) значение X2 зависит ог числа степеней свобо-
ды (df) и принятого уровня значимости (вероятности ошибочно-
го решения) -a:df=(m-l) (п-1), где гп и п-число строк
и столбцов таблицы, соответственно; а обычно принимается
равным 0.01 или 0.05. Если фактические значения критерия
больше табличного, т. е. Xl>\г , то с вероятностью
(1-а) расхождения между nij и H]) нельзя считать случай-
ными. В этом случае факт наличия связи установлен, интен-
сивность связи можно измерить, применяя соответствующие
показатели: коэффициенты сопряженности (Пирсона, Чупро-
ва, Крамера), теоретико-информационные меры связей, коэф-
фициенты ранговой корреляции (Спирмена, Кендалла) и др.
Для разработки практических рекомендаций применяется
метод декомпозиции таблиц сопряженности. Он позволяет
установить, какой вклад в изучаемую связь вносят те или
иные значения переменных. Декомпозиция означает выделе-
ние фрагментов исходной таблицы в виде таблиц 2х2. Вычис-
ленные на их основе значения Х связаны с величиной X2 ,
для исходной таблицы число таких компонентов таблицы рав-
но числу степеней свободы: XSX (2). Разложение X2 на
W
аддитивные компоненты Х предполагает выполнение опре-
деленных правил построения компоненты таблиц 2х2 - каждая
из клеточных частот исходной таблицы должна встречаться
как клеточная частота только в одной из компонентных таб-
лиц; каждая маргинальная частота исходной таблицы должна
встречаться в одной из компонентных таблиц как частота оп-
ределенного типа - либо как клеточная, либо как маргиналь-
ная; каждая частота, которая содержится в одной из компо-
нентных таблиц, но которой нет в исходной таблице, должна
появиться в другой компонентной таблице как частота дру-
гого типа - как клеточная, если была маргинальной, или на-
оборот. Так как все компонентные таблицы 2х2, то критиче-
ское значение критерия X2 одно и то же для всех компонент-
ных таблиц, при a=0,05, df=l, ХЗ!. Компонентные таб-
лицы, для которых Xf; >Xdi соответствуют тем значениям
189
переменных, которые вносят статистически значимый вклад
в изучаемую связь.
Разные аспекты декомпозиции таблицы сопряженности вы-
являют разные аспекты изучаемой связи, поэтому целесооб-
разно не ограничиваться одним вариантом разложения исход-
ной таблицы.
Анализ факторный объединяет группу методов анализа
корреляций наблюдаемых признаков. Два коррелированные
признака (связанные положительно или отрицательно) позво-
ляют предположить существование третьего, непосредственно
не наблюдаемого признака (фактора), значение которого оп-
ределяет наблюдаемую корреляцию (может быть, является
ее причиной). Основное положение А. ф. заключается в том,
что наблюдаемые в исследовании группы тесно коррелирован-
ных между собой признаков можио объяснить и количествен-
но описать небольшим числом скрытых факторов. Таким об-
разом, А. ф. представляет собой определенный способ груп-
пировки признаков.
Исходными данными для А. ф. служит таблица xij изме-
рений признаков р) на объектах qi. Исходная таблица xi)
нормируется и представляется таблицей Xi) (рис. 1); хц=
= (xij-"xi)) / SJ, где Xj-среднее j-го признака, Sj-его дис-
персия. Нормирование превращает исходные признаки в безраз-
мерные позволяет изучать системы признаков разных наи-
менований; уравнивает вклад (вес) каждого признака в об-
щую изменчивость. По таблице вычисляется матрица коэффи-
циентов корреляции (рис. 2). Общая изменчивость (вариация)
признаков оценивается суммой rij. Если все Sn=l, то общая
вариация равна числу признаков.
Методами А. ф. устанавливается число факторов (в услов-
ном примере это число равно 2). Факторы определяются: фак-
торными нагрузками а11, которые являются коэффициентами
корреляции между i-м признаком и j-м фактором; факторны-
ми значениями (ц, которые являются значениями ненаблюдае-
мого (гипотетического) j-ro фактора на i-м объекте. Каче-
ство факторов (их объяснительная сила) определяется: вкла-
дами факторов в общую дисперсию vi=a ,, -hazi +-; общностя-
ми Н.Зц+арз +..., которые определяют вклад всех факторов
в дисперсию i-го признака. Для нормализованного признака
дисперсия равна 1, 1-H| характеризует специфичность при-
знака пли ту часть его дисперсии, которая не описывается
системой факторов.
Методы А. ф. различаются математической интерпрега-
цией основного п оценки общего чи утих методов за! (ГК), который мо этапа А. ф.исходная таблицаредполо ела скр1 имает жег быфакторн знаменижения ытых А. ф. ть рекые я>1F1и соответственно факторов. Особое методом главных омендован в каческорреляционная
Р1Р2РЗР4F1F2PIР,р,Р,F1F2н
q,Х"\2X>Xi.1"f"р,i1213Ка!!"1
Ч,х"\2X>X>I,il"Р,22232-а>22"2
ЧзХз,\.Х,э34(з,132РЗЭЭ.<312"3
44Х<\2х"f<14.Р,5"2"4
Ч,Х,>X.,Х,зX,.1"fs:qРиF1<",
Рис. FРЗа21 \1.2 1с. 2.2 3Г"1, 0 г Р
-1 Р1 -3 Т,, 0 45 -1Рио 3 Ч,-3с. 4. 191
/Р< Рис. 3
В ГК предполагается, что значения наблюденных признаков
являются линейной комбинацией скрытых факторов; факторы
вводятся последовательно так, что первый фактор вбирает
максимально возможную часть дисперсии, а каждый последу-
ющий фактор предполагается независимым от всех предыду-
щих и вбирает максимально возможную часть дисперсии,
оставшейся после предыдущих шагов. Процесс останавлива-
ется (этим фиксируется число факторов), когда введенные
факторы достаточно исчерпывают всю дисперсию (90 %) или