Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Социологические и психологические методы исслед....doc
Скачиваний:
85
Добавлен:
08.12.2018
Размер:
3.27 Mб
Скачать

2.1. Описательная статистика

Цель любого научного исследования, как мы уже указывали, заключается в обнаружении закономерно­стей внутри определенного класса явлений. Законо­мерность, в самом широком смысле слова означает не­кую регулярность, однотипность. О регулярности, в свою очередь, можно говорить там, где явления по­вторяются, где они носят более или менее массовый характер. Статистические методы как раз и предназ­начены для анализа подобных явлений и процессов. Они позволяют выявлять устойчивые тенденции и строить на этой основе теории, предназначенные для их объяснения.

Наука всегда имеет дело с разнообразием действи­тельности, но свою задачу она видит в обнаружении порядка вещей, некоторой устойчивости внутри на­блюдаемого разнообразия. Например, антропология изучает физические особенности строения тела чело­века. По признакам строения тела (цвета кожи, глаз, волос, формы черепа и т. д.) она выделяет определен­ные типы — человеческие расы. Но ее не интересуют такие признаки, как количество глаз, ушей или паль­цев, поскольку это константы: люди (в норме) не раз­личаются между собой по этим признакам. Выше уже было сказано, что наука имеет дело с переменными, однако она стремится выделить такие их значения, ко­торые лучше всего объясняют наблюдаемое разнооб­разие проявлений. Статистика снабжает нас удобны­ми приемами такого анализа.

Для использования статистики требуются два ос­новных условия:

а) мы должны иметь данные о группе (выборке) лю­дей;

б) эти данные должны быть представлены в формали­зованном (кодифицированном) виде.

Задачи описательной статистики в целом совпада­ют с задачами качественного анализа: это сжатие информации и представление ее в удобном для обозре­ния виде.

Наиболее простой случай возникает тогда, когда наши данные могут быть представлены одной пере­менной. Используемые для этого методы объединяют­ся в группу под названием одномерный статистичес­кий анализ. В зависимости от типа данных и от задач, которые ставит исследователь, выбирается тот или иной конкретный способ анализа.

Достаточно простым и удобным приемом анали­за количественных данных является построение распределения частот. Проиллюстрируем его на примере. Допустим, проводится исследование, в ко­тором каждому участнику, среди прочих, задается вопрос о его семейном положении. Ответы фикси­руются, а общие результаты сводятся в таблицу, где против фамилии каждого участника указано его се­мейное положение. Далее эти первичные данные мы хотим представить в более сжатой и удобной для анализа форме. Для этого мы разбиваем их на кате­гории, подсчитывая количество людей в каждой группе. Сами категории выбираются в зависимости от целей исследования и могут быть более широки­ми или более узкими. Если используется вопрос за­крытого типа, то мы сразу фиксируем ответы в ко­дированной форме. Если же используется вопрос открытого типа, то кодирование осуществляет сам исследователь. Отметим, что более узкие категории всегда можно укрупнить. Но если информация структурируется прямо на этапе ее сбора, то потом нельзя будет разбить данные на большее число категорий. Часть информации оказывается поте­рянной.

Предположим, мы выбрали следующие катего­рии: женат/замужем, холост/не замужем, разве­ден/разведена, вдовец/вдова. Подсчитывая число от­ветов в каждом классе, мы можем построить таблицу распределения, которая значительно компактнее и удобнее для анализа, чем полная таблица ответов. Предположим, всего было 30 респондентов, и один из них отказался отвечать на данный вопрос. Тогда таблица распределения частот может иметь следую­щий вид:

Таблица 1 Данные о семейном положении респондентов

Семейное положение

Частоты

Доли

Проценты

Женат/замужем

16

0,53

53,3 (55,2)

Холост/не замужем

4

0,13

13,3 (13,8)

Разведен/разведена

7

0,23

23,3 (24,1)

Вдова/вдовец

2

0,07

6,7 (6,9)

Данные отсутствуют

1

0,03

3,3

Всего

30

0,99

99,9 (100)

■ Из таблицы видно, что большая часть респонден­тов (более половины) женаты или замужем. Отметим, что если какие-то отсутствуют, их следует выделить в самостоятельную категорию. Анализ таких пропу­щенных значений часто выделяют в самостоятельную задачу.

Анализируя таблицу, мы сравниваем между собой категории и видим, как они представлены в нашей вы­борке. Нас чаще всего интересуют не абсолютные зна­чения, а относительные. И тогда мы переводим часто­ты в доли относительно общего числа наблюдений, ко­торое мы принимаем за единицу. Для этого мы делим каждое значение на общее число наблюдений (в на­шем случае — на 30). Полученные дроби можно внести в таблицу отдельным столбцом. Тогда хорошо видно, что в нашей выборке немногим более половины рес­пондентов находятся в браке, а около четверти — в разводе. Относительные значения удобны еще и тем, что позволяют легко сопоставлять данные по двум вы­боркам разного объема. Допустим, у нас есть данные о семейном положении другой группы людей, и мы хо­тим сравнить их с данными первой группы. Если во второй группе тоже тридцать человек, то можно прямо сравнивать частоты. Если же выборки различаются размерами, то мы предварительно вычисляем относи­тельные значения путем деления абсолютной величи­ны на объем выборки. Последний показатель принято обозначать латинской буквой N. В разобранном толь­ко что примере N = 30.

Помимо долей, относительными единицами явля­ются также проценты. Если в первом случае целое принимается за единицу, то во втором случае — за сто процентов. От долей легко перейти к процентам: каж­дое значение просто умножается на сто. Процентное выражение предпочтительно тем, что с целыми числа­ми работать удобнее, чем с дробями. Но по существу проценты и доли — это эквивалентные единицы напо­добие рубля и копейки. Относительные единицы поз­воляют сравнивать не только аналогичные показатели, полученные на разных выборках, но и качественно различные показатели между собой. Например, для характеристики имущественного расслоения в об­ществе используют следующий прием: подсчитывают, какой процент всей собственности сосредоточен в ру­ках десяти процентов самых богатых людей. Понятно, что в случае полного имущественного равенства этот показатель будет равен десяти процентам. Чем он больше отличается от этого значения, тем выше сте­пень имущественного неравенства в обществе.

Последний столбец в Таблице 1 представляет дан­ные в процентах. Обратим внимание, что итог у нас оказался несколько меньше ста процентов из-за округ­лений при вычислениях. Поскольку данные по одному индивиду отсутствуют, можно пересчитать проценты без этой пустой категории, полагая теперь N = 29. Скорректированные данные представлены в скобках. При сравнении с другой выборкой мы будем использо­вать именно их.

До сих пор мы разбирали случай, когда исходные данные были качественными, то есть образовывали шкалу наименований. Но мы можем строить распре­деление частот и для шкал порядка или отношений. Правда, в последнем случае обычно данные пред­ставляют в сгруппированном виде, так как иначе об­разуется очень много классов. Например, мы иссле­дуем возрастной состав той же группы из тридцати человек. Если она не однородна в этом отношении, данные окажутся «размазанными». Тогда мы их группируем, выбирая определенный шаг (например, пять или десять лет), и вносим в таблицу обобщен­ные данные. Шаг выбирается с учетом характера данных и задач анализа. Снова отметим, что группировка данных приводит к потере части информации. Но зато мы добиваемся ее лучшей обозримости. Таб­лица, которая в результате получится, может выгля­деть так:

Таблица 2 Данные о возрастном составе группы

Возрастная группа

Частоты

%

Накопленные частоты

Накопленные

%

20-29

12

40,0

12

40,0

30-39

8

26,7

20

66,7

40^9

5

16,7

25

83,4

50-59

3

10,0

28

93,4

60-69

2

6,7

30

100,1

Всего

30

100,1

30

100,1

В первом столбце представлены возрастные интер­валы. Обратим внимание, что они не пересекаются, то есть мы берем интервалы 20 — 29, 30 — 39, а не 20 — 30, 30 — 40. Иначе неясно будет, куда относить ин­дивидов, попадающих на стык возрастных групп. Во втором и третьем столбцах представлены соответ­ственно частоты и проценты. Глядя на них, мы видим, что возрастной состав группы неоднородный: в ней преобладают молодые люди, а люди старших возрас­тов встречаются реже.

В четвертом и пятом столбцах частоты и проценты представлены в несколько иной форме, которая при­менима для упорядоченных категорий (шкал порядка или отношений). Частоты и проценты суммируются по всем предыдущим категориям. При такой форме пред­ставления данных хорошо видно, сколько человек или какая доля выборки находятся ниже (или выше) опре­деленного уровня. В нашем примере 25 человек из 30, или 83,4 %, моложе пятидесяти лет.

Данные о распределении переменной можно пред­ставить не только в форме таблиц, но и в форме гра­фиков, которые еще более наглядны. Рассмотрим четыре типа графиков, которые чаще всего используются в случае одномерного распределения. Для неупо­рядоченных категорий (шкала наименований) обычно применяют столбиковые диаграммы. Число столбиков соответствует числу категорий. Высота каждого стол­бика отражает частоту встречаемости данной катего­рии. Все столбики рисуются одинаковой ширины и не соприкасаются друг с другом. Порядок их расположе­ния на горизонтальной оси может быть любым. Для представления долей и процентов удобны круго­вые диаграммы. Весь круг соответствует единице или ста процентам, а величина каждого сектора отражает представительство соответствующей категории.

n

111

Разведем 'разведена Дачные oi ie замужем Вдсвя'вповец

Рис. 2. Круговая диаграмма (Данные из Табл. 1)

Рис. 1. Столбиковая диа­грамма (Данные взяты из Табл. I)

Для наглядного представления измеренных данных (шкала равных интервалов) используются так называ­емые гистограммы и полигоны. Гистограмма похожа на столбиковую диаграмму, только на горизонтальной оси в этом случае указываются границы интервалов. Столбики примыкают друг к другу. Высота столбика соответствует наблюдаемой частоте. Гистограмму лег­ко преобразовать в полигон. Для этого середины вер­шин каждого столбца соединяются между собой пря­мыми отрезками. Получается ломаная линия, повторя­ющая контур, образуемый столбиками. Гистограмма удобна для изображения особенностей одного распре­деления. Преимущество полигона заключается в том, что на одном графике можно представить несколько полигонов и затем сравнивать между собой разные выборки.

Возрастные группы

Возрастные группы

Рис. 3. Гистограмма рас­пределения возрастов (данные из Табл. 2)

Рис. 4. Полигон распреде­ления возрастов (те же данные)

Построение таблиц и графиков — это первый шаг статистического анализа. Следующим шагом является оценка параметров распределения. Вычисляются пока­затели, которые позволяют дать еще более сжатое опи­сание наблюдаемых значений. Эти показатели распада­ются на две основные группы: меры центральной тен­денции и меры рассеяния. К наиболее часто используемым показателям первого типа относится так называемое (арифметическое) среднее. Вычисляют его, как известно, путем суммирования значений всех на­блюдений и деления полученной суммы на общее число наблюдений. В случае сгруппированных данных посту­пают следующим образом: находят середину каждого интервала, это значение умножают на частоту, получен­ные величины складывают и делят на общее число на­блюдений. Рассматриваемый показатель характеризует область распределения, в которой концентрируются наиболее типичные представители изучаемой выборки. Но это справедливо лишь для тех случаев, когда распре­деление близко к нормальному. При таком распределе­нии основная масса значений концентрируется в его средней части, а любые отклонения встречаются тем реже, чем дальше они отстоят от центра. Например, распределение такого признака, как рост человека, в целом близко к нормальному: больше всего людей среднего роста, а очень высокие и очень маленькие по­падаются довольно редко. Средняя величина удобна для сравнения двух выборок или двух популяций. Так, мы говорим, что мужчины в среднем выше женщин, и это утверждение вполне справедливо несмотря на то, что встречаются высокие женщины, рост которых значи­тельно превышает среднестатистический. Или, напри­мер, известно, что средний рост мужчины-пигмея мень­ше роста средней европейской женщины.

Две другие меры центральной тенденции — это мо­да и медиана. В качестве моды берется значение, кото­рое чаще всего встречается в распределении. Моду специально вычислять не надо. Достаточно сгруппиро­вать данные и выбрать тот класс, в который попадает больше всего наблюдений. В разобранном выше при­мере (Табл. 1) лучше всего представлена категория се­мейных людей. Это и есть мода для данной выборки. Можно рассчитать среднее количество детей в совре­менной российской семье. Допустим, мы получим по­казатель 1,3. Но какой реальный смысл он будет иметь? Что такое три десятых ребенка? Правильнее сказать, что сейчас в семье чаще всего один ребенок, то есть использовать моду в качестве показателя цент­ральной тенденции. Встречаются распределения, име­ющие не одну, а две моды. Распределение такого типа называется бимодальным. На графике в этом случае мы увидим две вершины. Чаще всего это указывает на то, что выборка является неоднородной: в ней присут­ствуют два типа объектов. Констатация такого факта обычно наводит нас на мысль разбить всю выборку на две подгруппы и рассмотреть их отдельно.

Для того чтобы найти медиану, нужно ранжиро­вать все наблюдения, то есть расположить их в поряд­ке возрастания значений. Значение того наблюдения, которое окажется как раз посредине, и будет медиа­ной. А если число наблюдений четное? Тогда сравни­вают значения двух наблюдений, попадающих в сере­дину. Если они различаются между собой, то берется их среднее арифметическое значение. В случае сгруп­пированных данных медиана рассчитывается по спе­циальной формуле. Когда распределение имеет нор­мальный вид (то есть оно симметрично), его среднее арифметическое значение и медиана совпадают. Ког­да же распределение асимметрично (скошено), медиа­на лучше схватывает его центральную тенденцию.

Выбор подходящей меры центральной тенденции 384 определяется как характером распределения, так и характером используемых данных. Качественные дан­ные (шкала наименований) допускают использование только моды. Для ранжированных данных (шкала по­рядка) допустимо использование и моды, и медианы. Количественные данные (шкала равных интервалов) можно описывать любым из трех показателей, хотя на практике чаще всего в этом случае вычисляют среднее арифметическое значение. Именно этот показатель вместе с показателем рассеяния участвует в расчете целого ряда других статистических показателей.

Показатели рассеяния характеризуют степень раз­броса данных вокруг некоторого среднего значения. Мы говорим о значительном рассеянии тогда, когда многие значения сильно отклоняются от воображае­мого центра распределения. Специалисты по матема­тической статистике говорят, что в этом случае данные «размазаны». Про распределение, характеризующее­ся малым разбросом, говорят, пользуясь аналогией из области стрельбы, что данные ложатся кучно. Понят­но, что в первом случае среднее значение оказывается более информативным показателем, чем во втором случае, то есть оно лучше описывает выборку в целом. Например, в кордебалет идет строгий отбор танцов­щиц по росту. В результате рассеяние показателей роста в этой группе людей значительно меньше, чем по популяции в целом. Зная средний рост балерины, мож­но быть уверенным, что реальный рост любой балери­ны будет очень близок к нему. Если брать измеритель­ные инструменты, то их точность определяется степе­нью разброса получаемых с их помощью данных: чем меньше разброс, тем выше точность измерения.

Как оценить степень рассеяния значений перемен­ной? Здесь тоже существуют разные способы, выбор которых в каждом конкретном случае определяется характером данных — их типом и распределением. Не­которое представление о рассеянии мы получаем, ког­да рассматриваем крайние члены распределения. Рас­стояние между ними называется размахом. Например, в разобранном выше примере (Табл. 2) выборка вклю­чает индивидов, чей возраст колеблется в пределах от двадцати до семидесяти лет. Общий размах составляет пятьдесят лет. Большинство людей (40%) моложе трид­цати лет. Но в выборку попали два человека, которым уже за шестьдесят. Если мы вычислим показатель цен­тральной тенденции по формуле среднего арифмети­ческого, то получим значение 36,5. Так как распреде­ление сильно скошено, этот показатель сильно отлича­ется от моды (25 лет). Медиана в этом случае лежит между этими двумя значениями (33,3).

Для более точной оценки рассеяния в случае изме­рений по шкале равных интервалов используется по­казатель, называемый дисперсия. В этом случае учиты­вается отклонение каждого индивидуального значе­ния от среднего в одну или в другую сторону. Нас интересует сумма таких отклонений. Но в случае сим­метричного распределения эта сумма всегда обраща­ется в нуль, поскольку положительные и отрицатель­ные отклонения взаимно гасятся. Поэтому используют сумму квадратов отклонений. Квадрат любого числа — величина положительная, и эта сумма тем больше, чем больше рассеяние измерений. Сумма квадратов откло­нений от среднего, деленная на количество наблюде­ний IV дает значение дисперсии. Если извлечь из этого выражения квадратный корень, то мы получим еще одну меру рассеяния — стандартное отклонение, ко­торое также называют среднеквадратическим откло­нением. Удобство этого показателя в том, что он выра­жается в тех же единицах, что и сами измеренные ве­личины.

Рассмотренный показатель очень удобен, когда форма распределения близка к той, которая называет­ся нормальным распределением. Мы уже упоминали этот термин. Сейчас поясним, что он означает. Нор­мальное распределение — это такое распределение не­прерывного признака, которое симметрично относи­тельно среднего значения и если откладывать его зна­чения на графике, то кривая имеет вид колокола. Рост человека оказывается одним из признаков, обнаружи­вающих распределение, хорошо описываемое нор­мальной кривой. Если мы измеряем рост многих лю­дей, например — призывников в армию, а затем на ос­нове этих данных строим график, то мы получаем нормальную кривую. С точки зрения анализа данных нормальное распределение привлекательно тем, что его можно исчерпывающе описать через два парамет­ра — значение среднего и стандартного отклонения

(дисперсии). Вместо тысяч значений — всего два чис­ла! Чрезвычайно эффективный метод сжатия инфор­мации.

Стандартное отклонение действительно позволяет четко задавать критерии для выявления статистической нормы. Это возможно благодаря тому, что свойст­ва нормального распределения хорошо известны и до­статочно просто описываются. Так, известно, что в ди­апазоне одного стандартного отклонения в обе стороны от среднего оказывается примерно 68 % всех наблюдений, а если взять два стандартных отклонения, то этот участок распределения покроет около 95 % ,' всех случаев. Значит, за этот диапазон выходит всего ; 5% возможных наблюдений. Проинтерпретируем это содержательно. Что значит «высокий человек»? С точ­ки зрения статистики человек, рост которого превышает средний рост по данной популяции более чем на

■ величину одного стандартного отклонения, может считаться высоким. А того, чей рост выделяется в положительную сторону более чем на два стандартных отклонения, следует отнести к категории очень высоких. Ведь такой рост будет встречаться не чаще, чем в трех случаях из ста.

i Используя свойства нормального распределения, :; можно ввести строгие количественные критерии, определяющие, что такое «нормальный вес», «нормальная острота зрения» и т. д. Психологические тесты тоже создаются с опорой на эти статистические закономерности. Выше, в разделе о тестах, мы касались процедуры конструирования и стандартизации тестов. Мы там указывали, что нормы для оценки резуль­татов испытаний выводят эмпирически с использова­нием аппарата математической статистики. Теперь, ' после знакомства с основными идеями статистическо­го анализа, можно пояснить эту процедуру. Трудность заданий подбирается таким образом, чтобы распреде­ление результатов решения тестовых задач (число пра­вильных ответов) описывалось нормальным законом. А затем строится шкала, где среднему значению соот­ветствует сто баллов, а стандартное отклонение равно пятнадцати баллам. Выводимый показатель называет­ся коэффициентом интеллектуального развития (по-английски — intelligence quotient, или сокращенно IQ). Человек, у которого этот показатель ниже 70, считается умственно отсталым, а человека с показате­лем выше 130 относят к категории особо умственно одаренных.

Мы подробно разобрали случай, когда анализиру­ется характер распределения одной переменной. Эти приемы очень важны, поскольку на них основаны все другие виды статистического анализа. Теперь мы мо­жем перейти к более сложному виду анализа, каким является двумерный анализ. Здесь рассматривается связь между двумя переменными. Мы имеем пары на­блюдений, полученные на одном объекте. Это могут быть, например, результаты по двум тестам. Нас инте­ресует, как один изучаемый признак связан с другим.

Важнейшей мерой связи является коэффициент корреляции. Само слово «корреляция» как раз и озна­чает «взаимосвязь». Какого типа отношения возмож­ны между двумя переменными? Ну, во-первых, при­знаки могут быть совершенно независимыми друг от друга. Тогда изменения одного никак не связаны с из­менением другого. Мы говорим, что переменные не коррелированны между собой. Если признаки связа­ны, то сама связь может быть прямой или обратной. В первом случае большим значениям одного признака соответствуют более высокие значения другого и на­оборот. Во втором случае увеличение первого призна­ка сопровождается уменьшением второго, а уменьше­ние первого — увеличением второго. Статистики гово­рят о положительной и отрицательной корреляции. Наконец, степень связи тоже может варьироваться от максимума, когда значения одного признака позволя­ют уверенно предсказывать значения другого, до ее полного отсутствия. Коэффициент корреляции отра­жает всю гамму возможных отношений. Его значение может варьироваться от + 1 до — 1. Положительные значения указывают на прямую связь между перемен­ными, отрицательные — на обратную. Нуль соответст­вует случаю отсутствия корреляции.

Предположим, что у многих людей измеряют рост и вес тела. Каждый человек описывается двумя пока­зателями, и в результате образуются два ряда измере­ний. Сравнивая между собой пары измерений, мы стремимся выявить характер связи между переменными. Между ростом и весом тела существует довольно высокая положительная корреляция. Это значит, что высокий человек, как правило, весит больше, чем че­ловек меньшего роста. Связь эта не однозначная: вы­сокий человек может быть очень худым, а человек не­высокого роста может быть очень полным. Поэтому значение коэффициента корреляции в данном случае находится где-то между 0 и + 1, видимо, чуть ближе к единице.

Коэффициент корреляции по-разному вычисляет­ся для измеренных показателей (рост, вес) и для ран­жированных данных (оценки, предпочтения). Но его окончательная форма и интерпретация остаются теми ' же. Если данные носят качественный характер (муж­чина — женщина, совершеннолетний — несовершеннолетний, работающий — пенсионер), то вместо коэффициента корреляции применяются другие меры связи, основанные на сравнении частот. Для тех случаев, < когда два ряда получены с помощью разных шкал, имеются свои вычислительные процедуры. Но общая ло­гика анализа сохраняется.

Следует специально остановиться на вопросе ин­терпретации данных двумерного анализа, поскольку )'здесь требуется известная осторожность. Мы касались этой проблемы в первой главе, когда обсуждали X момент перехода от научного описания к объяснению. ;] Там отмечалось, что сам факт наличия связи двух переменных еще не позволяет утверждать существование причинно-следственных отношений между ними. Корреляция может указывать на такие отношения, - но одной этой информации недостаточно, чтобы делать однозначные выводы. Тогда мы пояснили это на примере интерпретации уровня интеллекта родителей и детей. Сейчас имеет смысл вернуться к данной про­блеме и рассмотреть ее глубже.

Итак, в ряде случаев корреляция между двумя пере­менными отражает то обстоятельство, что они связаны между собой, как причина и следствие. Но причинно-следственные отношения — это лишь один из возмож­ных типов связи. Определенно можно утверждать только следующее: если два явления никак не связаны между собой, то заведомо исключены любые взаимо­влияния. Отсутствие корреляции опровергает гипотезу о возможных связях причинно-следственного ха­рактера, и такой отрицательный результат может быть полезен в плане уточнения теории.

Отношения между двумя коррелированными пере­менными X и Y могут быть содержательно самыми разными:

X

у"

з. А

Y

ABC.X-^ Y

Случай 1: явление X вызывает явление Y, выступает как его причина.

Случай 2: явления X и Y взаимно обусловливают друг друга.

Случай 3: некоторое третье явление А вызывает яв­ление X и явление Y, выступает как причина их обоих.

Случай 4: явление X вызывает явление Y, действуя в комплексе с другими факторами.

Для иллюстрации приведем пример. Он похож на шутку, но хорошо демонстрирует суть проблемы. Если сравнивать между собой два показателя — потребление мороженого и количество утонувших, то между ними можно обнаружить положительную корреляцию. Зна­чит ли это, что любовь к мороженому приводит к не­счастным случаям на воде или (совершенно абсурдный вывод) что отношение здесь обратное? Конечно, нет. Очевидно, что есть некий третий фактор, который объ­ясняет оба явления. Это — температура воздуха. В жар­кую погоду едят много мороженого и купаются. В холод­ную погоду потребление мороженого и количество купа­ющихся резко падает. Понятно, что в эти дни почти никто не тонет. Перед нами ситуация, соответствующая третьему из схематически представленных случаев.

Социальные науки чаще всего имеют дело с явле­ниями, которые отличаются множественной детерми­нацией и контекстуальным характером. Здесь трудно устранить влияние посторонних переменных, выде­лить явление в чистом виде. Поэтому необходима осо­бая тщательность в интерпретации наблюдаемых фак­тов. Для того чтобы избежать необоснованных выводов, исследователь должен обладать определенной ме­тодологической культурой, понимать, какого рода под­водные камни могут встретиться на этом пути.

Корреляционный анализ представляет собой метод выявления связи между двумя переменными. Если чис­ло переменных больше двух, то можно, вообще говоря, рассматривать каждую пару отдельно. Но существуют приемы, специально разработанные для данных такого рода, которые в совокупности носят название много­мерный анализ. Мы кратко рассмотрим один из этих методов — факторный анализ, который довольно часто используется в социальных исследованиях. В вычисли­тельном плане он весьма сложен, но использование компьютера существенно упрощает дело. Современно­му исследователю не надо вдаваться в тонкости вычис­лительной процедуры, а достаточно понимать возмож­ности этого метода и знать особенности работы с ним.

Факторный анализ является своеобразным развити­ем метода множественных корреляций. Вначале рассчи­тываются коэффициенты корреляции между парами переменных. Затем чисто математически получают не­сколько общих факторов, связанных с группами изучае­мых признаков. Поскольку число таких факторов мень­ше числа исходных переменных, и этот вид анализа можно рассматривать как способ сжатия информации, приведения ее к более компактному виду. Последний этап анализа — содержательная интерпретация полу­ченных факторов. Ее осуществляет сам исследователь, выявляя те переменные (признаки), которые теснее все­го связаны с каждым фактором. Например, исследуются интересы людей. Если вокруг одного фактора группиру­ются такие виды активности, как посещение театра, концертов, художественных выставок, то мы назовем такой фактор «эстетические интересы». Другим факто­ром может быть, например, интерес к спорту. В резуль­тате мы получаем несколько групп однотипных интере­сов. С точки зрения структуры данных отдельный фактор представляет собой как бы интегральный инди­катор, выявляющий комплекс взаимосвязанных прояв­лений. Еще один пример. Исследование качества обслу­живания в доме престарелых путем опроса его обитате­лей выявило два главных фактора удовлетворенности: отношение персонала (доброта, отзывчивость, уважение, готовность помочь, расторопность) и условия со­держания (состояние здания и территории, оборудова­ние комнат, чистота, качество питания).

Итак, факторный анализ является объективным ме­тодом выявления структуры изучаемых данных. Его можно рассматривать как количественный аналог типо­логического анализа, проводимого на качественном уровне. Будучи формальным аппаратом, факторный анализ не может гарантировать, что получаемые ре­зультаты будут интересными, с точки зрения исследо­вателя. Например, иногда выделяемые факторы трудно содержательно интерпретировать: в них входят доволь­но разнородные компоненты, которые трудно объеди­нить каким-то общим понятием. Во всяком случае, как любой метод вообще, факторный анализ сам по себе не может быть хорошим или плохим, эффективным или бесполезным. Все зависит от того, насколько уместно он применяется, в какой степени он соответствует зада­чам исследования и характеру анализируемых данных.