- •Isbn 5-8291-0726-0 (Академический Проект) isbn 5-902357-51-9 (Фонд «Мир»)
- •Isbn 5-8291-0726-0 isbn 5-902357-51-9
- •Глава 1
- •2.1. Основные стратегии исследований (номотетический и идиографический подход]
- •5.2. Эксперимент как особый тип исследования
- •5.3. Оценка эффективности программ
- •5.4. Выборочное исследование
- •5.5. Изучение случая
- •Социалогическое исследование в социальной работе.
- •6.3. Этапы социологического исследования
- •6.4. Основные виды социологического исследования
- •7.1. Программа исследования
- •7.2. Методологическая часть программы
- •7.3. Методическая часть программы
- •1.1. Анкетирование - основная разновидность опроса
- •1.2. Виды анкетирования
- •Вводная часть.
- •Основная часть.
- •«Паспортичка».
- •3.2. Основные термины и понятия
- •3.3. Классификация видов наблюдения
- •I Карточка выступающего
- •II Карточка регистрации реакции аудитории на выступление
- •III Карточка регистрации общей ситуации во время выступлений
- •3.4. Этапы проведения наблюдения
- •3.5. Достоинства и недостатки метода наблюдения
- •3.6. Подготовка наблюдателя
- •3.7. Надежность данных наблюдения
- •4.1. Применение метода анализа документов
- •4.2. Классификация видов документов
- •4.3. Виды анализа документов
- •4.4. Использование контент-анализа в социальных науках
- •4.5. Выбор необходимых видов документов для проведения исследования
- •4.Б. Этапы проведения контент-анализа
- •4.7. Достоинства и недостатки анализа документов
- •1. Качественные методы
- •2. Количественный анализ
- •2.1. Описательная статистика
- •2.2. Статистический вывод
- •Глава 4
- •3.1. Композиция диссертации
- •3.2. Оформление текста научной работы
- •4.1. Монографическое библиографическое описание
- •4.2. Аналитическое библиографическое описание
- •5.1. Виды библиографических ссылок и общие правила их оформления
- •5.2. Приемы сокращения библиографических ссылок
- •Глава 3.
- •Глава 4.
2.1. Описательная статистика
Цель любого научного исследования, как мы уже указывали, заключается в обнаружении закономерностей внутри определенного класса явлений. Закономерность, в самом широком смысле слова означает некую регулярность, однотипность. О регулярности, в свою очередь, можно говорить там, где явления повторяются, где они носят более или менее массовый характер. Статистические методы как раз и предназначены для анализа подобных явлений и процессов. Они позволяют выявлять устойчивые тенденции и строить на этой основе теории, предназначенные для их объяснения.
Наука всегда имеет дело с разнообразием действительности, но свою задачу она видит в обнаружении порядка вещей, некоторой устойчивости внутри наблюдаемого разнообразия. Например, антропология изучает физические особенности строения тела человека. По признакам строения тела (цвета кожи, глаз, волос, формы черепа и т. д.) она выделяет определенные типы — человеческие расы. Но ее не интересуют такие признаки, как количество глаз, ушей или пальцев, поскольку это константы: люди (в норме) не различаются между собой по этим признакам. Выше уже было сказано, что наука имеет дело с переменными, однако она стремится выделить такие их значения, которые лучше всего объясняют наблюдаемое разнообразие проявлений. Статистика снабжает нас удобными приемами такого анализа.
Для использования статистики требуются два основных условия:
а) мы должны иметь данные о группе (выборке) людей;
б) эти данные должны быть представлены в формализованном (кодифицированном) виде.
Задачи описательной статистики в целом совпадают с задачами качественного анализа: это сжатие информации и представление ее в удобном для обозрения виде.
Наиболее простой случай возникает тогда, когда наши данные могут быть представлены одной переменной. Используемые для этого методы объединяются в группу под названием одномерный статистический анализ. В зависимости от типа данных и от задач, которые ставит исследователь, выбирается тот или иной конкретный способ анализа.
Достаточно простым и удобным приемом анализа количественных данных является построение распределения частот. Проиллюстрируем его на примере. Допустим, проводится исследование, в котором каждому участнику, среди прочих, задается вопрос о его семейном положении. Ответы фиксируются, а общие результаты сводятся в таблицу, где против фамилии каждого участника указано его семейное положение. Далее эти первичные данные мы хотим представить в более сжатой и удобной для анализа форме. Для этого мы разбиваем их на категории, подсчитывая количество людей в каждой группе. Сами категории выбираются в зависимости от целей исследования и могут быть более широкими или более узкими. Если используется вопрос закрытого типа, то мы сразу фиксируем ответы в кодированной форме. Если же используется вопрос открытого типа, то кодирование осуществляет сам исследователь. Отметим, что более узкие категории всегда можно укрупнить. Но если информация структурируется прямо на этапе ее сбора, то потом нельзя будет разбить данные на большее число категорий. Часть информации оказывается потерянной.
Предположим, мы выбрали следующие категории: женат/замужем, холост/не замужем, разведен/разведена, вдовец/вдова. Подсчитывая число ответов в каждом классе, мы можем построить таблицу распределения, которая значительно компактнее и удобнее для анализа, чем полная таблица ответов. Предположим, всего было 30 респондентов, и один из них отказался отвечать на данный вопрос. Тогда таблица распределения частот может иметь следующий вид:
Таблица 1 Данные о семейном положении респондентов
Семейное положение |
Частоты |
Доли |
Проценты |
Женат/замужем |
16 |
0,53 |
53,3 (55,2) |
Холост/не замужем |
4 |
0,13 |
13,3 (13,8) |
Разведен/разведена |
7 |
0,23 |
23,3 (24,1) |
Вдова/вдовец |
2 |
0,07 |
6,7 (6,9) |
Данные отсутствуют |
1 |
0,03 |
3,3 |
Всего |
30 |
0,99 |
99,9 (100) |
■ Из таблицы видно, что большая часть респондентов (более половины) женаты или замужем. Отметим, что если какие-то отсутствуют, их следует выделить в самостоятельную категорию. Анализ таких пропущенных значений часто выделяют в самостоятельную задачу.
Анализируя таблицу, мы сравниваем между собой категории и видим, как они представлены в нашей выборке. Нас чаще всего интересуют не абсолютные значения, а относительные. И тогда мы переводим частоты в доли относительно общего числа наблюдений, которое мы принимаем за единицу. Для этого мы делим каждое значение на общее число наблюдений (в нашем случае — на 30). Полученные дроби можно внести в таблицу отдельным столбцом. Тогда хорошо видно, что в нашей выборке немногим более половины респондентов находятся в браке, а около четверти — в разводе. Относительные значения удобны еще и тем, что позволяют легко сопоставлять данные по двум выборкам разного объема. Допустим, у нас есть данные о семейном положении другой группы людей, и мы хотим сравнить их с данными первой группы. Если во второй группе тоже тридцать человек, то можно прямо сравнивать частоты. Если же выборки различаются размерами, то мы предварительно вычисляем относительные значения путем деления абсолютной величины на объем выборки. Последний показатель принято обозначать латинской буквой N. В разобранном только что примере N = 30.
Помимо долей, относительными единицами являются также проценты. Если в первом случае целое принимается за единицу, то во втором случае — за сто процентов. От долей легко перейти к процентам: каждое значение просто умножается на сто. Процентное выражение предпочтительно тем, что с целыми числами работать удобнее, чем с дробями. Но по существу проценты и доли — это эквивалентные единицы наподобие рубля и копейки. Относительные единицы позволяют сравнивать не только аналогичные показатели, полученные на разных выборках, но и качественно различные показатели между собой. Например, для характеристики имущественного расслоения в обществе используют следующий прием: подсчитывают, какой процент всей собственности сосредоточен в руках десяти процентов самых богатых людей. Понятно, что в случае полного имущественного равенства этот показатель будет равен десяти процентам. Чем он больше отличается от этого значения, тем выше степень имущественного неравенства в обществе.
Последний столбец в Таблице 1 представляет данные в процентах. Обратим внимание, что итог у нас оказался несколько меньше ста процентов из-за округлений при вычислениях. Поскольку данные по одному индивиду отсутствуют, можно пересчитать проценты без этой пустой категории, полагая теперь N = 29. Скорректированные данные представлены в скобках. При сравнении с другой выборкой мы будем использовать именно их.
До сих пор мы разбирали случай, когда исходные данные были качественными, то есть образовывали шкалу наименований. Но мы можем строить распределение частот и для шкал порядка или отношений. Правда, в последнем случае обычно данные представляют в сгруппированном виде, так как иначе образуется очень много классов. Например, мы исследуем возрастной состав той же группы из тридцати человек. Если она не однородна в этом отношении, данные окажутся «размазанными». Тогда мы их группируем, выбирая определенный шаг (например, пять или десять лет), и вносим в таблицу обобщенные данные. Шаг выбирается с учетом характера данных и задач анализа. Снова отметим, что группировка данных приводит к потере части информации. Но зато мы добиваемся ее лучшей обозримости. Таблица, которая в результате получится, может выглядеть так:
Таблица 2 Данные о возрастном составе группы
Возрастная группа |
Частоты |
% |
Накопленные частоты |
Накопленные % |
20-29 |
12 |
40,0 |
12 |
40,0 |
30-39 |
8 |
26,7 |
20 |
66,7 |
40^9 |
5 |
16,7 |
25 |
83,4 |
50-59 |
3 |
10,0 |
28 |
93,4 |
60-69 |
2 |
6,7 |
30 |
100,1 |
Всего |
30 |
100,1 |
30 |
100,1 |
В первом столбце представлены возрастные интервалы. Обратим внимание, что они не пересекаются, то есть мы берем интервалы 20 — 29, 30 — 39, а не 20 — 30, 30 — 40. Иначе неясно будет, куда относить индивидов, попадающих на стык возрастных групп. Во втором и третьем столбцах представлены соответственно частоты и проценты. Глядя на них, мы видим, что возрастной состав группы неоднородный: в ней преобладают молодые люди, а люди старших возрастов встречаются реже.
В четвертом и пятом столбцах частоты и проценты представлены в несколько иной форме, которая применима для упорядоченных категорий (шкал порядка или отношений). Частоты и проценты суммируются по всем предыдущим категориям. При такой форме представления данных хорошо видно, сколько человек или какая доля выборки находятся ниже (или выше) определенного уровня. В нашем примере 25 человек из 30, или 83,4 %, моложе пятидесяти лет.
Данные о распределении переменной можно представить не только в форме таблиц, но и в форме графиков, которые еще более наглядны. Рассмотрим четыре типа графиков, которые чаще всего используются в случае одномерного распределения. Для неупорядоченных категорий (шкала наименований) обычно применяют столбиковые диаграммы. Число столбиков соответствует числу категорий. Высота каждого столбика отражает частоту встречаемости данной категории. Все столбики рисуются одинаковой ширины и не соприкасаются друг с другом. Порядок их расположения на горизонтальной оси может быть любым. Для представления долей и процентов удобны круговые диаграммы. Весь круг соответствует единице или ста процентам, а величина каждого сектора отражает представительство соответствующей категории.
|
|
|
|
n |
111 |
|
Разведем 'разведена Дачные oi ie замужем Вдсвя'вповец
Рис.
2. Круговая диаграмма (Данные
из Табл. 1)
Для наглядного представления измеренных данных (шкала равных интервалов) используются так называемые гистограммы и полигоны. Гистограмма похожа на столбиковую диаграмму, только на горизонтальной оси в этом случае указываются границы интервалов. Столбики примыкают друг к другу. Высота столбика соответствует наблюдаемой частоте. Гистограмму легко преобразовать в полигон. Для этого середины вершин каждого столбца соединяются между собой прямыми отрезками. Получается ломаная линия, повторяющая контур, образуемый столбиками. Гистограмма удобна для изображения особенностей одного распределения. Преимущество полигона заключается в том, что на одном графике можно представить несколько полигонов и затем сравнивать между собой разные выборки.
Возрастные
группы
Рис.
3. Гистограмма распределения
возрастов (данные
из Табл. 2)
Построение таблиц и графиков — это первый шаг статистического анализа. Следующим шагом является оценка параметров распределения. Вычисляются показатели, которые позволяют дать еще более сжатое описание наблюдаемых значений. Эти показатели распадаются на две основные группы: меры центральной тенденции и меры рассеяния. К наиболее часто используемым показателям первого типа относится так называемое (арифметическое) среднее. Вычисляют его, как известно, путем суммирования значений всех наблюдений и деления полученной суммы на общее число наблюдений. В случае сгруппированных данных поступают следующим образом: находят середину каждого интервала, это значение умножают на частоту, полученные величины складывают и делят на общее число наблюдений. Рассматриваемый показатель характеризует область распределения, в которой концентрируются наиболее типичные представители изучаемой выборки. Но это справедливо лишь для тех случаев, когда распределение близко к нормальному. При таком распределении основная масса значений концентрируется в его средней части, а любые отклонения встречаются тем реже, чем дальше они отстоят от центра. Например, распределение такого признака, как рост человека, в целом близко к нормальному: больше всего людей среднего роста, а очень высокие и очень маленькие попадаются довольно редко. Средняя величина удобна для сравнения двух выборок или двух популяций. Так, мы говорим, что мужчины в среднем выше женщин, и это утверждение вполне справедливо несмотря на то, что встречаются высокие женщины, рост которых значительно превышает среднестатистический. Или, например, известно, что средний рост мужчины-пигмея меньше роста средней европейской женщины.
Две другие меры центральной тенденции — это мода и медиана. В качестве моды берется значение, которое чаще всего встречается в распределении. Моду специально вычислять не надо. Достаточно сгруппировать данные и выбрать тот класс, в который попадает больше всего наблюдений. В разобранном выше примере (Табл. 1) лучше всего представлена категория семейных людей. Это и есть мода для данной выборки. Можно рассчитать среднее количество детей в современной российской семье. Допустим, мы получим показатель 1,3. Но какой реальный смысл он будет иметь? Что такое три десятых ребенка? Правильнее сказать, что сейчас в семье чаще всего один ребенок, то есть использовать моду в качестве показателя центральной тенденции. Встречаются распределения, имеющие не одну, а две моды. Распределение такого типа называется бимодальным. На графике в этом случае мы увидим две вершины. Чаще всего это указывает на то, что выборка является неоднородной: в ней присутствуют два типа объектов. Констатация такого факта обычно наводит нас на мысль разбить всю выборку на две подгруппы и рассмотреть их отдельно.
Для того чтобы найти медиану, нужно ранжировать все наблюдения, то есть расположить их в порядке возрастания значений. Значение того наблюдения, которое окажется как раз посредине, и будет медианой. А если число наблюдений четное? Тогда сравнивают значения двух наблюдений, попадающих в середину. Если они различаются между собой, то берется их среднее арифметическое значение. В случае сгруппированных данных медиана рассчитывается по специальной формуле. Когда распределение имеет нормальный вид (то есть оно симметрично), его среднее арифметическое значение и медиана совпадают. Когда же распределение асимметрично (скошено), медиана лучше схватывает его центральную тенденцию.
Выбор подходящей меры центральной тенденции 384 определяется как характером распределения, так и характером используемых данных. Качественные данные (шкала наименований) допускают использование только моды. Для ранжированных данных (шкала порядка) допустимо использование и моды, и медианы. Количественные данные (шкала равных интервалов) можно описывать любым из трех показателей, хотя на практике чаще всего в этом случае вычисляют среднее арифметическое значение. Именно этот показатель вместе с показателем рассеяния участвует в расчете целого ряда других статистических показателей.
Показатели рассеяния характеризуют степень разброса данных вокруг некоторого среднего значения. Мы говорим о значительном рассеянии тогда, когда многие значения сильно отклоняются от воображаемого центра распределения. Специалисты по математической статистике говорят, что в этом случае данные «размазаны». Про распределение, характеризующееся малым разбросом, говорят, пользуясь аналогией из области стрельбы, что данные ложатся кучно. Понятно, что в первом случае среднее значение оказывается более информативным показателем, чем во втором случае, то есть оно лучше описывает выборку в целом. Например, в кордебалет идет строгий отбор танцовщиц по росту. В результате рассеяние показателей роста в этой группе людей значительно меньше, чем по популяции в целом. Зная средний рост балерины, можно быть уверенным, что реальный рост любой балерины будет очень близок к нему. Если брать измерительные инструменты, то их точность определяется степенью разброса получаемых с их помощью данных: чем меньше разброс, тем выше точность измерения.
Как оценить степень рассеяния значений переменной? Здесь тоже существуют разные способы, выбор которых в каждом конкретном случае определяется характером данных — их типом и распределением. Некоторое представление о рассеянии мы получаем, когда рассматриваем крайние члены распределения. Расстояние между ними называется размахом. Например, в разобранном выше примере (Табл. 2) выборка включает индивидов, чей возраст колеблется в пределах от двадцати до семидесяти лет. Общий размах составляет пятьдесят лет. Большинство людей (40%) моложе тридцати лет. Но в выборку попали два человека, которым уже за шестьдесят. Если мы вычислим показатель центральной тенденции по формуле среднего арифметического, то получим значение 36,5. Так как распределение сильно скошено, этот показатель сильно отличается от моды (25 лет). Медиана в этом случае лежит между этими двумя значениями (33,3).
Для более точной оценки рассеяния в случае измерений по шкале равных интервалов используется показатель, называемый дисперсия. В этом случае учитывается отклонение каждого индивидуального значения от среднего в одну или в другую сторону. Нас интересует сумма таких отклонений. Но в случае симметричного распределения эта сумма всегда обращается в нуль, поскольку положительные и отрицательные отклонения взаимно гасятся. Поэтому используют сумму квадратов отклонений. Квадрат любого числа — величина положительная, и эта сумма тем больше, чем больше рассеяние измерений. Сумма квадратов отклонений от среднего, деленная на количество наблюдений IV дает значение дисперсии. Если извлечь из этого выражения квадратный корень, то мы получим еще одну меру рассеяния — стандартное отклонение, которое также называют среднеквадратическим отклонением. Удобство этого показателя в том, что он выражается в тех же единицах, что и сами измеренные величины.
Рассмотренный показатель очень удобен, когда форма распределения близка к той, которая называется нормальным распределением. Мы уже упоминали этот термин. Сейчас поясним, что он означает. Нормальное распределение — это такое распределение непрерывного признака, которое симметрично относительно среднего значения и если откладывать его значения на графике, то кривая имеет вид колокола. Рост человека оказывается одним из признаков, обнаруживающих распределение, хорошо описываемое нормальной кривой. Если мы измеряем рост многих людей, например — призывников в армию, а затем на основе этих данных строим график, то мы получаем нормальную кривую. С точки зрения анализа данных нормальное распределение привлекательно тем, что его можно исчерпывающе описать через два параметра — значение среднего и стандартного отклонения
(дисперсии). Вместо тысяч значений — всего два числа! Чрезвычайно эффективный метод сжатия информации.
Стандартное отклонение действительно позволяет четко задавать критерии для выявления статистической нормы. Это возможно благодаря тому, что свойства нормального распределения хорошо известны и достаточно просто описываются. Так, известно, что в диапазоне одного стандартного отклонения в обе стороны от среднего оказывается примерно 68 % всех наблюдений, а если взять два стандартных отклонения, то этот участок распределения покроет около 95 % ,' всех случаев. Значит, за этот диапазон выходит всего ; 5% возможных наблюдений. Проинтерпретируем это содержательно. Что значит «высокий человек»? С точки зрения статистики человек, рост которого превышает средний рост по данной популяции более чем на
■ величину одного стандартного отклонения, может считаться высоким. А того, чей рост выделяется в положительную сторону более чем на два стандартных отклонения, следует отнести к категории очень высоких. Ведь такой рост будет встречаться не чаще, чем в трех случаях из ста.
i Используя свойства нормального распределения, :; можно ввести строгие количественные критерии, определяющие, что такое «нормальный вес», «нормальная острота зрения» и т. д. Психологические тесты тоже создаются с опорой на эти статистические закономерности. Выше, в разделе о тестах, мы касались процедуры конструирования и стандартизации тестов. Мы там указывали, что нормы для оценки результатов испытаний выводят эмпирически с использованием аппарата математической статистики. Теперь, ' после знакомства с основными идеями статистического анализа, можно пояснить эту процедуру. Трудность заданий подбирается таким образом, чтобы распределение результатов решения тестовых задач (число правильных ответов) описывалось нормальным законом. А затем строится шкала, где среднему значению соответствует сто баллов, а стандартное отклонение равно пятнадцати баллам. Выводимый показатель называется коэффициентом интеллектуального развития (по-английски — intelligence quotient, или сокращенно IQ). Человек, у которого этот показатель ниже 70, считается умственно отсталым, а человека с показателем выше 130 относят к категории особо умственно одаренных.
Мы подробно разобрали случай, когда анализируется характер распределения одной переменной. Эти приемы очень важны, поскольку на них основаны все другие виды статистического анализа. Теперь мы можем перейти к более сложному виду анализа, каким является двумерный анализ. Здесь рассматривается связь между двумя переменными. Мы имеем пары наблюдений, полученные на одном объекте. Это могут быть, например, результаты по двум тестам. Нас интересует, как один изучаемый признак связан с другим.
Важнейшей мерой связи является коэффициент корреляции. Само слово «корреляция» как раз и означает «взаимосвязь». Какого типа отношения возможны между двумя переменными? Ну, во-первых, признаки могут быть совершенно независимыми друг от друга. Тогда изменения одного никак не связаны с изменением другого. Мы говорим, что переменные не коррелированны между собой. Если признаки связаны, то сама связь может быть прямой или обратной. В первом случае большим значениям одного признака соответствуют более высокие значения другого и наоборот. Во втором случае увеличение первого признака сопровождается уменьшением второго, а уменьшение первого — увеличением второго. Статистики говорят о положительной и отрицательной корреляции. Наконец, степень связи тоже может варьироваться от максимума, когда значения одного признака позволяют уверенно предсказывать значения другого, до ее полного отсутствия. Коэффициент корреляции отражает всю гамму возможных отношений. Его значение может варьироваться от + 1 до — 1. Положительные значения указывают на прямую связь между переменными, отрицательные — на обратную. Нуль соответствует случаю отсутствия корреляции.
Предположим, что у многих людей измеряют рост и вес тела. Каждый человек описывается двумя показателями, и в результате образуются два ряда измерений. Сравнивая между собой пары измерений, мы стремимся выявить характер связи между переменными. Между ростом и весом тела существует довольно высокая положительная корреляция. Это значит, что высокий человек, как правило, весит больше, чем человек меньшего роста. Связь эта не однозначная: высокий человек может быть очень худым, а человек невысокого роста может быть очень полным. Поэтому значение коэффициента корреляции в данном случае находится где-то между 0 и + 1, видимо, чуть ближе к единице.
Коэффициент корреляции по-разному вычисляется для измеренных показателей (рост, вес) и для ранжированных данных (оценки, предпочтения). Но его окончательная форма и интерпретация остаются теми ' же. Если данные носят качественный характер (мужчина — женщина, совершеннолетний — несовершеннолетний, работающий — пенсионер), то вместо коэффициента корреляции применяются другие меры связи, основанные на сравнении частот. Для тех случаев, < когда два ряда получены с помощью разных шкал, имеются свои вычислительные процедуры. Но общая логика анализа сохраняется.
Следует специально остановиться на вопросе интерпретации данных двумерного анализа, поскольку )'здесь требуется известная осторожность. Мы касались этой проблемы в первой главе, когда обсуждали X момент перехода от научного описания к объяснению. ;] Там отмечалось, что сам факт наличия связи двух переменных еще не позволяет утверждать существование причинно-следственных отношений между ними. Корреляция может указывать на такие отношения, - но одной этой информации недостаточно, чтобы делать однозначные выводы. Тогда мы пояснили это на примере интерпретации уровня интеллекта родителей и детей. Сейчас имеет смысл вернуться к данной проблеме и рассмотреть ее глубже.
Итак, в ряде случаев корреляция между двумя переменными отражает то обстоятельство, что они связаны между собой, как причина и следствие. Но причинно-следственные отношения — это лишь один из возможных типов связи. Определенно можно утверждать только следующее: если два явления никак не связаны между собой, то заведомо исключены любые взаимовлияния. Отсутствие корреляции опровергает гипотезу о возможных связях причинно-следственного характера, и такой отрицательный результат может быть полезен в плане уточнения теории.
Отношения между двумя коррелированными переменными X и Y могут быть содержательно самыми разными:
X
у"
з. А
Y
Случай 1: явление X вызывает явление Y, выступает как его причина.
Случай 2: явления X и Y взаимно обусловливают друг друга.
Случай 3: некоторое третье явление А вызывает явление X и явление Y, выступает как причина их обоих.
Случай 4: явление X вызывает явление Y, действуя в комплексе с другими факторами.
Для иллюстрации приведем пример. Он похож на шутку, но хорошо демонстрирует суть проблемы. Если сравнивать между собой два показателя — потребление мороженого и количество утонувших, то между ними можно обнаружить положительную корреляцию. Значит ли это, что любовь к мороженому приводит к несчастным случаям на воде или (совершенно абсурдный вывод) что отношение здесь обратное? Конечно, нет. Очевидно, что есть некий третий фактор, который объясняет оба явления. Это — температура воздуха. В жаркую погоду едят много мороженого и купаются. В холодную погоду потребление мороженого и количество купающихся резко падает. Понятно, что в эти дни почти никто не тонет. Перед нами ситуация, соответствующая третьему из схематически представленных случаев.
Социальные науки чаще всего имеют дело с явлениями, которые отличаются множественной детерминацией и контекстуальным характером. Здесь трудно устранить влияние посторонних переменных, выделить явление в чистом виде. Поэтому необходима особая тщательность в интерпретации наблюдаемых фактов. Для того чтобы избежать необоснованных выводов, исследователь должен обладать определенной методологической культурой, понимать, какого рода подводные камни могут встретиться на этом пути.
Корреляционный анализ представляет собой метод выявления связи между двумя переменными. Если число переменных больше двух, то можно, вообще говоря, рассматривать каждую пару отдельно. Но существуют приемы, специально разработанные для данных такого рода, которые в совокупности носят название многомерный анализ. Мы кратко рассмотрим один из этих методов — факторный анализ, который довольно часто используется в социальных исследованиях. В вычислительном плане он весьма сложен, но использование компьютера существенно упрощает дело. Современному исследователю не надо вдаваться в тонкости вычислительной процедуры, а достаточно понимать возможности этого метода и знать особенности работы с ним.
Факторный анализ является своеобразным развитием метода множественных корреляций. Вначале рассчитываются коэффициенты корреляции между парами переменных. Затем чисто математически получают несколько общих факторов, связанных с группами изучаемых признаков. Поскольку число таких факторов меньше числа исходных переменных, и этот вид анализа можно рассматривать как способ сжатия информации, приведения ее к более компактному виду. Последний этап анализа — содержательная интерпретация полученных факторов. Ее осуществляет сам исследователь, выявляя те переменные (признаки), которые теснее всего связаны с каждым фактором. Например, исследуются интересы людей. Если вокруг одного фактора группируются такие виды активности, как посещение театра, концертов, художественных выставок, то мы назовем такой фактор «эстетические интересы». Другим фактором может быть, например, интерес к спорту. В результате мы получаем несколько групп однотипных интересов. С точки зрения структуры данных отдельный фактор представляет собой как бы интегральный индикатор, выявляющий комплекс взаимосвязанных проявлений. Еще один пример. Исследование качества обслуживания в доме престарелых путем опроса его обитателей выявило два главных фактора удовлетворенности: отношение персонала (доброта, отзывчивость, уважение, готовность помочь, расторопность) и условия содержания (состояние здания и территории, оборудование комнат, чистота, качество питания).
Итак, факторный анализ является объективным методом выявления структуры изучаемых данных. Его можно рассматривать как количественный аналог типологического анализа, проводимого на качественном уровне. Будучи формальным аппаратом, факторный анализ не может гарантировать, что получаемые результаты будут интересными, с точки зрения исследователя. Например, иногда выделяемые факторы трудно содержательно интерпретировать: в них входят довольно разнородные компоненты, которые трудно объединить каким-то общим понятием. Во всяком случае, как любой метод вообще, факторный анализ сам по себе не может быть хорошим или плохим, эффективным или бесполезным. Все зависит от того, насколько уместно он применяется, в какой степени он соответствует задачам исследования и характеру анализируемых данных.