Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Девятко итог все.doc
Скачиваний:
1
Добавлен:
10.07.2022
Размер:
3.11 Mб
Скачать

4. Традиция Гутмана-Лазарсфельда

в измерении установки и формирование концепции

качественного измерения

В 1940-е годы перед социологами открылась новая область широкомасштабных количественных исследований установок - воен­ные заказы, финансировавшиеся преимущественно правительством. Возник новый тип коллективного междисциплинарного исследова­тельского проекта. Эмпирические данные были ближе к "реальному миру", чем к лабораторному эксперименту или вторичному анализу официальной статистики, и представляли собой источник новых ; фактов, __ допускавших более широкие обобщения при проверке социологических теорий (см.: [109. Р. 131-185]). Кроме того, представители академической науки, перешедшие на время войны в правительственные организации, получили возможность более прямых и тесных контактов друг с другом и с пришедшими из сферы бизнеса полстерами, уже до войны проводившими национальные опросы общественного мнения (в том числе с такими значительными фигурами, как Э.Роупер и Дж.Гэллап). И это сотрудничество было полезным для разработки новых подходов по всем проблемам эмпи­рической социологии - от выборки до измерения и интерпретации. Хотя военный опыт и не привел к возникновению каких-либо принципиально новых теоретических подходов, он дал существенные инновации и в области методов, инструментария и планирования исследований, и в становлении новых форм профессиональной орга­низации и коммуникации в эмпирической социологии.

Одной из важнейших новаций в области измерения в этот период стали шкалы Л.Гутмана. Гутмановские шкалы достаточно трудоемки в конструировании, однако их очевидное для современников преиму­щество заключалось в том, что такая шкала, после соответствующего перетестирования, могла быть сокращена до 5-6 пунктов и, следова­тельно, была идеально приспособлена к объему анкет, а кроме того, позволяла упорядочить индивидов на одномерном континууме или, по меньшей мере, добиться хорошей аппроксимации такого упоря­дочения. Идеальная модель шкалограммного анализа предполагает "одномерность" пунктов, т.е. их независимость от любых других латентных переменных, кроме интересующего исследователя одно-мерного континуума. Это допущение само по себе нуждается в проверке, критерием и результатом которой и является шкала. Теоретически обосновать это допущение едва ли возможно, так как трудно предположить существование набора столь специфических и изолированных вопросов, которые были бы обращены лишь к одной установке - "мишени". Однако на практике в некоторых, не столь уж малочисленных, случаях можно найти множество пунктов, связь которых с интересующим исследователя теоретическим конструктом значительно выше, чем с другими конструктами. Более надежным и экономным способом нахождения "шкалируемых установочных об­ластей" был бы аналитический подход к измерению, позволяющий построить теоретическую модель измерения, допущения которой

27

будут проверены до сбора данных и конструирования шкалы (иногда, скажем, просто через вторичный анализ уже имеющихся результа­тов), а условия, при которых "возмущениями" одномерности можно пренебречь, будут специфицированы заранее (более детальное об­суждение этой проблемы требует анализа формальных аспектов шкалирования установок). Однако в 40-е годы, да и значительно позднее, аналитический подход к измерению еще не сформировался, и Л.Гутману пришлось идти путем эмпирического (и стихийного) выявления областей, пригодных для шкалограммного анализа.

Кумулятивная ранговая шкала Гутмана имеет некоторое сходство со шкалами социальной дистанции Богардуса. Однако Богардус присваивал ранги различным пунктам априорно (позднее, под вли­янием работ Терстоуна, он применил экспертную процедуру для определения числа градаций шкалы), а Гутман устанавливал шкаль­ные значения частично на основании их явного содержания, частич­но - по результатам эмпирических наблюдений, отбирая образующие шкалу вопросы.

Для совершенной гутмановской шкалы - и при совпадении логики ответов всех респондентов с логикой, заложенной в шкалу исследо­вателем, - знание положения (ранга) индивида на шкале позволяет однозначно воссоздать паттерн его ответов, а общий паттерн ответов выглядит как параллелограмм.

Порядок пунктов в совершенной шкале определяется их "попу­лярностью" среди респондентов.

Возможность построить удовлетворительную шкалу в разработан­ной Гутманом процедуре сильно зависела от двух условий: семанти­ческой близости формулировок вопросов при возможности манипу­лирования перегруппировкой категорий ответов. Этот выбор "точек сечения", в результате которого пункт "скорее хорошо" (или "скорее доволен") мог попасть как в позитивную, так и в негативную часть континуума, был достаточно спорен, если не имел под собой очевид­ного содержательного основания. Для облегчения работы по постро­ению шкалограммы использовалась специальная "шкалограммная доска", которая имела углубления в 100 горизонтальных рядах для индивидов и 100 вертикальных колонок для категорий ответа. Рас­пределение металлических дробинок в лунках доски соответствовало ответам респондентов, а возможность манипулирования - положени­ем респондента и "точками сечения" (т.е. перегруппировкой катего­рий ответа) - позволяла обнаружить шкальный паттерн с минималь­ным числом "ошибок". В целом шкалограммная техника имела несомненные преимущества экономии времени и усилий [222. Р.91-121].

В рамках шкалограммного анализа был разработан еще один методический подход, целью которого было получение устойчивого разбиения выборки массового опроса на "сторонников" и "против­ников" определенного мнения. Практика опросов общественного мнения показывала, что доля респондентов на позитивном и нега­тивном полюсе установочного континуума менялась даже при незна­чительном изменении словесной формулировки вопроса. Необходимо

28

было найти способ выделения "полярных" групп, не зависящий от изменений словесной формулировки. Общая идея предложенного Гутманом подхода восходила еще к шкалам Олпорта-Хартмана и, более непосредственно, к статье Дэниела Катца (ученика Ф.Олпор-та), опубликованной в 1944 г. [154]. Из этих работ было известно, что более крайним позициям на континууме политических мнений соответствует большая интенсивность, сила убеждений, чем средне­му диапазону.

Гутман и Сачмэн для каждого содержательного вопроса шкалы включали в вопросник еще один, направленный на измерение ин­тенсивности. Например: "Насколько сильно Вы это ощущаете?", "В какой мере Вы с этим согласны?" (с 3-5 вариантами ответа). Строя совместные распределения ответов типа "содержательный вопрос -вопрос об интенсивности", они получали U-образные или J-образные кривые, отражавшие возрастание интенсивности на полюсах содер­жательных ответов, т.е. позитивных/негативных реакций на опре­деленное содержание. Разные совокупности вопросов, т.е. по-разно­му сформулированные и с разным способом дихотомизации, давали приблизительно одинаковые кривые. Самая низкорасположенная точка кривой определяла "нулевую точку" или "область безразли­чия". Респонденты, оказывавшиеся с одной стороны "области .без­различия", рассматривались как настроенные благожелательно, л с другой - неблагожелательно (что и позволяло получить устойчивую оценку доли "сторонников" и "противников" определенного мне­ния) . Так как использование такой процедуры в многотемном мас­штабном опросе затруднительно, сотрудники армейского Исследова­тельского сектора считали, что она может оказаться полезной для отбора 2-3 вопросов по каждой конкретной проблеме. Однако эта процедура оценки доли "сторонников" и "противников" имела су­щественный недостаток, так как была чувствительна лишь к общим, а не специфическим установкам. "Какова ценность утверждения о том, что определенная доля населения "за" обязательный призыв или сокращение расходов, если не ясно, какое специфическое содер­жание и при каких условиях подразумевается под "призывом" или "сокращением" [109. Р.193]. Поэтому возможности шкалограммного анализа оказались не слишком привлекательны для полстеров-прак-тиков. Вместе с тем, они представляли интерес для сторонников количественного подхода внутри академической науки. Как отмечает Дж.Конверс, количество статей в ведущих научных журналах, по­священных применению и модификации шкал Л.Гутмана, в первое послевоенное десятилетие было достаточно велико. Большая часть этих работ выполнялась на студенческих и других малых группах, но в некоторых статьях и двух книгах (Э.Кэмпбелл, Дж.Гурин, У.Миллер, 1954; С.Стауффер, 1955) речь идет о крупномасштабных исследованиях.

Гутмановские процедуры использовались не только для шкалиро­вания установок, но и для физиологических симптомов невроза, уровней информированности, "коллективных" шкал группового по­ведения.

29

В то же послевоенное десятилетие появились работы, критически оценивающие применимость гутмановской процедуры шкалирова­ния в измерении при проведении массовых опросов. Л.Фестингер указывал на негативное влияние монотонного повторения сходных по смыслу вопросов на качество ответов респондента. Было показано, Что несколько пунктов, отобранных для упрощения процедуры из более длинной шкалы, могут давать иное ранжирование респонден­тов [130]. Л.Гутман и сам осознавал ограничения, присущие его методу, - невозможность прямого переноса шкал с одной популяции на другую (или в новую ситуацию) и невозможность построения кумулятивных шкал в очень многих интересных для исследователей случаях.

В силу всех этих ограничений гутмановский подход не получил широкого распространения в эмпирической социологии и практике опросов общественного мнения.

В конце войны П.Лазарсфельд, позднее других включившийся в работу Исследовательского сектора, развил основные положения латентно-структурного анализа. Лазарсфельдовская модель впервые была опубликована в том же четвертом томе серии "Американский солдат", вышедшем в 1950 г. [222]. Лазарсфельд стремился исполь­зовать идеологию факторного анализа (выведение латентных пере­менных-черт из эмпирического распределения манифестных пере­менных, т.е. ответов на совокупность вопросов) таким образом, чтобы этот подход мог применяться при низких уровнях измерения наблюдаемых переменных. Общая идеология метода достаточно известна, поэтому мы можем опустить ее изложение. Отметим лишь, что латентно-структурный анализ был очень существенным шагом в теории шкалирования, но из-за вычислительных сложностей доволь­но долго оставался вне сферы активного применения8. В конкретных социологических исследованиях по-прежнему использовались пря­мые вопросы или (значительно реже) гутмановские или ликертов-ские шкалы.

К 1930-м - 1940-м годам относится возникновение еще одной важной для социологического измерения традиции, более общей, чем измерение установок. Речь идет об общем подходе к измерению субъективных переменных, начало которому положили предвоенные работы П.Лазарсфельда.

Интерес П.Лазарсфельда к измерению латентных, опосредующих психологических переменных восходит к раннему периоду его про­фессиональной деятельности. Защитив в 1925 г. диссертацию по при­кладной математике в Венском университете, Лазарсфельд сочетал преподавание в гимназии с исследовательской работой в Психологи­ческом институте Венского университета под руководством Шарлотты Бюлер, изучавшей фазы жизненного цикла. К этому времени отно­сится его работа о занятости молодежи.

В ранних статьях американского периода Лазарсфельд, активно включившийся в широкомасштабные исследования рынка и массо-

30

вые опросы, часто обращается к анализу мотивов поведения, внут-ренних переменных, определяющих поведение потребителя, исполь-зуя теоретические концепции "глубинной психологии" - фрейдов-скую репрессию, адлеровский "комплекс неполноценности", юнгов-скую интроверсию/экстраверсию. Этот интерес к анализу мотивов человеческого поведения, соединенный с интересом к квантификации (оба эти интереса имели "венские" корни), породили уникаль­ный талант к сочетанию качественного и количественного подходов, углубленной психологической интерпретации и аналитических ме- тодов (см., в частности: [162]).

Лазарсфельда особенно интересовала проблема валидности субъ­ективного измерения. В 30-е годы, когда влияние бихевиоризма было весьма ощутимо даже в прикладной социологии и психологии, любые субъективные, интроспективные измерения требовали очень серьез­ного обоснования. Попытки интроспективного измерения "мотивов" часто подвергались нападкам сторонников "объективного" измере­ния наблюдаемых поведенческих актов, а попытки выяснить "что люди думают (о том), что они думают" расценивались как едва ли не отступление от научных норм. Лазарсфельд стремился доказать, что измерение субъективных переменных возможно и целесообразно, что люди способны объяснять мотивы своего поведения и мотивы предпочтений, если возможные смысловые оси такого объяснения отчетливо идентифицированы исследователем заранее.

Рассматривая проблему сравнимости субъективных измерений, Лазарсфельд высказывает очень оригинальную трактовку проблемы общности/идентичности показателей (статья "Искусство спраши­вать: "Почему ?", 1935 г. [161]): для того, чтобы обеспечить идентичность интерпретации респондентами вопроса, нужно стре­миться не к жесткой фиксации словесной формулировки ("стандар­тному стимулу"), а к более свободному способу коммуникации интервьюера и респондента, обеспечивающей удовлетворительное понимание и единство личностного смысла вопроса для респондентов. Проблему поиска идентичных показателей в сравнительных иссле­дованиях нельзя считать решенной и сегодня, но сама постановка ее Лазарсфельдом чрезвычайно интересна. В 30-е - 40-е годы идея гибкой формулировки вопросов, позволяющей фиксировать опреде­ленный личностный смысл, не могла приобрести популярность среди ученых, проводивших широкомасштабные опросы общественного мнения и уделявших основное внимание полной стандартизации процедур, но она дала толчок к дальнейшей разработке методов фокусированного интервьюирования.

Эта идея повлияла на разработку ПЛазарсфельдом классифика­ционных схем для тематического анализа "сырых" ответов, получа­емых при личной беседе или через открытые вопросы. Четыре правила классификации, изложенные в [161 ] и позднее, в 1951 г., воспроизведенные в [167], гласят:

А. Общие категории кодирования должны быть разделены на специфические категории ("артикуляция").

31

Б. Эти категории должны быть исчерпывающими и взаимоисклю­чающими ("логическая правильность").

В Кодирование должно выделять некоторую органическую струк­туру, схватывая логику ситуации или исследуемого процесса.

Г. Оно должно отражать собственную точку зрения респондента или его субъективное определение ситуации.

К этому же периоду (вторая половина 30-х годов) относятся первые попытки применения аналитических типологий для класси­фикации данных из монографических "анализов случая" с последу­ющим созданием новых переменных, а также использования четы-рехклеточных таблиц сопряженности для анализа категориальных переменных. Основная схема причинного анализа, детально разра­ботанная Лазарсфельдом в более поздних работах и основанная на создании новых качественных переменных через типологическую редукцию и на проверке их статистической связи с помощью четы-рехклеточных таблиц, была впервые использована в проведенном ПЛазарсфельдом и С.Стауффером исследовании американской семьи в период депрессии (1937 г.). Сама идея построения четырех-клеточных таблиц принадлежала С.Стауфферу (LaParsfeld oral history interview // Oral History Collection / Butler Library Columbia University. P.145, цит. по: [109. P.139-140])9.

В предвоенные годы ПЛазарсфельд и его сотрудники вели обшир­ную работу по систематизации существующих и конструированию новых индексов. В книге "Радио и печатная страница" [164] обсуж­даются самые разные индексы - индекс "стандарта чтения" (Лазар-сфельд), три индекса установок по отношению к радио (Сэйр), конструирование индексов из монографических "анализов случая" (Лазарсфельд и Робинсон), шкала рейтинга популярных песен и другие. Например, сводный индекс "стандарта чтения" был сконст­руирован Лазарсфельдом как операциональный эквивалент неизме­ряемой переменной "читательская способность". Лазарсфельд дихо-томизировал четыре переменные - образование, экономический ста­тус, количество чтения (количество читаемых журналов) и уровень чтения (чтение книг в течение последнего месяца) - и суммировал знаки " +" этих переменных, получая шкалу со значениями от О до 4. Эта процедура была, безусловно, весьма огрубленной и никак не учитывала явно существующие причинные отношения между переменными. Однако нельзя не оценить усилия, предпринятые для квантификации и косвенного измерения существенных переменных теории.

В 1939 г. Лазарсфельд еще раз обращается к проблеме идентичных индикаторов (статья "Взаимозаменяемость в измерении эконо­мических влияний" [163]). Речь здесь идет о том, что переменная " экономический статус" может быть измерена разными способа-

32

ми, с помощью разных показателей - наличие собственного дома или автомобиля, род занятий, уровень доходов и т.п. При этом каждый этих показателей будет давать, в определенных пределах, одинаковый паттерн связей с другими "психологическими" пе-ременными. В подтверждение этого тезиса Лазарсфельд приводит некоторые опросные данные (относительная стабильность числа голосующих за республиканцев среди "высоких" по экономиче­скому статусу групп, выделенных с использованием различных индикаторов). Хотя Лазасфельд и оговаривает, что нужны дальней­шие проверки взаимозаменяемости переменных, здесь уже прослеживается важнейший источник теоретической модели латен­тно-структурного анализа. Это - представление о вероятностных отношениях манифестных индикаторов и лежащих в их основе неизмеряемых латентных осей.

Как отмечает Дж.Конверс, ПЛазарсфельд и его сотрудники, публиковавшиеся в "Journal of APPlied Psychology", постоянно ощу­щали недостаток данных и показателей и обращались к самым разным источникам - опросам книжных клубов, данным опросов общественного мнения, проводившихся фирмами Дж.Гэллапа и Э.Роупера, к оценкам размеров аудитории газет и журналов и панелям студентов-радиослушателей. "Можно образно представить себе Лазарсфельда и его группу как компанию предприимчивых старьевщиков, ищущих данные всех форм и размеров и приносящих их в свой оффис в коробках, корзинах, ящиках и кувшинах, чтобы потом подвергнуть их анализу" [109. Р.142].

Мотивом здесь было убеждение в возможности найти теоретиче­ские рамки для любых данных и с помощью простых статистических и концептуальных процедур (прежде всего, связывающих показатель с косвенно измеряемой теоретической переменной) внести смысл в хаос эмпирии. Дж.Конверс, остроумно перефразируя популярную песню, говорит: "Когда у Лазарсфельда не было под рукой тех

данных, которые он любил, он любил те данные, которые были под рукой" [109. Р.142 ]. Эти усилия были продуктивны, так как откры­- вали перед социологией новые перспективы косвенного измерения, пробуждая обоснованный оптимизм сторонников квантификации в социальных науках. И в то же время они подталкивали социологов к атеоретическому способу измерения, когда значения показателей вкупе с элементарными статистическими процедурами становились "волшебной машинкой", с помощью которой давалась апостериорная интерпретация полученной " простой структуры" эмпирических по­- казателей с помощью ad hoc изобретаемых понятий.

Однако сам Лазарсфельд не ограничивался моделью косвенного измерения с помощью доступных и относительно прямо измеряемых

показателей типа данных переписи и социальной статистики. Он упорно стремился к обоснованию прав субъективного измерения в

социальных науках, считая, что субъективные, но имеющие смыс-

33

ловое отношение к теоретически существенному конструкту, пока­- затели предпочтительнее любых самых объективных "коррелятов",

3 И.Ф.Девятко

которые связаны с этим конструктом лишь очень опосредованным образом.

Это сочетание интереса к косвенному и многоиндикаторному измерению с предпочтением субъективных индикаторов промежу­точных переменных на первый взгляд кажется парадоксальным (зачем обращаться к интроспекциям и самоотчетам, если "все во всем" и можно найти пусть очень косвенный, но "объективный" показатель типа доходов, расходов и бюджета времени?). По сути же влияние психологии (и в том числе "симптомологии" психоана­лиза) предопределило чуткость Лазарсфельда к проблемам "пони­мающей" интерпретации и обусловило уникальность его таланта, о чем говорилось выше. Дж.Конверс отмечает, что для американской профессиональной карьеры Лазарсфельда как социолога, его интерес к психологии оказался значительно более влиятельной частью "вен­ского наследства", чем даже его социалистические убеждения [109. Р. 143].

Анализ ранних работ Лазарсфельда позволяет понять суть и основное содержание выдвинутой им позднее, в начале 50-х годов, концепции качественного измерения (наиболее ясно изложенной в работах [32; 167]). Фактически идея качественного измерения лишь подытоживает те взгляды, которые П.Лазарсфельд развивал в пред­военные и военные годы, и тот опыт, который он получил в работе над "Американским солдатом".

Заинтересованность ПЛазарсфельда в качественном измерении была связана, с одной стороны, с преобладанием в рассматрива­емый период проблемно-ориентированных, "заказных" конкретных социологических исследований, в которых постановка проблемы и возможности получения определенного типа эмпирических данных были первичны по отношению к теоретической концептуализации и построению модели измерения. С другой стороны, методические проблемы агрегирования, использования множественных индикато­ров и оценки качества измерения были еще недостаточно разрабо­таны. П.Лазарсфельд формулировал эту проблему, как проблему несоответствия между постулируемой из теоретических соображений метрикой теоретического конструкта и метрикой доступного инди­катора. В качестве общей он рассматривал следующую тактику качественного измерения: сегментация сложного теоретического по­нятия и уточнение (спецификация) отдельных его аспектов; нахож­дение индикаторов, соответствующих выделенным аспектам; постро­ение сводного показателя, суммирующего значения отдельных ин­дикаторов, исходя из содержательных теоретических соображений10. В работе 1951 г. П.Лазарсфельд подчеркивал, что измерение в общественных науках может проводиться самыми разными средст­вами, "которые менее точны, чем строго количественное измерение, но тем не менее много лучше беспомощного индивидуального

34

суждения". И далее:"... существует прямая логическая линия дви­жения от качественной классификации к самым строгим формам измерения через промежуточное использование систематических оценок, ранговых шкал, многомерных классификаций, типологий и количественных индексов" [167. Р.155]. Представления ПЛазар­сфельда о качественном измерении и предложенные им конкретные эвристические приемы построения типологий и задания пространства признаков сыграли важную роль в решении многих теоретико-мето­дологических и прикладных проблем социологии (см. также: [8 ]) и расширили существовавшие представления о возможностях внефи-зического измерения.

5. Формальные модели шкалирования установок и классификации шкал

Описывая историю становления различных подходов к измерению установок в эмпирической социологии, мы не рассматривали сколь-нибудь детально формальные модели шкалирования установочных переменных (хотя и останавливались на некоторых особенностях процедуры). В принципе, анализу этих формальных моделей и проблемам конструирования шкал посвящено очень большое коли­чество работ зарубежных и отечественных исследователей (отметим, в частности, [21; 26; 30; 49; 63; 76; 98; ПО; 210; 237]). Задача данного раздела заключается в том, чтобы на основе существующих работ дать некоторое общее представление о связи конкретных процедур с логикой и формальными основаниями различных моделей шкалирования, обобщить различные классификации шкал и указать, какое место в этих классификациях занимают описанные нами подходы к шкалированию11.

При всем многообразии существующих теоретических подходов к определению понятия "установка" в социологии и социальной психологии практически общепринятым является выделение трех компонентов (аспектов) аттитюдов - когнитивного, аффективного и поведенческого (конативного). Трем компонентам социальной уста­новки соответствуют три класса явлений - 1) осознание объекта установки, связанное с наличием определенной информации о нем; 2) реальное, предполагаемое или предпочитаемое поведение по отношению к объекту; 3) эмоционально-аффективная оценка, выяв­ление чувства симпатии или антипатии по отношению к объекту установки.

Исходя из некоторого недетализированного представления о наличии структурного взаимодействия между перечисленными 35

компонентами, рассмотрим общие подходы к измерению когни­тивных, аффективных и поведенческих переменных социальной установки.

Рассматривая понятие "переменная" как конструкт, отражающий некоторое качество (свойство), в разной мере присущее всем членам наблюдаемой совокупности, определим здесь измерение как систе­матическое приписывание чисел совокупности наблюдений, отража­ющее положение каждого члена совокупности на континууме пере­менного качества. Для наших целей шкалу можно определить как множество элементов. Каждый элемент шкалы состоит из трех компонентов - а) эмпирическое событие-"стимул"; б) действитель­ное число; в) правило, или совокупность правил, связывающих событие с числом. Такое определение восходит к общему определе­нию измерения, данному С.Стивенсом [47. С. 19-20; 218. Р.19-24]12. Получаемая в результате приписывания чисел объектам числовая система становится моделью эмпирической системы. При конструи­ровании шкалы исследователь специфицирует переменную-свойст­во, в терминах которой могут быть описаны события из множества наблюдаемых событий. Далее он формулирует правила "отображе­ния", разметки, согласно которым события могут различаться по их положению на оси переменной, и, наконец, представляет числами эти различия событий. В результате исследователь может считать измеренной с помощью шкалы переменную-свойство в той мере, в какой она проявляется в конкретной совокупности наблюдений. Как будет показано далее, общность правил отображения и числовой системы определяет возможность переноса шкалы за пределы исход­ной совокупности наблюдений.

Определим понятие "инструмент измерения" как совокупность средств, с помощью которых эмпирические события отображаются в числовую систему. Т.е. инструмент измерения - это вся совокупность операций разметки, с помощью которых конструируется шкала. Так, если значение переменной оценивается через усреднение оце­нок экспертов, то инструмент измерения может быть описан как совокупность повторяющихся оценочных суждений.

Вслед за Г.Апшоу, введем в качестве первой характеристики инструмента измерения требование функционального единства. Функциональное единство инструмента измерения - это степень согласованности, консистентности различных операций разметки в определении шкального значения конкретного стимула [237. Р.65 ]. В понятии функционального единства подразумевается существова­ние какой-то статистической зависимости между операциями, харак­тер которой, однако, будет меняться в соответствии с теоретическими представлениями о природе измеряемой переменной13. В области измерения установок составляющие инструмент операции могут быть воплощены как в субъектах-судьях, так и в пунктах (воп-

36

росах) шкалы. Соответственно требование функционального единст­ва будет определяться через взаимоотношение судей либо пунк­тов. Помимо функционального единства выделяют еще две харак­теристики измерительного инструмента - надежность и валидность. Однако так как эти две характеристики качества измерения явля­ются предметом рассмотрения в следующей главе книги, здесь мы не будем на них останавливаться.

Рассмотрим вкратце проблему обобщения шкальных значений. Постольку, поскольку исследователь заинтересован в представлении отдельных эмпирических событий в абстрактной модели интересую­щей его области, он склонен считать каждое индивидуальное событие выборкой из универсума наблюдений, любой член которого может заменить текущее наблюдение. Различные переменные, представля­ющие аспекты данного универсума наблюдений и влияющие на результат измерения, - это то, что Л.Гутман обозначил как "фасе­ты", грани отдельного гипотетического универсума, по отношению к совокупности которых реальные наблюдения должны рассматри­ваться как выборка [138 ]. Собственно измерению, таким образом, предшествует спецификация его объекта с точки зрения интересую­щих исследователя аспектов ("фасет"). Эта спецификация объекта (предметной сферы) зависит от предполагаемой генерализации чис­ленных приписываний. Исследователь, таким образом, должен зара­нее определить желаемый способ генерализации шкальных значений измеряемой переменной и обеспечить условия для генерализации при планировании исследования. Так как любой универсум наблю­дений заведомо многогранен и для некоторых "фасет", видимо, нельзя задать конечное множество условий, то принимаемое допу­щение о случайном характере выборки из гипотетического универ­сума едва ли может быть строго обосновано. Здесь для наших целей достаточно будет считать выборку наблюдений случайной, если элементы этой выборки могут рассматриваться как репликации друг друга. Для любой модели шкалирования обязательна какая-то форма требования случайного воспроизведения, так как без этого невоз­можно обобщение "численного приписывания". В сущности, обобще­ние здесь выступает как форма предсказания. Т.е. исследователь полагает, что сделанное конкретное наблюдение может быть восп­роизведено при наблюдении любой другой выборки из универсума наблюдений, определенного на стадии спецификации. В случае неадекватного описания универсума наблюдении обобщение окажет­ся необоснованным.

Наконец, определим, что подразумевается под моделью шкали­рования. Модель шкалирования определяет способ выведения бал­лов, уровень полученного измерения (тип шкалы) и выбор способов оценки функционального единства полученного инструмента изме­рения (ср. [26. С.129]).

Г.Апшоу, основываясь на трехкомпонентной теории установок и классификации шкал по Торгерсону [235. Р.45-48 ], ввел классифи­кацию шкал установок [237. Р.69-72 ]. Так как эта классификация очень удобна при обсуждении различных подходов к шкалированию

37

установок, мы дадим ее краткое описание. Первое различение шкал проводится по типу установочных переменных. При этом перемен­ная, как уже говорилось, это свойство, по которому упорядочивается совокупности наблюдений. Так как связанные с установкой явления могут быть когнитивными, поведенческими и аффективными, то вы­деляется три общих типа шкал - когнитивные, поведенческие и аф­фективные шкалы. Каждому из этих общих типов шкал соответствует тип базисного наблюдения, на котором основано построение шкалы. Внутри общих типов шкал конкретные типы (классы) выделяются в зависимости от того, как обозначен класс наблюдений, которым соб­ственно и приписываются численные значения. В самом общем случае численные значения могут приписываться субъектам установки, во­зможным содержаниям установки, либо различным объектам уста­новки (см. также [213. Р. 122-123 ]. Получаемая классификация шкал установки схематически изображена в табл. 1.1.

Когнитивные шкалы. Когнитивная переменная относится к зна­нию (или информации) субъекта об объекте установки. Базисным наблюдением для конструирования когнитивной шкалы является выражение субъектом мнения о характеристиках объекта установки. Это мнение может быть подвергнуто верификации по правилам, которые, однако, могут быть различны для разных людей (прямая проверка, религиозное откровение или что-либо еще). В любом случае мнение может быть оценено как верное или ошибочное. Можно привести следующие примеры когнитивных установочных переменных: субъективно воспринимаемая степень выраженности у объекта установки какой-либо черты, дифференциальная значи­мость различных черт объекта, уверенность, с которой субъекты приписывают черты объекту. Так как любое мнение имеет три компонента - разделяющий его субъект, содержание мнения и объект, к которому оно относится, - то при измерении когнитивной переменной шкальные значения могут приписываться наблюдениям, соответствующим каждому из этих трех компонентов. Приведем примеры получающихся типов шкал14, давая описание измеряемой переменной:

  1. Когнитивно-субъектная - степень, в которой типичный американец, швед, немец воспринимает французов как жизне­- радостных.

  2. Когнитивно-содержательная - степень, в которой типичный американец воспринимает французов как жизнерадостных, расчет­- ливых, предприимчивых и т.д.

  3. Когнитивно-объектная - степень, в которой типичный амери-­ канец воспринимает французов, англичан, немцев как жизне­- радостных.

Поведенческие шкалы. Поведенческий аспект установки относит­ся к действиям, которые личность совершает, защищает или поддерживает. Фактически речь идет о принятии решений и выборе

38

Таблица 1.1 Классификация шкал установки (по Г.Апшоу)

Класс наблюдений, для которого уста­навливаются чис­ленные значения

Общие типы шкал

Когнитивные

Поведенческие

Аффективные

Субъекты

I

IV

VII

Когнитивно-субъектные шкалы

Поведенческо-субьектные шкалы

Аффективно-субъектные шкалы

Содержание

II

V

Когнитивно-со­держательные шкалы

Шкалы со­держания пове­дения

Объекты

III

VI

VIII

Когнитивно-объектные шкалы

Поведенческо-объектные шкалы

Аффективно-объектные шкалы

способа действий в проблемных ситуациях, связанных с объектом установки. Разумеется, поведенческая готовность тесно связана с когнитивным и аффективным аспектами установки. Более того, поведенческие переменные установки могут выступать предик­торами когнитивных и аффективных переменных. Однако разделе­ние этих переменных и, соответственно, шкал полезно не только с аналитической точки зрения, так как возможно рассогласование компонентов установки (например, "феномен Лапьера"). Поведен­ческая установочная переменная связана с готовностью человека совершать действие, соглашаться с его свершением или поддерживать его. Базисным наблюдением для построения шкалы является приня­тие или отвержение субъектом действия, направленного на объект. По классу наблюдений, получающих численные значения по шкале, можно выделить следующие типы поведенческих шкал - поведенче-ско-субъектные, шкалы содержания поведения и поведенческо-объ-ектные шкалы. Приведем примеры:

IV. Поведенческо-субъектные шкалы - насколько типичный бе-­ лый профессионал, независимый предприниматель, наемный рабо­- чий-китаец считает приемлемым вступление в брак с черным аме-­ риканцем.

V. Шкалы содержания поведения - насколько типичный атеист считает приемлемым наказывать торговлю наркотиками смертной казнью, высылкой из страны, пожизненным заключением и т.д.

VI. Поведенческо-объектные шкалы - степень, в которой типич-­ ный американский студент колледжа считает возможным вступление в брак с француженкой, негритянкой, японкой.

39

Аффективные шкалы. Аффективный (или эмоционально-оценоч­ный) компонент установки обычно выражается через степень пред­почтительности или благожелательности к объекту установки. "Фер­мер и игрок в гольф могут в одинаковой мере ожидать дождя в определенный день, но это общее мнение может вызывать у них противоположные чувства" [237. Р.72]. Т.е. игрок в гольф может иметь неблагожелательную установку по отношению к дождю, а фермер - благожелательную. Базисным наблюдением для конструи­рования аффективной шкалы является проявление субъектом по отношению к объекту установки ориентации "за - против". Эмпи­рическими событиями, которым приписываются числа, могут высту­пать субъекты либо объекты установки. Соответственно результатом будут аффективно-субъектные либо аффективно-объектные шкалы. Так как аффект логически может быть определен как унитарное понятие, для аффективных переменных нельзя построить шкалу содержания установок, т.е. для одномерной шкалы аффективной установочной переменной принимается предположение, что один человек испытывает одну, и только одну степень аффекта по отно­шению к объекту установки (хотя он при этом может приписывать единичному объекту любое количество черт или принимать любое количество способов действий по отношению к одному объекту). На первый взгляд, логика этого рассуждения может быть подвергнута критике с точки зрения понятия "амбивалентного аффекта" ("двой­ственного отношения" в обыденном языке). Однако для того, чтобы определить амбивалентную эмоциональную оценку как переменную, необходимо либо принять, что один респондент имеет несколько "точек расположения" на шкале, либо трактовать объект установки как имеющий несколько стимульных значений. В принципе эта задача при некоторых условиях разрешима для многомерного шка­лирования. Однако наш анализ общих моделей для измерения установочных переменных связан с более ранней традицией измере­ния установок в социологии. Поэтому здесь речь будет идти об измерении унивалентного аффекта. Таким образом, вслед за Г.Ап-шоу, мы будем говорить лишь о двух классах аффективных шкал, примеры которых приведены ниже:

VII. Аффективно-субъектные шкалы - степень, в которой подросткам, пенсионерам, армейским офицерам нравятся фильмы о Рэмбо.

VIII. Аффективно-объектные шкалы - насколько типичному бе­- лому жителю американского маленького города нравятся Дж.Буш, С.Хусейн, М.Горбачеъ и т.д.

Теперь мы можем перейти к рассмотрению общих моделей, используемых при измерении установочных переменных, и анализу сложившихся преимущественно в 30-е - 40-е годы подходов к измерению установок (описанных в предыдущем параграфе) с точки зрения этих общих моделей. Для каждой из общих моделей будет рассмотрена природа ее базисных данных, правила приписывания

40

численных значений эмпирическим событиям и требования функ­ционального единства, а также возможность использования модели для только что описанных восьми классов шкал установок.

Как уже отмечалось, эмпирический " субстрат" для конструи­рования различных шкал установок практически одинаков. Респон­дент сообщает исследователю, что он думает, чувствует относительно какого-то объекта или как он собирается поступать по отношению к нему. Различие заключается в том, что исследователь определяет как базисное эмпирическое событие, которое должно быть отражено в числовой системе с отношениями. При этом особую сложность представляют субъектные шкалы, так как задача здесь заключается в том, чтобы получаемая шкала могла служить надежным основани­ем для межиндивидуальных сравнений, быть нечувствительной к таким источникам вариации, как индивидуальные речевые привыч­ки или стандарты оценивания. Именно для построения аффективно-субъектных шкал и были предназначены модели Гутмана, Терстоуна и Ликерта15.

Существенным для дальнейшего изложения является еще одно различение - между прямым и косвенным (непрямым) шкали­рованием, введенное Г.Экманом, Л.Сьобергом и Т.Кюннапасом [60 ]. Различие между названными двумя подходами, в сущности, заклю­чается в принятии или отвержении предположения о способности респондента или испытуемого давать прямые численные оценки на более высоком, чем номинальный, уровне измерения. При исполь­зовании моделей прямого шкалирования в измерении установок задача респондента состоит в том, чтобы численно оценить, какая из множества альтернатив наилучшим образом отражает его уста­новку. Прямое конструирование номинальной шкалы обычно рас­сматривается как безусловно обоснованная процедура. Другие же модели прямого шкалирования в измерении установок нередко вы­зывали споры о наличии у респондентов способностей к кванти-фикации.

Прямое ординальное шкалирование

Этой модели соответствует ситуация, когда задачей респондента является ранговое упорядочение совокупности стимулов по некото­рому свойству. Формальной моделью этой ситуации является коэф­фициент конкордации М.Кендэлла. Коэффициент Кендэлла позво­ляет оценить согласованность рангов. Он равен 1 при полном согла­сии респондентов и 0 при полном несогласии [10. С.116-123].

Примером реконструирования шкалы при конкордантной модели может служить ранжирование 10 респондентами 8 способов действия по применимости к конкретной ситуации. Результатом будет шкала "содержания поведения" (behavioral-content). Предполагаемая этой моделью шкальная гипотеза - консистентность суждений 10 респон­дентов. В случае ее неотвержения полученное ранжирование может

41

быть обобщено для всей популяции, выборкой из которой являются 10 респондентов. Коэффициент конкордантности является здесь средством оценки степени согласованности ранжировок. Если каждый респондент давал бы идентичные данные, то общее ранжи­рование могло бы быть обобщено до универсума наблюдений.

Если согласованность ранговых данных, по гипотезе представ­ляющих случайные репликации, неабсолютна, то исследователь должен предположить либо наличие ошибок респондентов (непра­вильно понятая инструкция, намеренное искажение, утомление и т.д.), либо неучет других важных аспектов, либо ошибочность своей теоретической концепции, т.е. отсутствие в универсуме наблю­дений единичной одномерной ординальной шкалы данной пере­менной.

Трудно установить единый критерий для выбора интерпретации неполной конкордантности. В любом случае здесь должна учиты­ваться численная величина полученного коэффициента. Низкие значения скорее свидетельствуют об ошибочности шкальной гипоте­зы, чем о влиянии ошибок респондентов. Умеренные - о неа­декватной "разметке" релевантных признаков универсума наблюде­ний [237. Р. 75].

Если исследователь склонен принять предположение о наличии "ошибок ответа", то он либо исключит ошибающихся респондентов (если сможет их идентифицировать), либо воспользуется усреднен­ными оценками для получения ранга каждого стимула и обобщит полученное ранжирование на универсум наблюдений.

Прямое интервальное шкалирование: категориальные шкалы

Эта процедура является очень типичной для измерения установок и позволяет получить категориальную шкалу. Процедурой шкали­рования в этом случае является метод равнокажущихся интервалов. Оценочные суждения осуществляются как приписывание чисел объ­ектам через отнесение к категориям, границы которых равнораспо-ложены по отношению к количеству определенного свойства (пере­менной). Модель поведения респондента, предполагаемая этой про­цедурой, заключается в следующем: респондент принимает решение, что стимул имеет больше данного свойства, чем нижняя граница категории, и меньше, чем верхняя граница. В модели прямого шкалирования категориальную шкалу должен сконструировать сам респондент. Начало шкалы соотносится со стимулом (возможно, гипотетическим), который должен быть отнесен к категории 0. Единица шкалы обозначает то количество шкалируемого свойства, которое определяет ширину категории ответа. Еще одним предполо­жением модели прямого шкалирования является инвариантность параметров шкалы при повторении (для новой выборки респондентов или тех же респондентов): численные значения для каждого стимула могут быть усреднены.

Чтобы совокупность чисел могла рассматриваться как численные значения свойства на интервальной шкале, они должны быть инва-

42

риантны в пределах линейного преобразования формы у = а + bх, где коэффициент Ъ отражает различие в единицах шкалы, а коэф­фициент а - различие в начале отсчета. Если результаты репликаций удовлетворяют этому требованию, то усредненные числовые значе­ния стимулов образуют новую шкалу, начальная точка и единица которой являются усреднением значений этих параметров по всем индивидуальным репликациям (при простом усреднении компонен­ты-репликации будут взвешиваться в прямом соответствии с их дисперсиями: больший "вес" получат те репликации, в которых границы категорий уже и, соответственно, единицы измерения мень­ше, а дисперсии шкальных значений стимулов - больше). Содержа­тельная интерпретация единицы и начальной точки шкалы потребо­вала бы введения предположения об их инвариантности при воспро­изведениях и введения более сильных ограничений, чем соответст­вующие интервальному уровню измерения.

Рассматривая повторные процедуры вынесения суждений как измерительный инструмент [237. Р.65], т.е. средство, с помощью которого множество стимулов отображается на числовую систем' степень согласованности между различными операциями, составля- ющими в совокупности этот инструмент, можно определить как функциональное единство инструмента. В модели прямого интер- вального шкалирования требование функционального единства пред­полагает линейные отношения между всеми парами предполагаемых повторений. При выполнении этого требования несистематический разброс в численных значениях, который не относится к линейному отношению, может рассматриваться как устанавливающий перцеп­тивную ошибку респондента либо по отношению к положению отдельного стимула, либо по отношению к численным значениям границ категорий. При предположении, что такие несистематические ошибки будут взаимоуничтожаться при усреднении, оценкой истин­ного значения будет усреднение численных оценок респондентов по каждому стимулу. Однако наличие линейной связи между парами репликаций, необходимое для выполнения требования функциональ­ного единства, недостаточно для доказательства того, что полученная шкала обладает инвариантностью интервального типа шкал. Оно лишь доказывает сходство категориальных суждений респондентов. Интервальный же уровень измерения требует еще и постоянства единицы шкал. Так как последняя проблема возникает и при использовании закона категориального суждения, мы обратимся к ее детальному анализу ниже.

Допущение о равенстве различительных дисперсий, делающее возможным их использование в качестве единиц измерения на психофизической шкале, явилось предметом концептуальной крити­ки со стороны С.Стивенса, предложившего альтернативную парадиг­му прямого шкалирования отношений в психофизике [48 ]. Работы С.Стивенса и его последователей показали, что для прототетических психологических континуумов прямое шкалирование отношений является обоснованной и дающей согласованные результаты проце­дурой (что было подтверждено экспериментами с кросс-модальной

43

валидацией и сменой стимульного контекста). В основании прямого шкалирования лежит модель прямой оценки субъектом величины стимула. Хотя кросс-модальная валидация неприменима к не имею­щим физической измеримости стимулам, Стивенсу удалось полу­чить некоторые непрямые доказательства существования степенно­го закона для ряда социальных переменных, измеряющих аффектив­ный компонент установки (см.: [48]). Однако методы прямого конструирования шкал отношений, резко изменившие облик психо­физики в 40-е - 50-е годы, не оказали заметного воздействия на складывавшиеся в социологии подходы к измерению установок. В 60-е годы появились немногочисленные, но крайне интересные ра­боты в этой области, обзор которых можно найти в [140].

Косвенное интервальное шкалирование и шкалы, основанные на законе категориального суждения

Общая форма закона категориального суждения была описана У.Торгерсоном [235 ]. Исходным для развития процедур шкалирова­ния, основанных на этом законе, был метод последовательных интервалов, предложенный в 1937 г. М.Сэффиром [207]. Различные процедуры для получения шкальных оценок и границ категорий описаны М.Сэффиром, А.Эдвардсом и другими16.

При конструировании шкал, основанных на законе категориаль­ного суждения, перед респондентом ставится задача отнесения объ­екта в наиболее подходящую категорию на континууме предпочита-емости.

В отличие от модели прямого шкалирования, предположение о способности респондента устанавливать равноотстоящие категории здесь не вводится, но шкальный порядок категорий должен быть известен и явно задан наименованиями категорий. Границы между категориями ответа рассматриваются как стандартные стимулы: как и в законе сравнительного суждения, величина процесса различения, вызываемого каждым стимулом и каждой границей категории, пред­полагается нормально распределенной. Выводя закон категориально­го суждения, Торгерсон фактически предполагает, что процедура вынесения категориального суждения здесь основана на неявном парном сравнении "стимул - граница категории".

Закон категориального суждения может быть представлен следу­ющим образом:

(1.1)

где Si - среднее гипотетического распределения перцептивного процесса для стимула i ;

Сj - среднее гипотетического распределения перцептивного про­цесса для j-ой категориальной границы;

44

Pij - нормированное отклонение, соответствующее наблюдаемой

доле суждений " i > j”;

σi и σj - различительные дисперсии стимула i и границы

категории j;

rij - коэффициент корреляции между границей категории j и

стимулом i .

Очевидно, что закон категориального суждения аналогичен зако­ну сравнительного суждения, однако второй из сравниваемых сти­мулов здесь заменен на границу категории. Поэтому для решения основного уравнения вводится аналогичная совокупность допуще­ний. Среди обсуждаемых Торгерсоном допущений, нужных для нахождения решений, содержатся следующие три:

  1. Различительные дисперсии всех стимулов равны.

  2. Различительные дисперсии всех категориальных границ равны.

  3. Все коэффициенты корреляции между стимулами и границами категорий равны.

При принятии этих допущений, закон категориального суждения может быть приведен к:

(1.2)

Особая совокупность допущений используется при применении предложенного М.Сэффиром метода последовательных интервалов: различительные дисперсии всех границ категорий принимаются равными, а корреляция между положением на шкале любого стимула и любой границей категории равна нулю [237. Р.87 ]. Тогда уравне­ние принимает вид:

(1.3)

Третья из анализируемых Торгерсоном возможностей решения аналогична второй: различительные дисперсии всех стимулов равны, а корреляции между стимулами и границами категорий равны нулю (процедура подробно описана в [21. Р.257-261 ]). Тогда закон кате­гориального суждения принимает вид:

(1.4)

При анализе данных согласно закону категориального суждения строится матрица Р, элемент которой рij - частота помещения

стимула i ниже границы категории j . Так, стимул, помещенный в категорию 2, содержит меньшее количество предполагаемого каче­ства, чем граница между категориями 2 и 3, граница между катего­риями 3 и 4 и так далее. Матрица P получается при представлении всех р.. в единицах единичного нормального отклонения (табл. 1.2).

45

Таблица 1.2а. Матрица Р. Накопленные частоты суждений "стимул / меньше границы категории f

Стимулы

Границы категорий

1

2

3

j

n

1

P11

Р 12

Р13

Р1j

1.00

2

P21

P22

P23

P2j

1 00

3

P31

P 32

P 33

….

Р 3j

1.00

i

P i1

P i2

P i3

….

P ij

1.00

m

P m1

P m2

P m3

..

Р mj

1 00

Таблица 1.26. Матрица P. Единичные нормальные отклонения, соответствующие Р..

Стимулы

Границы категорий

1

2

3

j

n

1

Z11

Z 12

Z 13

Z1j

1.00

2

Z21

Z22

Z23

Z2j

1 00

3

Z31

Z 32

Z 33

….

Z 3j

1.00

i

Z i1

Z i2

Z i3

….

Z ij

1.00

m

Zm1 m1

Z m2

Z m3

..

Z mj

1 00

Каждая z ij предполагается выраженной в единицах, зависящих от

используемой формы закона категориального суждения. Для уравнения (1.2) различные единицы предполагаются равными, а для уравнений (1.3) и (1.4) равными предполагаются единицы для каждого ряда и каждого столбца соответственно. Описание вычислительных процедур для получения шкальных оценок стимулов и границ категорий дано Торгерсоном [235], Эдвард-сом [125] и др.

Эдварде и Терстоун предложили вычислять разницу между под­считанными из параметров модели долями рц и наблюдаемыми

долями [21. С.258]. Эта процедура может рассматриваться как критерий функционального единства шкалы. Гилфорд предложил использовать хи-квадрат Мостеллера для оценки статистической значимости величины расхождений [237. Р.89]. Однако Торгерсон отметил, что для любого из стимулов доля случаев, когда он будет оцениваться как больший, чем какая-то из границ категории, не будет независимой от доли случаев, когда он будет оценен как больший, чем любая другая граница категории. Появляющаяся в результате зависимость противоречит предположениям, лежащим в основе теста хи-квадрат.

46

Отрицательный результат проверки внутренней согласованности свидетельствует о необоснованности по крайней мере одного из сделанных допущений. В этом случае можно либо попытаться ис­пользовать новую совокупность предположений, либо отвергнуть гипотезу об одномерности и обратиться к процедурам многомерного шкалирования.

Существуют некоторые эмпирические доказательства инвариан­тности шкальных значений, полученных на одной выборке. П.Джо-унс [153 ] предлагал двум выборкам респондентов (из одной совокуп­ности) оценивать один и тот же набор стимулов по 6- и 9-балльной шкале соответственно. Полученные шкалы, относившиеся к классу "аффективно-объектных", оказались линейно связаны. Более того, различительная дисперсия стимулов, оцененная для двух групп, оказалась одинаковой. Кроме того, были найдены доказательства инвариантности измеренной широты категорий.

Основным критическим аргументом, относящимся к категориаль­ным шкалам и методам, основанным на законе категориального суждения, является указание на влияние специфических черт "су­дейской группы" на выносимые суждения. В исследованиях Э.Хин­кли, П.Ферпосона и других (см.: [21. С.262-264]) доказывалось отсутствие влияния установок судей на результирующую шкалу. Однако и эти исследования были подвергнуты критике за специфи­ческую процедуру исключения "легкомысленных" судей. В любом случае, оценивая шкалы, основанные на атрибутировании стимула к категории, нельзя забывать об известных из психосемантики и психофизики закономерностях, в частности о зависимости " экстре­мальности" оценок от субъективной значимости стимулов. Этих недостатков в значительной мере лишен метод парных сравнений, однако он труднее в применении. В целом накопленные доказатель­ства свидетельствуют о том, что прямое интервальное шкалирование и, соответственно, метод равнокажущихся интервалов не дают ин­тервальной шкалы, позволяя говорить лишь об ординальном уровне, тогда как методы, основанные на законе категориального суждения, имеют некоторые преимущества. Это, во-первых, возможность про­верки шкальных гипотез, т.е. принимаемой совокупности допуще­ний, и, во-вторых, линейная связь шкальных значений, полученных по этой модели, со значениями, полученными в соответствии с законом сравнительного суждения. Таким образом, модели, основан­ные на законе категориального суждения, могут обеспечивать интер­вальный уровень измерения17.

Описанные нами прямые и косвенные процедуры построения шкал непосредственно предназначены для измерения объектов и содержания установок. Однако основной интерес для нас представ­ляют шкалы, измеряющие различия между субъектами установок, т.е. - между людьми, придерживающимися определенных мнений, имеющих определенные "готовности к действию" и аффективные ориентации. Именно к этому типу шкал установок относятся шкалы Терстоуна, Ликерта, Гутмана, история возникновения которых опи-

47

сана в первом разделе данной главы. Поэтому мы вкратце рассмот­рим особенности этих шкал с точки зрения лежащих в их основе моделей измерения установок.

С данной точки зрения, шкала Терстоуна представляет собой двухшаговую процедуру построения аффективно-субъектной шкалы. В принципе она может применяться и для построения когнитивно-субъектной и поведенческо-субъектной шкал. Первый шаг этой процедуры соответствует модели прямого интервального шкалирова­ния (см. выше) - каждое суждение получает значение на "аффек­тивном" континууме в зависимости от эмоционального отношения к объекту установки. На втором шаге суждения шкалы предъявляются выборке респондентов, чье аффективное отношение к объекту уста­новки должно быть измерено. Респондент соглашается либо не соглашается с отдельными суждениями. Окончательный балл респон­дента - это усредненное значение (средняя или медиана) баллов всех одобренных им суждений. В результате респонденты оказыва­ются размещенными на той же шкале "за - против", что и предъяв­лявшиеся им суждения. Т.е. субъектам "присваиваются значения так, как если бы они были объектами в когнитивно-объектной шкале" [237. Р.91 ].

При конструировании терстоуновской шкалы установок важно соблюсти ряд требований, которые были сформулированы преиму­щественно самим Терстоуном [233]. В исходном наборе суждений должны быть представлены суждения, соответствующие всем града­циям предполагаемого аффективного отношения, а аффективная "нагрузка" суждений должна быть достаточно очевидной. Терстоун также считал существенным, чтобы суждения выражали эмоцио­нальное переживание, а не некоторый факт, отношение к которому может определяться чем-то, помимо установок респондента ("В США преобладают представители христианских конфессий"). Для окончательного отбора суждений в шкалу Терстоун использовал следующие критерии: 1) совокупность суждений должна "покры­вать" весь предполагаемый континуум аффективного отношения, будучи достаточно равномерно распределена по нему; 2) отобранные суждения не должны быть двусмысленными и неясными, т.е. разброс суждений судей должен быть невелик (в качестве объективного критерия использовался межквартильный размах оценок, который для суждений в оригинальной шкале установок по отношению к церкви в среднем был равен 1,75; 3) должны быть исключены все иррелевантные суждения. При этом объективный критерий ирреле-вантности включал в себя процедуру определения индекса сходства для всех пар суждений, основанного на наблюденной совместной вероятности одобрения пары суждений. Релевантными считались те суждения, которые имеют высокий индекс сходства для близких по шкальному значению суждений, и низкий - для "далеких". Ирреле-вантными оказывались суждения, имевшие противоположный пат­терн отношений. На рис.1 схематически показаны паттерны разброса индексов сходства для вымышленных релевантного и иррелевантного суждений (конкретные примеры приведены в книге Л.Л.Терстоуна

48

Рис. 1. Разброс индексов сходства для релевантных и иррелевантных суждений шкалы Терстоуна.

и Э.Чейва [233. Р.45-55]). Очевидно, что для применения критерия иррелевантности нужна еще одна выборка, т.е. группа респондентов, не участвовавших в "судейской" процедуре. Критерий иррелевант­ности сравнительно редко применялся при конструировании шкал такого типа. Не вполне ясно, насколько этот критерий, явно наце­ленный на исключение суждений, "загрязненных" другими конно­тациями, помимо собственно аффективной оценки объекта, важен для измерения установок. Однако заслуживает внимания аргумент Г.Апшоу: систематическое исключение суждений по такому крите­рию иррелевантности может ввести систематическое выборочное смещение в отбор из гипотетического универсума недвусмысленно эмоционально-положительных ("за") и эмоционально-отрицатель­ных ("против") суждений [237. Р.93].

Как уже говорилось выше, терстоуновская модель категориальной шкалы не дает интервального уровня измерения. Вероятно, Терстоун в 30-е годы был очень близок к формулировке закона категориаль­ного суждения и соответствующей модели шкалирования, однако описанные нами ранее (см. раздел 3 данной главы) обстоятельства привели к отказу от дальнейшей работы в этом направлении.

Что же касается требования функционального единства, то в данном случае оно подразумевает линейную связь категориальных суждений любой пары судей. Многочисленные исследования, связан­ные с возможностью переноса шкальных значений, полученных на "судейской" выборке, на более широкие совокупности, подтвердили, что это требование удовлетворяется [21. С.262-264; 237. Р.94].

Как уже говорилось выше, данная процедура построения шкалы может применяться и для создания когнитивно-субъектных и пове-денческо-субъектных шкал установок. Полученные шкалы будут отражать соответственно степень готовности приписывать характе­ристики объекту установки или склонность предпринимать опреде­ленные действия по отношению к нему.

49

Предложенный Р.Ликертом метод суммарных рангов, позволяю­щий получать аффективно-субъектные шкалы, как уже отмечалось, в отличие от терстоуновской процедуры не требует проведения отдельной экспертной процедуры, хотя также предполагает состав­ление исходного "банка" суждений, касающихся объекта установки.

Так как первоначальный вариант метода описан нами ранее, оста­новимся лишь на общих чертах его применения. Исключение "не­согласованных" суждений осуществляется по результатам примене­ния исходного полного списка в группе респондентов, которая ис­пользуется здесь как некий аналог "выборки стандартизации". Для отбора применяются критерии, типичные для психометрического "анализа пунктов", - корреляция с суммарным баллом и выявление вопросов, статистически значимо различающих респондентов "высо­кой" и "низкой" групп (отобранных по суммарному баллу).

При измерении аффективного компонента установки респонден­ты обычно получают инструкцию выбрать для каждого суждения одну из пяти категорий ответа: от "совершенно согласен" до "совер­шенно не согласен". Веса категорий отражают интенсивность согла­сия с суждением, выражающим благоприятную установку, или несогласия с суждением, отражающим неблагоприятную установку. Т.е. вес "5" может быть приписан категории, выражающей макси­мальное согласие с "за"-суждением, а вес "О" - категории, выража­ющей максимальное несогласие с этим суждением. В результате каждый респондент получит балл, соответствующий сумме числен­ных значений своих ответов.

Особые и требующие специальных предосторожностей черты ликертовской процедуры являются побочным следствием ее простоты и экономичности. Во-первых, предполагается, что баллы, получае­мые респондентами на основании согласия или несогласия с сужде­ниями, представительны по отношению к гипотетической популяции всех благоприятных и неблагоприятных суждений. Однако ликертов-ская процедура не содержит никаких специальных средств, обеспе­чивающих репрезентативный отбор суждений из этой популяции. Так, здесь нет никакой "судейской" оценки, позволяющей, как в терстоуновской процедуре, оценить "аффективную нагрузку" и двусмысленность вопросов шкалы. Во-вторых, пункты, отобранные в результате анализа внутренней согласованности, это те, на которые респонденты исходной выборки реагировали согласованно. Т.е. отбор пунктов ведет к повышению функционального единства окончатель­ного инструмента. Однако степень функционального единства зави­сит от сходства, гомогенности критериев, которые используют ре­спонденты, входящие в конкретную выборку, при принятии или отвержении суждений. Функциональное единство, обеспечиваемое данной процедурой "анализа пунктов", предполагает, что респон­денты пользуются качественно одним и тем же критерием принятия решения, отличающим респондентов друг от друга лишь по степени. Т.е. вопрос о том, сохраняется ли функциональное единство инстру­мента при переносе на другую выборку респондентов, оказывается связанным с общностью используемого респондентами критерия принятия или отвержения суждений (ср. [241. Р.116]). В-третьих, баллы, приписываемые категориям реакции в модели Ликерта, отражают интенсивность согласия-несогласия с суждением. Но если предположить, что каждое суждение имеет собственную "аффектив­ную нагрузку" по отношению к объекту установки, то можно

50

предположить существование функции "весов" суждений и "весов" категорий ответа (возможно, неаддитивной), которая задавала бы точное значение аффективной ориентации каждого респондента по отношению к объекту установки. Однако в ликертовской процедуре пункты суждения принимаются равными по предполагаемой "эф­фективности". Т.е. сама процедура оказывается основанной на пред­положении, что "эффективность" одинакова для всех суждений в данной совокупности. Это допущение является необходимым, так как в противном случае интерпретация результатов становится неопре­деленной. Предположим, что одно из суждений выражэет крайнюю благожелательность по отношению к объекту установки, а другое -скорее нейтральное отношение. Чтобы суммирование по этим двум пунктам поддавалось осмысленной интерпретации, вес, приписыва­емый категории "совершенно согласен" для "нейтрального" сужде­ния, должен был бы совпадать приблизительно с серединой ряда значений, присваиваемых категориям ответа по первому, "аффек­тивному" суждению. Однако модель Ликерта не предполагает какой-либо оценки суждений, помимо оценки их обобщенной благожела­тельности - неблагожелательности по отношению к объекту установ­ки. Г.Апшоу, критикуя эту модель, ссылается на данные Л.Ферпо-сона, показавшего, что процедура "анализа пунктов", применяемая при конструировании шкалы Ликерта, ведет к исключению сужде­ний, которые не выражают крайние полюса эмоциональной оценки объекта установки. Фергюсон исследовании 1941 г. предъявлял уже прошедшие отбор суждения ликертовской шкалы судейской группе, члены которой ранжировали их по степени подразумеваемого аф­фекта (т.е. аналогично процедуре Терстоуна). Для четырех из пяти объектов установки суждения ликертовской шкалы сгруппировались у полюсов континуума "за" - "против" [129].

Сам Г.Апшоу продемонстрировал зависимость "выживания" суж­дений при отборе от их экстремальности следующим образом: исход­ная совокупность суждений была получена от репрезентативной выборки респондентов, которых просили описать позиции, соответ­ствующие крайним градациям шкалы "за - против". Из описаний и был составлен список из 18 суждений. Семнадцать из этих суждений при использовании на других выборках из той же популяции ока­зались дискриминативными для высоких и низких баллов на 5-про­центном уровне.

Как справедливо указывает Б.Грин, математическая модель, подразумеваемая техникой присвоения баллов респонденту по мето­ду Ликерта, - это модель единого общего фактора [21. С.265-267]. Внутренняя корреляция пунктов - результат действия единого обще­го фактора. При фиксированном уровне этого фактора (аффектив­ного компонента установки) пункты окажутся независимыми. Это, по сути, та же модель, с которой работают факторный и латентно-структурный анализ. Идеальная линейная корреляция между общим баллом и латентным общим фактором достигается, когда "длина" списка суждений стремится к бесконечности. Самым прямым спосо­бом верификации модели общего фактора является, видимо, фак-

4* 51

торный анализ пунктов шкалы18. Основные источники по проблеме "взвешивания" пунктов перечислены в статье Б.Грина [21 ], однако мы здесь не будем останавливаться на их анализе, так как они принадлежат преимущественно к психометрической традиции и не оказали заметного влияния на конструирование ликертовских шкал в социологии. В случае следования ликертовской технике присвоения баллов может быть получен ординальный уровень измерения. По мнению Б.Грина, шкала ликертовского типа имеет метрику в том смысле, что для данной совокупности пунктов можно получить распределение баллов в генеральной совокупности. Различие между баллами будет отражать пропорции людей, имеющих соответствую­щие оценки [21. С.267].

Шкалограммный анализ Гутмана, как уже говорилось при опи­сании истории его разработки (см. раздел 4), применялся к измере­нию когнитивно-, поведенческо- и аффективно-субъектных пере­менных. Результирующая шкала является ординальной. Основания шкалограммного анализа изложены Гутманом в работе [222. Р.60-90 ]. Конструирование шкалы начинается со спецификации "универ­сума признаков" ("universe of attributes" по Гутману). Специфика­ция заключается в отборе тех манифестаций когнитивной, аффек­тивной или поведенческой переменной, которые можно считать основными, решающими при предполагаемом обобщении шкальных значений. Если пункты шкалы можно считать случайной выборкой из популяции пунктов, воплощающих самые существенные аспекты универсума признаков, а респонденты представляют собой случай­ную выборку из известной совокупности, то реакция выборки ре­спондентов по отношению к выборке пунктов может быть обобщена для обеих совокупностей. Если, как и в случае с ликертовской шкалой, предположить, что каждый индивидуум имеет внутренний критерий, в соответствии с которым он принимает или отвергает какое-то суждение (выражающее мнение, предполагаемый способ действия или эмоциональную оценку), то совокупность респондентов и совокупность суждений могут быть совместно логически упорядочены на шкале Гутмана тогда, когда все респонденты исполь­зуют одно критериальное качество (количественно варьирующее), принимая решение согласиться или не согласиться с каждым пунктом опросника. Г.Апшоу приводит пример с вопросом о целесообразности вмешательства американских вооруженных сил в конфликт на ази­атском континенте. Респондент может оценивать этот вопрос с точки зрения последствий этого для геополитической позиции США. Дру­гой же респондент, выбирая между "да" и "нет", может оценивать суждение с точки зрения принесения человеческих жертв ради политических целей. Когда же оба респондента руководствуются одним и тем же свойством суждения, они могут отличаться с точки зрения "нагруженное™" данного суждения этим качеством, которая требуется, чтобы каждый из них согласился с суждением.

52

Модель шкалограммного анализа предполагает, что суждения выражены в форме, которая логически позволяет определить вероятность принятия суждения как монотонно возрастающую или монотонно убывающую функцию шкальной позиции респондента. Т. е. речь идет о шкалировании монотонных признаков в термино­логии К.Кумбса (Терстоун говорил в этой связи о шкалах возраста­ющей вероятности, которым противостоят шкалы максимальной вероятности [233 ]; Стауффер - о кумулятивных шкалах, отличаю­щихся от дифференциальных [222. Р. 3-45]). Как уже отмечалось, сама идея шкалирования кумулятивных признаков явно присутст­вовала уже в шкалах социальной дистанции Боргадуса. Однако формальный метод шкалирования был разработан впервые Гутма­ном. Согласно модели шкалограммного анализа, признаки-пункты мо­гут быть расположены вдоль континуума переменного качества.

Исходным и самым простым случаем для модели является дихо­томический признак-пункт (высказывания, имеющие несколько ка­тегорий ответа, можно рассматривать как совокупность нескольких высказываний-категорий). Упорядочение пунктов на кумулятивной шкале таково, что респондент, позитивно прореагировавший на некий пункт, будет также позитивно реагировать на все пункты, имеющие более низкий ранг. Соответственно респонденты распола­гаются в зависимости от ранга избранных ими пунктов. Проиллюст­рируем это с помощью гипотетической гутмановской шкалы для шести респондентов и пяти пунктов-суждений, которая изображена на рис.2.

Возрастание переменной = свойства »-

R1 I1 R2 I2 R3 I3 R4 I4 R5 I5

Рис.2. Гипотетическая шкала Гутмана для 5 пунктов и 6 респондентов.

Пять дихотомических пунктов (т.е. суждений с двумя возможны­ми категориями ответа) обозначены точками /j , /2 ... 1$. Шесть респондентов, соответственно, представлены точками ri , R2 ... R,. Расположение каждой точки соответствует количеству переменной-свойства (эмоциональной установки, соматоневротической симпто­матики и т.д.). Количество шкалируемого свойства, соответствующее локализации данного пункта /„, - это граница между двумя катего­риями ответа по данному пункту. Таким образом, положительный ответ определяет некоторую область с одной стороны шкального расположения пункта, а отрицательный - область с другой стороны. Локализация респондента зависит от той величины переменной-свойства, которая соответствует его критерию принятия решения о согласии или несогласии с суждением. Образно говоря, критерий "резонирует" на некоторое минимальное или максимальное порого­вое значение вербализуемой в вопросе установки. Так, в ситуации, изображенной на рис.2, респондент будет соглашаться с любым пунктом-суждением, имеющим меньшее количество заданного свой­ства, чем его требует его критерий, и отвергать остальные. Следова-53

абсолютной (совершенной) гутмановской школы предполагает нали­чие взаимосвязи между пунктами-суждениями шкалы. Условная вероятность события "респондент согласится с пунктом Im ", если он

тельно, число принятых респондентом пунктов-суждений действи­тельно будет функцией его положения на шкале: респондент jRt не согласится ни с одним пунктом, а респондент R, одобрит все пять. Связь между гутмановской шкалой и шкалограммной матрицей может быть прояснена с помощью табл. 1.3, которая эквивалентна Рис.2:

Таблица 1.3. Шкалограммная матрица, иллюстрирующая паттерн ответов для гипотетической шкалы на рис.2

Возрастание переменной-свойства

Пункты и респонденты представлены соответственно столбцами и строками шкалограммной матрицы. Пункты расположены от мак­симальной до минимальной степени выраженности свойства. Респон­денты расположены сверху вниз по убыванию рангового порядка критерия. Знаки "+" соответствуют согласию респондента с пунк­том-суждением, знаки "—" - несогласию. Очевидно, что популяр­ность пункта является обратной функцией его положения на шкале. Положение респондента на шкале зависит от частоты поло­жительных ответов для данного набора пунктов-суждений. На практике приближение к идеальной шкалограмме, представлен­ной таблицей 1.3, может быть достигнуто упорядочением пунктов по их популярности (частоте положительной реакции) и упорядоче­нием респондентов по частоте позитивных реакций для шкал, близких к абсолютной. Для шкал, близких к абсолютной, число положительных ответов может быть использовано как балл респондента, так как обычно оно хорошо коррелирует с резуль­татами применения более сложных методов присуждения баллов [21. С.272 ]. В общем же случае при неабсолютной шкале респондент получает балл того шкального типа, который ближе всего к его паттерну ответов. Различные вычислительные процедуры включают перестановку строк и столбцов, комбинирование категорий отве­та и, иногда, "переворачивание" направления шкалы для некото­рых пунктов-суждений. Целью здесь является максимальное при­ближение к паттерну ответов, соответствующему шкальной ги­потезе.

Сопоставление шкальной гипотезы и случайной гипотезы о неза­висимости пунктов имеет следующее обоснование. Существование

5 4

согласился с пунктом, имеющим более высокое положение по шкале, например / , равна единице. Для реальных данных, из-за оши­бок измерения и/или неполного соответствия модели, рассчитанные значения этой условной вероятности будут меньше единицы. Воз­можна и ситуация, когда не выполняется предположение об одно­мерности, и респонденты реагируют на суждения шкалы, исходя из каких-то других свойств (критериев). (Самый яркий пример приве­ден в работе [241. Р. 109-114], содержащей достаточно типичную критику гутмановского подхода и понятия "ошибки": некто может ответить отрицательно на все вопросы шкалы социальной дистанции, но вместе с тем - дать позитивный ответ на вопрос: "Согласны ли Вы, чтобы Ваша дочь вышла замуж за негра?", не потому, что он "ошибся", а потому, что он равно не выносит негров и собственную дочь.) В любом случае, если считать, что пункты и респонденты не могут быть упорядочены на единой шкале, нужно принять альтер­нативную гипотезу о том, что пункты - статистически независимы и совместное принятие любых двух пунктов может быть приписано случаю. Т.е. условная вероятность принятия пункта Im при принятии пункта Im+1 равна просто вероятности принятия Im.

Согласно шкальной гипотезе, для дихотомических пунктов наи­большее возможное число наблюденных паттернов ответа будет на единицу больше числа пунктов. Согласно гипотезе о независимости, максимальное число паттернов ответа для п дихотомических пунктов будет 2". В общем, следуя шкальной гипотезе, можно ожидать, что знание числа пунктов, на которые данный респондент дал позитив­ный ответ, позволит полностью предсказать паттерн его ответов. Это следствие шкальной гипотезы обозначается понятием "воспроизво­димость". Как уже говорилось, получение абсолютной гутмановской шкалы на реальных данных маловероятно. Поэтому на практике балл присуждается посредством приписывания индивида к шкально­му типу (входящему в паттерны ответов идеальной шкалы) таким образом, чтобы ошибка воспроизводимости была минимальной. Т.е. шкальный тип - это группа респондентов, дающая паттерны ответов, предсказываемые идеальной шкалой. Скажем, для опросника из четырех пунктов имеет место следующая ситуация: + + + +; - + + +; - - + +; ---+; ----. Нешкальный паттерн + - - - может быть отнесен к шкальному типу - - - - с одной ошибкой (по шкальной гипотезе один позитивный ответ предпола­гает паттерн - - - + , однако при отнесении в этот шкальный тип ошибок воспроизводимости было бы две). Общей мерой соответствия шкальной модели данным служит коэффициент воспроизводимости (ReP), равный:

ReP = 1 —

число ошибок воспроизводимости /общее число ответов

55

В качестве основного критерия для определения приемлемости набора пунктов как шкалы Гутман предложил использовать величи­ну коэффициента воспроизводимости не ниже 0.90. Т.е. ответы, классифицированные как "ошибка", должны составить не более десяти процентов наблюдений. Однако этот критерий сам по себе недостаточен, так как еще сам Гутман показал, что коэффициент воспроизводимости для небольшого набора пунктов, которые стати­стически независимы, может быть очень высоким [222. Р.277-311]. Поэтому если пункты дихотомические, их должно быть не меньше десяти. Кроме того, манипулируя матрицей ответов при конструи­ровании шкалы, исследователь в определенном смысле увеличивает шансы шкальной гипотезы. Поэтому возникает необходимость в дополнительных критериях: значительный разброс в маргиналах пунктов, минимизация ошибки для каждой категории ответа, не слишком высокая частота нешкальных паттернов ответа. Учитывая неоднозначность этих критериев, некоторые авторы предложили собственные алгоритмы "осторожного" конструирования шкалы. Так Г.Апшоу предлагает следующую процедуру определения того, фор­мирует ли конкретная совокупность данных гутмановскую шкалу [237. Р.104-105]: наряду с реальной шкалограммой, где минимизи­рованы ошибки воспроизводимости и известна популярность каждого пункта, построить гипотетическую матрицу данных, основываясь на гипотезе независимости пунктов (для определения ответов гипоте­тических респондентов предлагается пользоваться таблицей двузнач­ных случайных чисел). Далее по тем же правилам, что и для реальных данных, осуществить необходимые перестановки в гипоте­тической матрице, чтобы минимизировать ошибки воспроизводимо­сти. После этого следует сравнить оценки гутмановских шкал для реальных и гипотетических данных. Для этого реальные и гипоте­тические респонденты разбиваются на категории в зависимости от числа ошибок (респонденты с одной, двумя ошибками и т.д.). К получаемой таблице сопряженности можно применить тест хи-квад-рат, чтобы проверить случайную гипотезу для совокупности реаль­ных данных. Однако, строго говоря, эта процедура позволяет прове­рить лишь конкурирующую гипотезу о том, что между пунктами нет никакой систематической взаимосвязи, тогда как гутмановская ги­потеза утверждает, что эта взаимосвязь почти абсолютна. Поэтому строгое и однозначное решение этой процедурой не гарантируется.

Фактически критерии подтверждения шкальной гипотезы, следу­ющей из модели Гутмана, это критерии функционального единства, основанные на внутренней согласованности реальных данных. Как уже говорилось, эти критерии никак не связаны с правилами при­писывания баллов. Чаще всего респонденты получают баллы, соот­ветствующие числу положительных ответов для "своего" шкального типа, что отражает их положение на ординальной шкале латентного свойства-переменной. Сходным образом пункты (точнее, границы между категориями ответа) получают баллы в зависимости от их ранга в шкалограммной матрице. Сам Гутман предложил аналити­ческую процедуру присвоения баллов, основанную на критерии

максимальной дисперсии баллов. По мнению Б.Грина [21. С.276-277 ], метод максимальной дисперсии баллов не играет большой роли в шкалограммном анализе, однако получаемые несколько ортого­нальных систем баллов (главные компоненты) могут представлять интерес с формально-математической точки зрения. Гутман показал, что для абсолютной шкалы - если оценки различных систем баллов появляются как функции первоначальных шкальных баллов - первая главная компонента является монотонной функцией шкальных бал­лов и, таким образом, может быть использована как метрика системы.

Вторую главную компоненту, имеющую одну точку перегиба, Гутман отождествлял с также {/-образной функцией интенсивности установки (см. с.29), хотя основания для этого отождествления не вполне ясны.

Модель Гутмана равно применима к аффективно-, когнитивно- и поведенческо-субъектным шкалам, единственное различие между которыми будет заключаться в содержании вопросов.

В данном разделе, как уже говорилось, мы не стремились дать полный обзор существующих моделей шкалирования. Кроме того, детальный анализ классических моделей измерения установок содер­жится в ряде работ, в том числе упоминавшихся нами (см. так­же: [111; 112; 117]). Однако нам необходимо остановиться на неко­торых особенностях классического подхода к шкалированию устано­вок и его позднейших модификаций, которые особенно существенны для понимания той критики, которой подвергся этот подход и его "общепринятые истины" в результате появления причинных моде­лей измерения (и ошибки измерения), к рассмотрению которых мы перейдем в последующих главах.

Прежде всего, " классический" подход к шкалированию уделяет лишь незначительное внимание содержательной разработке понятия ошибки измерения. Точнее, этот подход довольствуется статистиче­скими понятиями ошибки и истинного значения, унаследованными от традиционной психометрии, т.е. от родительской дисциплины. Безусловно, сама психометрическая парадигма шкалирования не остается неизменной. В последние десятилетия большую популяр­ность (но не практическое значение) приобрели стохастические и эксплораторные модели шкалирования. В стохастических моделях (одно- и многомерных) наличие ошибки измерения явно постули-рется в противовес детерминистским моделям. Кроме того, модель шкалирования в этом случае обычно используется не как техника, а как критерий оценки валидности, лежащей в ее основании модели измерения [112. Р.32]. В последнем случае оценки параметров модели, полу-ченные при вычислениях меры соответствия модели данным, могут быть использованы как числовые значения объектов на шкале, т.е. измерение оказывается дополнительным "подарком валидной модели" [219. Р.8]. Под эксплораторными шкальными моделями понимаются модели, полученные в результате применения специальных процедур для выявления внутренней структуры дан­ных. Строго говоря, эксплораторными (т.е. "исследующими", "раз-

56

57

ведочными") являются не модели, а эти процедуры анализа данных, позволяющие для данного набора показателей (индикаторов будущей шкалы) выяснить, есть ли у него структура и может ли эта структура быть представлена в виде одно- или многомерной шкалы. (Позднее мы еще вернемся к идеологии эксплораторного анализа данных и поиска моделей измерения.)

Кроме того, для "ранних" процедур шкалирования была харак­терна еще одна особенность. Процедуры приписывания баллов субъ­ектам или суждениям не были основаны на каких-то явных эмпири­чески наблюдаемых отношениях доминантности/эквивалентности между объектами оценивания. Следовательно, для таких шкал ока­зывались неприменимы постулаты репрезентационной теории изме­рения, так как отношения числовых значений шкалы не соответст­вовали каким-то наблюдаемым отношениям в эмпирической системе. Т.е., приписывание числовых значений не отражало (не репрезен­тировало) отношения между эмпирическими объектами. Как мы уже говорили, обсуждая шкалы категориальных оценок (например, шка­лы Терстоуна и Ликерта), приписывание чисел здесь в значительной мере произвольно. На этом основании построена часто применяемая классификация шкал, разделяющая их по типу измерения [117]. Шкалы оценок основаны на индексном измерении, когда числовое приписывание осуществляется более или менее произвольно. Шкаль­ные процедуры, в которых приписывание числовых значений объек­там соотнесено с эмпирически наблюдаемыми отношениями между объектами, называют репрезентсщионными. Однако даже стохасти­ческие эксплораторные модели шкалирования, разработанные в рамках психометрического подхода, отчасти основываются на тех же принимаемых произвольным решением (by fiat) предположениях, что и ранние шкалы установок. Эти предположения не подвергаются проверке сами по себе, как некоторые содержательные гипотезы о "механизмах" реального мира, порождающих социологические дан­ные. Они представляют собой своеобразную "обратную проекцию" в реальность ряда нерефлексируемых особенностей сложившегося на более ранних этапах развития психометрики "образа человека". Чтобы проиллюстрировать сказанное, мы вкратце остановимся лишь на одном характерном примере. Стохастическая одномерная модель шкалирования, разработанная Р.Моккеном [182 ], основана на отно­шениях доминантности между объектами из различных множеств и может использоваться для построения шкал установок (в последнем случае два множества объектов - это субъекты и высказывания, как и в случае с только что рассмотренной шкальной моделью Гутмана). Модель позволяет получить ординальное упорядочение субъектов и высказываний (пунктов) шкалы. Из нее также можно вывести ряд ограничений на возможные ответы и, соответственно, проверить соответствие модели данным. В модели вводится понятие трудности высказывания (пункта), содержательная интерпретация которого предполагает существование некоторого порогового значения латент- ной установки, позволяющего респонденту положительно ответить на шкальный вопрос или согласиться с высказыванием. Очевидно,

58

трудность высказывания в этой модели совершенно аналогична по смыслу трудности вопроса в общей теории тестов и восходит к представлению о трудности теста в тестировании способностей. Функция, показывающая вероятность положительной реакции на данное высказывание в зависимости от значения латентной установ­ки, называется графиком данного высказывания (либо характери­стической кривой вопроса, как в общей теории тестов). Модель налагает ограничения на графики высказываний-пунктов. В частно­сти, вероятность положительного ответа должна монотонно возра­стать с ростом значения латентной установки, графики отдельных пунктов (вопросов, высказываний) шкалы не должны пересекаться (трудность пункта должна определяться однозначно) и т.п. В случае, когда ошибка измерения отсутствует или ею можно пренебречь, кумулятивная стохастическая модель одномерной шкалы превраща­ется в детерминистскую, т.е. в идеальную модель, предполагаемую шкалограммным анализом по Гутману. Достоинством стохастиче­ской модели 'Р.Моккена является возможность вывести из самой модели некоторые ограничения на данные, позволяющие проверить модель. Т.е. решение о "шкалируемости" данной совокупности высказываний или вопросов здесь, в отличие от гутмановской моде­ли, уже не основано на достаточно произвольных оценках процента допустимых "ошибок", а приписывание балла индивиду не является результатом грубой аппроксимации к "шкальному типу". (Пример построения и использования стохастической кумулятивной шкалы политических установок, наряду с подробным описанием шкальной модели, можно найти в [219].) Однако и в этой стохастической эксплораторной модели присутствуют те принимаемые без проверки (хотя, возможно, в ряде случаев верные) предположения классиче­ской психометрики. Это, во-первых, требование локальной не­зависимости высказываний (пунктов) шкалы и, во-вторых, мо­дель латентной черты (установки, способности), являющейся причи­ной ответов или реакций опрошенных. Локальная стохастиче­ская независимость предполагает, что позитивный ответ данного респондента на некий вопрос шкалы статистически независим от ответов, данных на другие вопросы. Обоснованность и даже необхо­димость этого ограничения очевидна, когда речь идет, скажем, о совокупности арифметических задач, предназначенных для измере­ния одной и только одной способности. Однако, зная о различных типах систематической ошибки измерения, характерной для лично­стных и установочных шкал (позиционная тактика ответов, арте­факты "социальной желательности" и др., о чем будет подробнее говориться в главе II), реалистично ли предполагать, например, что человек, согласившийся с утверждением о несущественности его личного участия в выборах, согласится с тем, что ему не следует голосовать, с той же вероятностью, что и другой человек, не согла­сившийся с первым утверждением [219. Р.12]? .

Что же касается предположения о латентном континууме свойст­ва-установки, являющейся причиной явных ответов-индикаторов, то оно восходит к идеям Ф.Гальтона и Ч.Спирмена и отражает попу-

59

лярные в начале века представления о едином конституциональном факторе, определяющем многообразие поведенческих проявлений. В главе III, рассматривая различные модели измерения, мы убедимся, что латентная черта (свойство, фактор) далеко не всегда являются причиной своих индикаторов. Сейчас же отметим, что модель латен­тной черты чрезвычайно удобна для исследования соотношений генотипа и фенотипических проявлений организма в биологии или при изучении некоторых специальных способностей, имеющих вы­сокую степень наследственной обусловленности. Однако примени­мость модели одномерного континуума латентного свойства в шка­лировании установок требует куда более веских обоснований, поми­мо соображений удобства.

Глава вторая

ПРОБЛЕМА КАЧЕСТВА ИЗМЕРЕНИЯ В СОЦИОЛОГИИ: ОТ КОНСТРУКТА К ИНДИКАТОРУ И ОБРАТНО

1. Надежность, валидность и ошибка измерения: кризис классической теории тестов

Ключевые понятия оценки качества измерения - надежность и валидность - пришли в социологию из классической теории тестов и психометрики одновременно с появлением первых шкал установок. В нашу задачу не входит исчерпывающий анализ концепций надеж­ности и валидности в теории тестов1, поэтому мы лишь кратко рассмотрим некоторые базисные предпосылки, допущения и резуль­таты "классического подхода". Это позволит нам понять причины, определившие недостаточность этого подхода для оценки социологи­ческого измерения и вызвавшие возникновение новых представлений и методов оценки качества измерения в социальных науках.

Общее теоретическое определение надежности в психометрике связано с понятием устойчивости процедуры относительно объектов измерения [36. С.74-75 ]. В общем виде надежность относится к тому, "в какой мере измерения повторяемы - для одних и тех же индивидов при использовании различных мер одного и того же свойства или для различных лиц при использовании одной меры свойства" [191. Р. 172 ]. Если используемая мера, скажем, удовлетворенности браком, надежна, то при использовании разных конкретных индикантов (графических шкал, вербальных самоотчетов и т.д.) на одной и той же группе исследователь будет получать идентичные результаты. И, с другой стороны, повторные замеры будут давать тот же уровень удовлетворенности браком. Надежность-устойчивость (ретестовая, диахроническая надежность) характеризует точность измерения при проведении повторных тестирований. Надежность-согласованность (одномоментная надежность) связана с внутренней согласованно­стью инструмента, т.е. теста или батареи тестов [36. С.68-69]. Соответственно ненадежная мера (инструмент измерения) при из­мерении какого-то свойства у данной группы лиц будет давать неповторяющиеся или несогласованные результаты. Надежность из­мерительной процедуры, таким образом, находится в обратной связи с количеством случайных ошибок в процессе измерения. Случайные ошибки при повторном выполнении тестовых заданий могут быть и результатом неконтролируемых изменений условий тестирования, и следствием "моментальных" изменений в состоянии самого испыту­емого. Итак, ретестовая надежность говорит о репрезентативности результатов теста для различных случаев его применения [2. С. 104 ]. Применимость ретестовой надежности как оценки качества измере­ния ограничена содержательными соображениями, теоретически-

61

ми представлениями об исследуемом свойстве (отсутствие эффектов "памяти", "научения", ограничение временными интервалами пред­полагаемой стабильности исследуемого свойства). Поэтому даже в психологическом тестировании повторное тестирование применяется прежде всего для оценки надежности элементарных психомоторных и сенсорных тестов [2. С.106]. Надежность-согласованность имеет другую содержательную природу и оценивается обычно через кор­релирование либо взаимозаменяемых форм теста, либо частей одного теста.

Валидностъ измерения в самом общем смысле характеризует соответствие измерения его цели [131. Р.226; 191. Р.75]. Иначе говоря, валидность процедуры (инструмента) измерения состоит в однозначности и правильности получаемых результатов относитель­но измеряемого свойства объектов, т.е. относительно предмета изме­рения [36. С.74 ]. Надежность является необходимым, но не доста­точным условием валидности, что и зафиксировано в основном психометрическом соотношении: валидность теста не может превы­шать надежность. Уже на интуитивном уровне очевидно, что надеж­ный инструмент может измерять нечто другое вместо подразумева­емого конструкта (например, не температуру, а давление, или не интеллект, а особенности "познавательного стиля"). Классическая теория тестов признает принципиальное различие надежности и валидности, однако не дает средств для независимой оценки валид­ности и, фактически, сводит ее лишь к критериальной оценке (отсюда "надежность теста - это, собственно, его валидность по отношению к параллельному тесту" [172. Р.63]).

Нужно отметить, что самостоятельное осмысление проблем каче­ства измерения в социологии долго тормозилось сравнительно мень­шим к ним интересом. Собственно специально-методические иссле­дования проблем валидности показателей вплоть до середины 60-х -70-х годов не были распространены в американской эмпирической социологии. Единственным исключением, достаточно серьезным по масштабам и результатам, было так называемое Денверское иссле­дование валидности. Это исследование, проведенное денверским филиалом Национального центра исследований общественного мне­ния (NORC), было одним из трех основных проектов Комитета по измерению мнений, установок и потребительских нужд, созданного С.Стауффером в 1947 г. [104 ]. В исследовании, проведенном в 1949г., сопоставлялись данные ответов респондентов на фактографические вопросы с данными официальной местной статистики (регистрация и голосование, взносы в местную казну, наличие водительских прав и читательского билета библиотеки и т.п.). Сопоставляя данные официальной статистики, принимаемые за истинное значение, с ответами респондентов, исследователи обнаружили, что данные са­моотчетов часто существенно от них отклонялись. Величина расхож­дений составляла от нескольких процентов до почти 50%, в зависи­мости от содержания вопроса. Изучалось также влияние интервью­ера. Данные этого исследования критериальной валидности пред-

ставляют значительный интерес и сейчас (см., в частности: [199]). И все же, оценивая роль критериально-ориентированного подхода в валидизации данных, полученных в массовых опросах, следует помнить об ограничениях, присущих этому подходу: объективный критерий, используемый как "эталон", нередко нуждается в столь же строгой оценке своих измерительных качеств. Здесь нам пред­ставляется вполне справедливой точка зрения Дж.Конверс: "(Дейст­вительно) Проводящие опросы исследователи редко выходят за пределы самоотчетов. Исследования валидности не только дорогосто­ящи, но и чрезвычайно сложны. Существует возможность сравнивать "субъективные" самоотчеты с "объективными" данными официаль­ных документов, но большая часть документов, к которым обраща­ются для валидизации обследований, также построена на самоотче­тах и, следовательно, обычно уязвима для тех же самых ошибок измерения и смещений, что и сами обследования. В некоторых ситуациях информация, полученная в социологических опросах, может оказаться лучше официальных данных: выборки часто точнее, чем переписи, и современная машинная обработка данных может успешнее устранять ошибки, чем системы "бумага-и-карандаш", до сих пор доминирующие в официальных записях" [109. Р.415].

Интерес к качеству измерения стал ведущей ориентацией в том "возрождении" проблематики измерения в социологии, которое про­изошло в середине шестидесятых годов, после приблизительно пят­надцатилетнего периода снижения популярности работ в данной области [177. Р.1].

Недостаточность классической теории тестов была осознана в социологии в конце 60-х - начале 70-х годов. Не отрицая полезности традиционного подхода к оценке надежности и валидности эмпири­ческих измерений, содержащих случайную ошибку, специалисты по социологическому измерению (Дж.Борнстед, Х.Блейлок, Г.Костнер, Р.Зеллер, Р.Алтаузер и др.) показали принципиальную недостаточ­ность и ограниченность психометрического подхода к оценке каче­ства социологического измерения.

Для того чтобы убедиться в обоснованности этой оценки, рассмот­рим некоторые основные положения психометрического подхода. Так как измеряемое (наблюденное) значение (X) из-за погрешности измерения (e) не равно истинному (Т) , то можно записать:

X = Т + е. (2.1)

Далее обычно делаются некоторые предположения об ошибке измерения [172. Р.36]:

  1. отрицательные и положительные величины ошибок взаимопо-гашаются, т.е.

E(e) =0

2) истинные баллы и ошибки не скоррелированы:

ρ (t,e)= 0;

62

63

3) корреляция между значением ошибок по одному измерению и истинным значением по другому равна нулю:

р (e1, t2) = 0;

4) корреляция ошибок различных измерений равна нулю Р (e1, е2) = 0.

Из этих предположений следует: Е(Х) = Е(Т).

Отсюда:

Так как ковариация истинных баллов и ошибок (по определению) равна нулю, т.е.

то из формулы

следует:

Отсюда следует определение надежности как доли дисперсии истинного компонента измерения от общей дисперсии теста:

т.е. корреляция параллельных тестов (пунктов) равна дисперсии истинного компонента, деленной на дисперсию измеренных значе­ний. Формула (2.5) позволяет выразить дисперсию истинного балла через наблюдаемые величины:

(2.6)

т.е. через произведение дисперсии измеренных значений и корреля­ции параллельных форм. Подстановка этого выражения в формулу (2.4) дает:

(2.7)

Надежность =

Если вся дисперсия измеренных баллов связана с ошибкой изме­рения (по определению случайной), то надежность равна 0. Если бы никакие ошибки не влияли на измерение, то надежность теста была бы равна 1.

Так как из формулы (2.4) на практике нельзя произвести оценку надежности (дисперсия истинных баллов неизвестна), то для оценки надежности вводится представление о параллельных (собственно параллельных или тау-эквивалентных) формах теста. Для нас до­статочно рассмотреть случай параллельных тестовых измерений, для которых вводится предположение о равенстве истинных компонентов и дисперсий ошибочных компонентов, что можно выразить следую­щим образом:

X = T и X = T +e

где

= и T=T

64

дисперсий измеренных баллов; 3) равенство корреляций параллель­ных форм с другими переменными; 4) равенство попарных интер­корреляций нескольких параллельных форм. Из всей совокупности Предполагается, что параллельные формы имеют ряд важных свойств: 1) равенство средних измеряемых значений; 2) равенство

Т.е. оценка надежности - это корреляция параллельных форм.

В классической теории тестов валидность определяется как кор­реляция измерения X и измерения Y [172. Р.61 Г]2;

(2.8)

Валидность =

Если X и Y - параллельны в вышеуказанном смысле, то:

Х-Т

.

= о

Y=T

(2.9)

В результате для валидности получают cледующую формулу:

Отсюда очевидно концептуальное тождество критериальной ва­лидности и надежности 3. Однако, отмечают, Р.3еллер и Э.Карминес, "... по определению

к лассическая теория тестов применима тогда и только тогда, когда ошибка измерения является полностью случайной. Попросту говоря, в классической теории тестов предполагается, что вся ошибка изме­рения случайна" [242. Р. 11]. Конечно, в социологическом опросе или даже в исследовании, использующем агрегированные данные переписи, существует много источников случайной, несистематиче­ской ошибки измерения. Например, ошибки кодирования или про­стого подсчета могут носить случайный характер. Если респондент с равной вероятностью (при повторном опросе) выбирает одну из соседних категорий ответа, ошибка измерения также может носить несистематический характер. Однако как только эта ошибка теряет случайный характер, "это уже не проблема надежности, а скорее проблема валидности" [225. Р.13]. Как только ошибка измерения становится неслучайной, часть вариации в индикаторах оказывается связанной с каким-то иным конструктом, отличным от того, который исследователь стремится измерить. Т.е. систематический компонент дисперсии надежного индикатора может относиться только к теоре­тически специфицированному конструкту, что обеспечит валидность индикатора. Невалидная же, но надежная мера, может полностью или частично относиться к другой переменной, а не к той, для измерения которой она была сконструирована. Следует отметить, что введенное в психометрике в 50-х годах понятие конструктной валидности (см., например: [18]) также было сфокусировано на отношениях эмпирических показателей к теоретическим конструк­там, однако процедуры оценки конструктной валидности не могли быть разработаны в рамках традиционного подхода. Для оценки конструктной валидности предлагалось использовать экспертные оценки, содержательные соображения, внешние критерии4.0днако систематическая разработка представлений о конструктной (или концептуальной) валидности и процедур ее оценки стала возможна лишь в результате возникновения в американской социологии моде­лирующего подхода к измерению и широкой трактовки измерения как "теоретически-нагруженного" процесса, связывающего концеп­ты теории с эмпирическими индикаторами (вторая половина 60-х -70-е годы). Анализу этих новых подходов к измерению, причинных моделей и "вспомогательных теорий измерения" посвящена третья глава этой книги. Здесь же нам важно зафиксировать, что инновации в концептуализации надежности и валидности, как и появление новых методов оценивания качества социологического измерения, были вызваны, прежде всего, той трактовкой измерения, которая первоначально была предложена в работах Х.Блейлока5 .

Конкретные причины, вызвавшие неудовлетворенность социоло­гов, занимавшихся проблемами измерения, механическим переносом традиционной психометрической "парадигмы" оценки качества из­мерения, очень отчетливо сформулированы в книге Р.Зеллера и Э.Карминеса [242. Р. 11-12]. Во-первых, предположение о случайной природе всей ошибки измерения, приемлемое в психологическом эксперименте, чаще всего необоснованно, когда речь идет о выбороч­ном обследовании, опросе и т.п. Измерение, основанное на таком типе данных, обычно включает и случайный, и неслучайный ошибочный компонент. Характерными примерами являются эффек­ты "памяти", социальной желательности, установки на позитивный или негативный ответы. В более широком смысле здесь можно говорить о неэквивалентности экспериментального и статистического контроля (применительно к обоснованности научного вывода в не­экспериментальных исследованиях эта проблема была впервые сфор­мулирована в [212], см. также: [168]). Еще более существенным является то обстоятельство, что систематическая ошибка измерения имеет место и тогда, когда "совокупность индикантов измеряет не только подразумеваемый теоретический концепт или даже репре­зентирует совершенно иной концепт" [242. Р.11]. По определе­нию такого рода ошибки не обладают, по крайней мере, некоторыми из статистических свойств, приписываемых собственно случайной ошибке измерения. Т.е. имеет место как минимум одно из следую­щих обстоятельств:

Р.Зеллер и Э.Карминес приводят пример утвердительной и отри­цательной тактик ответа со стороны респондента. В этом случае сформулированные в одном "направлении" пункты, даже если они никак не связаны сами по себе, оказываются скоррелированными. И уже нельзя говорить о равенстве нулю корреляции между ошибками измерения по отдельным пунктам-индикантам.

Вторым недостатком классической теории тестов является, с точки зрения этих авторов, отсутствие адекватной концептуализа­ции валидности и отношений между валидностью и надежностью, т.е. то, о чем уже говорилось выше. Вслед за Дж.Борнстедом, Р.Зеллер и Э.Карминес утверждают, что простое знание того, что валидность измерения (как корреляция с другой переменной) не может быть выше квадратного корня его надежности, не решает никаких проблем. Это соотношение, как отметил Дж.Борнстед [95. Р.97 ], не дает никакого прямого знания о валидности как о степени соответствия индикаторов предполагаемой цели измерения. Более того, сама оценка валидности оказывается "побочным продуктом" оценки надежности [242. Р. 12].

Осознание двух названных принципиальных ограничений, при­сущих психометрическому подходу к оценке качества измерения в социологии (игнорирования систематической ошибки и неудовлетво­рительной теоретической дифференциации надежности и валидно­сти), привело к возникновению новых идей и ориентации. В после-

67

д ующих двух разделах мы проанализируем два близких подхода к валидности и надежности измерения, очень характерных, на наш взгляд, для происходивших в 60-е - 70-е годы изменений.