Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
изданное пособие.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
1.58 Mб
Скачать

4.3. Надежность социологического измерения

Достоверность результатов исследования зависит от многих факторов – качества программы исследования, инструмента измерения, процедуры сбора и обработки информации, а также от добросовестности и профессионального уровня исследовательского коллектива. Надежность инструмента измерения – лишь одна из составляющих, обеспечивающих достижение поставленной задачи. От инструмента измерения требуется надежность, понимаемая в двух аспектах. Во-первых, он должен технически отвечать всем требованиям, предъявляемым к эталонам социологического измерения. Во-вторых, он должен фактически измерять то, что требуется измерить, обеспечивая получение достоверной информации. Таким образом, проверка эталона измерения на надежность должна проводиться сначала на техническое соответствие, затем – на диагностическую пригодность. Такая последовательность объясняется тем, что даже при высоких технических качествах инструмент может оказаться непригодным для получения данных об интересующих социолога признаках.

Если измерительный инструмент совершенен, а все условия диагностического процесса постоянны, то разброс полученных данных отражает межиндивидуальные различия признака в обследуемой группе. В действительности такого положения добиться невозможно. Любая измерительная процедура будет содержать ошибки, причем на каждом этапе проведения исследования эти ошибки имеют тенденцию к возрастанию. Как бы тщательно ни готовилось, проводилось и контролировалось исследование, в нем всегда присутствует субъективный фактор, устранить который невозможно, поскольку все участники исследования – люди, носители этого самого субъективного фактора. Поэтому после создания инструмента измерения всегда возникает вопрос, насколько результат измерения будет отклоняться от истинного значения события или явления.

Надежность измерения – вероятность отклонения приписываемого объекту значения от его истинной характеристики. Интегральный показатель, включающий понятия правильности, чувствительность, точности, устойчивости и валидности инструмента измерения4.

При проведении процедуры квантификации первичных социальных характеристик следует учитывать следующие ограничения.

1. Соразмерность количественных показателей, фиксированных разными шкалами в рамках одного исследования. Это ограничение действует, если предполагается проводить сравнительный анализ результатов, полученных с использованием шкал различной силы. Более сильная шкала (например, интервальная) по отношению к слабой шкале (номинальной) допускает расширенный диапазон математических операций. Однако эти операции не следует проводить, если результаты измерения, полученные с помощью двух разных шкал, будут сравниваться. Все операции с числами должны удовлетворять требованиям, предъявляемым к наиболее слабым шкалам. Если же социолог не намерен сопоставлять эти данные, ограничение снимается.

2. Форма распределения данных должна соответствовать нормальному распределению – симметричному «колоколу», при котором оценки меры рассеяния признака совпадают. При этом М = Ме = Мо. Отклонения от нормального гауссова распределения не влияют на характер Мо, но сдвигают среднюю арифметическую (х) в сторону больших значений.

3. Если максимальное значение измеряемого признака неизвестно, следует использовать шкалы открытого типа, которые не описываются стандартным гауссовым распределением. При этом следует помнить, что использование открытых шкал возможно лишь в случае, если для измерения признака имеется естественный эталон измерения ( количество, час, метр и т.п.).

4. Поскольку в социальных процессах и явлениях взаимно сосуществуют статистические и детерминистские факторы, при измерении их характеристик следует использовать стохастические модели, включающие несколько вариантов измерения социального объекта во времени.

Под правильностью понимается сбалансированность шкалы измерения. Исследователь и респондент должны одинаково понимать значение вопроса и различать градации шкалы (варианты ответа). Влияние интервьюера (или составителя анкеты) должно быть минимальным, а смещение шкалы – отсутствовать. Под смещением в данном случае понимается преобладание количества выборов первых альтернатив. Требование сбалансированности эталона измерения (симметричное расположение позитивных и негативных позиций относительно нейтрального центра) не относится к форме вопроса. Варианты ответов должны быть перемешаны, а сам центр – представлять последнюю альтернативу. Различие формы шкалы измерения и вопроса в анкете связано с необходимостью предоставления респонденту возможности выбора в равной степени положительного и отрицательного суждения. Если позитивные альтернативы располагаются в начале, а негативные – в конце списка суждений, то преобладающее большинство опрошенных выберет первые варианты. Это особенно касается длинных перечней альтернатив - более 7 вариантов.

Чувствительность шкалы измерения – способность инструмента выявлять различные проявления признака с определенной степенью их дифференциации. Вопрос должен выявлять отношение респондентов с учетом возможного разброса мнений. Уровень чувствительности шкалы определяется исследователем. Наибольшие проблемы эта характеристика вызывает при обработке информации, собранной с использованием открытых вопросов. На этапе их формулировки следует определить, какая глубина раскрытия предмета исследования в них закладывается. В соответствии с этим определяется количество необходимых кодов, то есть составляется шкала измерения. Как показывает практика, количество градаций шкалы далеко не всегда достаточно. Более того, в любом исследовании встречаются альтернативы, не включенные социологом в кодировку, но достаточно интересные и отражающие самостоятельность позиции части респондентов. Эту информацию не хочется терять, а обрабатывать ее сложно. Поэтому при определении чувствительности шкалы следует проконсультироваться с экспертами, которые хорошо знают область исследования и могут предположить диапазон разброса мнений при ответах на открытый вопрос.

Точность шкалы выражается в ее способности фиксировать различия в состояниях объекта, подлежащих измерению. Точность результата измерения зависит, прежде всего, от степени совпадения выраженных в числовых показателях данных о свойствах объекта с их истинной величиной. Характеристики точности и чувствительности инструмента измерения находятся в прямой зависимости. Чем больше градаций содержит шкала, тем точнее полученные с ее помощью данные. Однако, при повышении точности инструмента измерения снижается его надежность. Чем больше нюансов в характеристиках признака замеряет шкала, тем выше вероятность отклонения результатов от истинных значений признака. При укрупнении шкалы точность снижается, а надежность возрастает. Проблема нахождения компромисса в сочетании точности и надежности инструмента измерения обычно решается в пользу точности, поскольку даже самая надежная шкала (дихотомическая) не компенсирует грубости полученных данных.

Устойчивость – способность шкалы воспроизводить однозначные результаты при многократных замерах, то есть итоги замеров устойчивы во времени при прочих равных условиях проведения измерения. Проверка на устойчивость производится методом повторных измерений одного и того же объекта с двух - трехнедельным интервалом. Если результаты полностью повторяют данные первого замера, шкала оказывается излишне устойчивой и недостаточно точной. Если данные существенно расходятся, шкала признается недостаточно устойчивой. Устойчивость шкалы может нарушаться вследствие случайных ошибок, возникающих при работе с объектом, уже подвергавшимся замеру при помощи того же инструмента измерения. После первого замера у респондента возникает определенная психологическая установка, не позволяющая ему изменять свой ответ, даже если реальное мнение изменилось. Другим проявлением интуитивного сопротивления повторному обследованию может быть полный отказ от высказанного ранее суждения, хотя оно по-прежнему отражает мнение человека. Чтобы снизить величину случайной ошибки, рекомендуется проводить панельные исследования на достаточно большой выборке через некоторый временной интервал, не позволяющей объекту с достаточной точностью вспомнить и воспроизвести прежние ответы.

Другой причиной неустойчивости шкалы может быть произвольная трактовка самим исследователем содержания составленных альтернатив. Особенно часто это случается в качественных исследованиях, при которых объекты группируются в классы посредством описания своих качественных признаков. При выборе вариантов ответов понимание их сути исследователем и респондентом может расходиться. Устранение действия этого фактора производится в процессе пилотажного исследования, целью которого является проверка качества разработанного инструмента.

Валидность инструмента измерения показывает, насколько эмпирические отношения между результатами применения инструмента соответствуют другим свойствам и отношениям объекта исследования.

Эти отношения лежат в основе предикативной валидности, которая рассчитывается с использованием коэффициентов корреляции между результатами измерения и внешними критериями. Так, все тестовые методики построены на процедуре замеров каких-либо высказываний или действий респондентов, которые оцениваются в определенной числовой системе с помощью условных единиц – баллов. Уровень интеллектуального развития, профессиональная пригодность, степень выраженности психологических и социальных качеств и т.п. как реальные признаки объекта (внешние критерии) должны однозначно отражаться на определенной числовой системе (шкале). То есть расстояние между баллами (градациями шкалы) должно соответствовать различию в обладании измеряемым качеством у разных людей.

Теоретическая (конструктная) валидность связывает измерительный инструмент со структурой конкретной теории, в русле которой проводится исследование.

Основными принципами валидности измерительного инструмента являются:

1. Практическая обоснованность шкалы измерения. Инструмент измеряет именно то свойство или качество социального объекта, которое предполагается измерить. Измеренный показатель должен адекватно отражать степень выраженности реального признака.

2. Теоретическая обоснованность шкалы измерения. Способность инструмента измерять заданное свойство конкретизируется в терминах теории.

3. Шкала измерения должна содержать определенный набор свойств, позволяющий использовать ее для измерения конкретного признака.

4. Эти свойства должны иметь эмпирическое подтверждение.

Если изложенные принципы не выполняются, это может быть связано со следующими причинами:

- инструмент не измеряет заявленное свойство (ошибка релевантности). Данная проблема связана с тем, что генеральная совокупность со всеми описанными в программе связями и отношениями является копией реального объекта, отражая ее так, как фотография отражает снятый предмет. Ракурс съемки, техника, условия обработки негатива – все эти факторы несколько искажают действительность. Ошибка релевантности возникает до начала измерения и не имеет отношения к техническому качеству инструмента. Даже совершенный инструмент может быть нерелевантен для признака объекта;

- ошибочна теоретическая основа, заложенная как база построения инструмента. Каждая социальная система имеет свою специфику. В отличие от естественных наук, законы которых действуют объективно, независимо от воли людей, социальные закономерности могут выступать как основные законы в одной системе и вовсе не работать в другой. Соответственно, разработанные на их основе теории имеют существенный элемент субъективности. Так, законы функционирования рынка в капиталистической и социалистической системах принципиально различаются. Принцип индивидуализма, основной для западного общества, и коллективизма, базовый для восточных стран, заложены в менталитете их граждан и отражаются в структуре личности. Инструмент измерения социальных установок и ценностных ориентаций, пригодный для изучения западного образа жизни, не будет давать объективную информацию при использовании его в России или Китае. Это в полной мере ощутили на себе многие социологи и особенно психологи, пытавшиеся в 90-х годах применять неадаптированные к российским условиям импортные методики и техники сбора и интерпретации первичных данных;

- неверны критерии определения валидности инструмента. Эта ошибка связана с неверным выбором внешнего критерия, с которым сравнивается эталон, или процедур проверки шкалы измерения, прежде всего, на полноту и чувствительность.

Полнота шкалы измерениясвойство инструмента представлять все возможные альтернативы проявления признака. Варианты ответа должны учитывать все мнения, которые могут возникнуть у опрашиваемых лиц.

Проверка валидности инструмента измерения – необходимый этап при подготовке эмпирических процедур. Ее главная задача – доказать обоснованность и оптимальность применения данного инструмента для измерения заявленного признака (избежать «ошибки обоснования»). Самый простой способ такой проверки – логические рассуждения на основе практического опыта и здравого смысла. Логическую обоснованность шкалы должен дедуктивно засвидетельствовать круг компетентных экспертов, исходя из объективных данных об измеряемом признаке и имеющихся инструментах его измерения.

При вынесении решения об обоснованности использования разработанного инструмента рассматривается вопрос о его теоретической и практической оправданности, поскольку возможна ситуация, при которой новый инструмент не имеет существенных преимуществ перед теми, что уже имеются в распоряжении социологов. Способ «логического рассуждения» повышает обоснованность эталона измерения, но не доказывает ее полностью. Дополнительное обоснование надежности инструмента измерения достигается следующими способами.

1. Тест по «эталонной группе» - сопоставление данных, полученных с применением измерительного инструмента, с достоверными сведениями о свойствах объекта измерения, полученными с использованием проверенного эталона. Совокупность последних и составляет «эталонную группу».

2. Поиск независимого критерия как способ внешнего контроля надежности измерения. Процедура состоит в выявлении взаимосвязи между эмпирически зафиксированным поведением респондента и независимо заданным критерием. Ответ на заданный вопрос может проверяться позицией эксперта, посредством наблюдения за реальным поведением отвечающего лица или техническими средствами. Так, критерием проверки продолжительности просмотра телепередач может служить зарегистрированная приборами длительность работы телевизора. Главная проблема, связанная с использованием данного метода, - выбор самого критерия, по которому будет определяться обоснованность инструмента измерения.

3. Метод судей для отбора пунктов шкалы. Процедура работы судейской группы имеет множество вариантов в зависимости от следующих факторов:

– групповая и индивидуальная форма работы;

- однократный и многократный отбор альтернатив;

- уровень судейской команды (эксперты или дилетанты) и т.п.

Использование метода судей крайне трудоемко и требует больших временных затрат. Поэтому он применяется редко и только при разработке инструментария для сложных и ответственных исследований, имеющих ярко выраженную цель приращения научного знания или проверки выдвинутой научной концепции. В прикладных исследованиях, имеющих практическую направленность, данный метод фактически не применяется.

4. Наиболее часто при определении обоснованности шкалы используется метод внутреннего контроля, предполагающий совмещение нескольких показателей для регистрации одного конкретного свойства через построение совокупного индекса. Метод основан на утверждении, что каждому состоянию социального объекта (свойству) соответствует множество его проявлений, которые можно зафиксировать разными способами. При выделении различные проявления искомого признака, для каждого из них строится отдельная шкала. Полученные в результате отдельных измерений данные суммируются, либо входят как составные части в логические модели. Совокупные индексы широко используются во всех видах социальных и поведенческих наук.

Доказательство обоснованности и, соответственно, валидности инструмента измерения позволяет считать его пригодным для проведения измерения того признака, который и требуется измерить. Однако степень обоснованности различных инструментов существенно различается. Числовые показатели обоснованности применяются только для методов, имеющих в своем основании использование различных критериев. При этом вычисляются коэффициенты корреляции, которые и выступают характеристиками степени обоснованности шкалы. В зависимости от цели измерения используются следующие показатели:

1) При определении индивидуальной выраженности признака со статистической точки зрения требуется rtc = 0, 7.

2) При определении массовой выраженности признака в практических исследованиях обоснованность шкалы измерения считается:

- высокой при - rtc > 0,6;

- средней при - 0,4 < rtc > 0,6;

- низкой при - rtc < 0,4

Пригодные инструменты должны обладать средней и высокой степенью обоснованности. Но при rtc ≥ 0,3 можно производить отбор, если числовой показатель значительно отличается от нуля.

3) При оценке выраженности свойства отдельных групп коэффициент обоснованности должен значительно превышать коэффициент надежности, причем последний может быть низким.

Проверка надежности эталона измерения осуществляется несколькими способами. Так как вариации реальных и ошибочных замеров неизвестны, нет информации об отклонениях от реальных признаках объекта, применяется техника косвенного оценивания надежности шкалы.

1. Повторный тест (процедура «тест – ретест»). Вторичное проведение процедуры измерения в одной и той же выборки через определенный промежуток времени. Степень надежности повторного теста определяется посредством расчета коэффициента корреляции для измеренных значений по обоим опытам. Основной проблемой при использовании данной процедуры является определение временного интервала между измерениями. Он должен быть невелик, чтобы избежать влияния ситуационных факторов, и не мал, чтобы снизить воздействие «эффекта первого замера» - психологической установки на повторение или отказ от ранее выбранных ответов. Как показывает практика, временной интервал должен быть тем продолжительнее, чем интереснее для респондентов тема исследования и чем оригинальнее составлен инструментарий сбора информации. Так, графические формы опросника запоминаются лучше, чем вербальные, а ответы на вопросы о личностных качествах и установках воспроизводятся практически без изменений.

Повторный тест определяет соответствие прогнозируемых отклонений и реальных вариаций признака, но не фиксирует их источник.

2. Параллельный тест (параллельные измерения) – использование различных инструментов измерения в одинаковых условиях на едином объекте. Например, замеры характеристик темперамента в одной и той же группе с использованием признанных стандартными тестов и вновь разработанного инструмента. Статистическим показателем надежности служит корреляция двух рядов оценок из обеих форм процедуры. Параллельный тест имеет существенные преимущества перед повторным, поскольку снимает действие всех выше указанных негативных факторов. Основным его недостатком является большая трудоемкость разработки параллельных инструментов и процедуры их применения. Кроме того, присутствует вероятность произвольного выбора контрольного инструмента измерения. А также при использовании нескольких социологических методов (опрос и наблюдение, интервью и эксперимент и т.п.) сложно определить, какой из них является основным.

3. Способ деления шкалы пополам. Интерпретация двух и более частей континуума как отдельных шкал. Шкала, имеющая форму вариантов ответа на поставленный вопрос, делится на две части – четные и нечетные альтернативы. В качестве измерительного инструмента выступают выделенные совокупности вопросов. По каждой группе подсчитываются средние значения переменной. Мерой надежности шкалы выступает измеренный коэффициент корреляции. Преимуществом метода является его одноразовое применение, дающее экономию времени. Однако применение метода требует соблюдения условия взаимной независимости индикаторов и гомогенности самой процедуры проверки шкалы. Гомогенность процедуры устанавливается в случае, если все отдельные индикаторы в точности соответствуют единому признаку. Если ответ на вопрос (индикатор) влияет на ответы по другому вопросу, то разделенные половины альтернатив взаимозависимы. Это приводит к неоправданно высокой корреляции и завышенной надежности в ущерб чувствительности и точности измерения. Кроме того, данный метод можно использовать только для шкал, имеющих большое количество градаций. Для вопросов, содержащих менее 10 альтернатив, процедура становится бессмысленной.

Установление степени надежности инструмента измерения предопределяет переход к эмпирическим процедурам сбора первичной социологической информации с использованием конкретного метода и соответствующих ему техник и процедур.