Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
32
Добавлен:
01.05.2014
Размер:
287.23 Кб
Скачать

Различия в результатах измерения

Вспомните, что когда мы занимаемся измерениями, мы замеряем характеристики объектов, а не объекты сами по себе. Большинство задач, связанных с измерениями, порождают проблемы, но измерение психологических качеств иногда особенно затруднительно, поскольку, как правило, связано с комплексной ситуацией, в которой имеется множество факторов, которые влияют на измеряемую характеристику. В дополнение к этому сам измерительный процесс может оказывать воздействие на результаты. Например, предположим, что отдельные табачные компании заинтересованы в измерении отношения людей к курению в таких общественных местах, как рестораны, служебные помещения и зоны ожидания в медицинских учреждениях. Шкала предпочтений для измерения этих мнений была предложена группе отобранных респондентов. Высший результат (максимальная оценка равнялась 100) означает, что респондент обладает резко отрицательным отношением к курению в общественных местах, а низкий показатель (минимум равен 25) показывает противоположное. Если Мэри набрала 75 очков, а Джейн 40, мы можем заключить, что Мэри гораздо негативнее оценивает курение в общественных местах, чем Джейн. Но достоверность этого вывода будет зависеть от качества самого измерения. Перечислим некоторые из возможных причин разности данных оценок.

1. Действительное различие в тех характеристиках, которые мы измеряем. В идеальной ситуации различие в количестве набранных очков будет отражать настоящее различие в предпочтениях Мэри и Джейн, и ничего больше. Эта ситуация достаточно редка, если вообще возможна.

Более вероятно, что разница в количестве очков также отражает некоторые из посторонних факторов, которые перечислены дальше.

2. Действительное различие в некоторых других относительно стабильных характеристиках индивида. Не только позиция человека по конкретному вопросу влияет на величину его оценки, но также другие характеристики могут, как ожидается, иметь воздействие на результаты. Например, исследовательское окно 13.2 иллюстрирует, какое влияние на стиль ответов оказывает культура. Возможно, различие между результатами ответов Мэри и Джейн вызвано просто тем, что Мэри отличается большим желанием выражать негативные чувства. Джейн, напротив, следует правилу «Если вы не можете сказать что-то хоро­шее, не говорите вообще ничего». Она приняла участие в исследовании, она ответила на вопросы, но не всегда правдиво.

3. Различия из-за индивидуальных краткосрочных факторов. Личное настроение, состояние здоровья, усталость и тому подобные моменты могут повлиять на его или ее ответы, даже если эти факторы временные и могут поменяться. Так, если Мэри не курит и только что вернулась после долгого ожидания в приемной у дантиста, где разрешено курить, ее ответы будут определенно отличаться от тех, которые бы она дала несколькими днями раньше.

4. Различия из-за факторов ситуации. Ситуация, в которой проводится измерение, также может повлиять на конечный результат. Очки Мэри могут отличаться, если ее муж присутствовал при проведении анкетирования. К несчастью, данная проблема губительна для исследователей, изучающих проблемы принятия решений женатыми парами. Когда мужа, например, спрашивают о тех самостоятельных ролях, которые муж и жена играют в покупке нового автомобиля, дается один набор ответов; когда спрашивают жену, ответы даются другие; когда их спрашивают совместно, выдается третий набор ответов. Какой из них правильный? Трудно сказать, поэтому факт состоит в том, что ситуация, сопровождающая процесс измерения, может изменить результаты, которые получаются.

5. Различия, вызванные отклонениями в процессе проведения исследования. Большинство измерений в маркетинге предполагает использование анкет, заполняемых при помощи телефона или в ходе личного интервью. Так как интервьюеры могут отличаться по манере задавания вопросов, ответы также будут разниться, как функция этого интервьюера. Один и тот же интервьюер может провести две беседы настолько различным образом, что это вызовет отличие в записанных ответах, хотя респонденты не испытывают никакой разницы в отношении характеристик.

6. Различия из-за выбора показателей. Когда мы пытаемся измерить какую-то составляющую объекта, мы обычно выбираем только малую часть качеств, относящихся к измеряемой характеристике. Так, наша шкала предпочтений для табачных компаний будет содержать только несколько из всего количества характеристик или утверждений, которые мы могли бы включить в список. Фактически, часто мы и не знаем полностью всех факторов, относящихся к конкретному объекту исследования. Когда мы добавляем, устраняем или изменяем формулировку какого-то пункта, мы, несомненно, изменяем результат набранных Мэри или Джейн очков. Мы постоянно должны беспокоиться о том, что наши инструменты измерения отражают нашу интерпретацию определенного положения и что полученное количество баллов будет точно соответствовать тому способу, которым были выбраны эти характеристики, и тому способу, при помощи которого они выражаются.

Наш окончательный результат также подвержен воздействию ряда заранее известных факторов. Рост человека может служить как показатель его «размера», но это может делать и его вес, размер его талии, объем груди и т. д. Мы вправе предположить, что для более точного определения размера человека мы должны учитывать все эти моменты. Именно так обстоит дело и с психологическими характеристиками. При прочих равных шкала, измеряющая только один показатель, меньше соответствует выводам на основе полного набора качеств, относящихся к какой-то характеристике, чем шкала по 25 показателям.

7. Различия из-за недостаточной ясности самого инструмента измерения. Иногда разница в ответе на анкету или вопрос, оцениваемый при помощи шкалы, может представлять собой различия в истолковании неоднозначного или сложного вопроса в большей степени, чем различия в неких фундаментальных отличиях в характеристике, которую пытаются измерить. Мы видели в предыдущей главе, как даже простые слова могут быть подвержены неправильному толкованию. При измерении сложных аспектов, таких как отношения, возможности для неправильного понимания возрастают многократно. Одной из главных задач исследователя является создание таких характеристик или вопросов, которые означают одно и то же для всех респондентов, чтобы наблюдаемые различия в оценках не вызывались разницей в интерпретации.

8. Различия из-за технических факторов. Технические факторы могут также повлиять на полученные оценки. Такие вещи, как недостаток места для записи ответов, случайная отметка не в том окошечке и неправильная интерпретация трудного для прочтения ответа могут воздействовать на полученные результаты.

Классификация и оценка ошибок

Идеалом для всякой шкалы является создание такой системы баллов, которая отражала бы истинные различия в той характеристике, которую хотят измерить, без возможности вмешательства ненужных факторов. То, что мы на самом деле получаем, часто отличается от желаемого. Одна из ошибок, которая может проявиться при подсчете? — систематическая ошибка, которая также называется постоянной ошибкой из-за того, что постоянно присутствует при измерениях. Примерами могло бы послужить измерение роста человека при помощи плохо размеченной линейки или различия в стабильных характеристиках, которые воздействуют на личную оценку.

СИСТЕМАТИЧЕСКАЯ ОШИБКА

Ошибка в измерении, также известная как постоянная ошибка, поскольку влияет на измерение систематическим образом.

СЛУЧАЙНАЯ ОШИБКА

Ошибка в измерении, возникающая из-за временных особенностей человека или ситуации, в которой происходит измерение, и которые влияют на процесс измерения несистематическим образом.

ДОСТОВЕРНОСТЬ

Степень, в которой разница результатов при использовании инструмента измерения отражает истинные различия среди индивидов, групп или состояний характеристик, которые пытаются измерить, или подлинные отличия в отношении тех же индивидов, групп или состояний от одного случая к другому, не совпадающие с постоянными или случайными ошибками.

Другой тип ошибки, случайная ошибка, не является постоянной, а возникает вследствие временных характеристик личности или ситуации, в которой проводится измерение и которая возникает при измерении нерегулярным образом. Случайная ошибка возникает, когда мы повторяем измерение для отдельных людей или групп и не получаем тех же самых результатов, что и в первый раз, когда мы проводили замеры, даже если замеряемые характеристики не изменились. Например, если, не поставив в известность исследователя, человек, которого измеряли, сменил свои туфли перед повторным измерением, два результата могут не совпасть, даже если рост человека не изменился.

Различие между систематической и случайной ошибкой является очень важным из-за способа оценки достоверности, или корректности, измеряемого свойства. Любая шкала или другой инструмент измерения, который правильно измеряет то, что было намечено измерить, должен обладать надежностью.

Надежность измерительного инструмента может быть определена как «степень, в которой различия в результатах подсчета отражают правильную разницу между индивидами по характеристикам, которые мы собираемся измерить, вне связи с постоянной или случайной ошибками». Определить это — очень трудная задача. Этого не решить, например, простым составлением набора вопросов или утверждений, чтобы измерить личное отношение к курению в общественных местах. Исследователь должен предпринять необходимые шаги, чтобы гарантировать, что анкета действительно измерит характер личного отношения к этому вопросу. Это никогда не может быть определено прямо, но всегда выводится косвенным образом. Существует два типа заключений, которые мы делаем, когда устанавливаем надежность инструмента: (1) прямая оценка достоверности и (2) косвенная оценка, использующая надежность.

ПРЯМАЯ ОЦЕНКА ДОСТОВЕРНОСТИ

Существует три методики-прямой оценки, которые мы можем использовать для выводов о достоверности показателя. Мы назовем их практической достоверностью, содержательной достоверностью и конструкционной достоверностью.

ПРАКТИЧЕСКАЯ ДОСТОВЕРНОСТЬ Полезность измерительного инструмента как предсказателя некоторых других характеристик или поведения индивида; иногда она называется достоверностью предсказания или надежностью выбранных критериев.

ПРАКТИЧЕСКАЯ ДОСТОВЕРНОСТЬ. Насколько хорошо показатель действительно предсказывает критерий, является ли он характеристикой или особенностью поведения человека, показывает его практическая достоверность. Примером может служить Craduate Management Admissions Test. Причина, по которой этот тест используется большинством основных школ бизнеса, состоит в его практической надежности; он доказал свою полезность в предсказании того, как успешно студент, получивший определенную оценку, сможет сдать экзамен на получение степени Магистра делового администрирования. Результат используется для предсказания состояния критерия деятельности. Один из вариантов шкалы предпочтений может быть использован для исчисления баллов, которыми торговые представители оценивают результаты с помощью выбранного инструмента измерения, направленного на оценку ими своей деятельности с точки зрения предсказания вероятности их ухода. Оба примера демонстрируют достоверность предсказания или надежность выбранных критериев, которые являются альтернативными терминами для практической достоверности, в которых оценки отношения используются для предсказания будущего поведения.

ПАРАЛЛЕЛЬНАЯ ДОСТОВЕРНОСТЬ

Корреляция между предсказываемой переменной и переменным критерием, когда они оба применяются в одном и том же отношении одновременно.

Однако существует и другой тип практической достоверности, известной как параллельная достоверность, которая связана с взаимосвязью между предсказываемой переменной и переменным критерием, когда обе эти оценки применяются к одному и тому же объекту одновременно. Например, обычный тест на туберкулез, который является обычной составной частью большинства врачебных осмотров, не предскажет, заразится ли человек туберкулезом в будущем в какой-то момент, но показывает, болен ли человек этой болезнью сейчас.

Практическая достоверность непосредственно определяется корреляцией между инструментом измерения и характеристикой или поведением, которые измеряются. Если корреляция высокая, то говорят, что показатель имеет практическую достоверность. Так, если было обнаружено, что качество предварительной подготовки тесно связано с успехами в колледже, то предварительная подготовка будет достоверной мерой для предсказания успехов в колледже. Это не означает, что прежняя теория или здравый смысл не могу т быть полезными при выборе инструментов предсказания при расследовании, но после того, как исследование закончено, единственное доказательство правоты выражается именно в отношениях корреляции.

Практическую достоверность относительно легко оценить. Для уверенности в этом требуется относительно надежный способ измерения того критерия, с. которым должны сравниваться результаты, полученные при помощи нашего инструмента измерения. Но даже при условии доступности таких оценок (например, количества степеней, которые на практике получили студенты по программе МВА, или количества действительно уволившихся торговых представителей) все, что надо сделать исследователю, это установить степень взаимосвязи, обычно в виде некоторых формальных коэффициентов корреляции, между показаниями инструмента измерения и переменным критерием. Являясь наиболее простой для оценки, практическая достоверность редко является наиболее важным видом достоверности. Мы часто имеем дело с тем, «что фактически измеряет показатель», а не просто с тем, позволяет ли он правильно предсказывать или нет.

СОДЕРЖАТЕЛЬНАЯ ДОСТОВЕРНОСТЬ

Адекватность, с которой содержание характеристики охватывается показателем; иногда она называется лицевой достоверностью.

СОДЕРЖАТЕЛЬНАЯ ДОСТОВЕРНОСТЬ. Если измерительный инструмент адекватно охватывает наиболее важные аспекты измеряемого понятия, он обладает содержательной достоверностью. Рассмотрим, например, характеристику «способности к произнесению по буквам» и предположим, что следующий список слов используется для оценки такой индивидуальной способности: catcher, shortstop, foul, strike, walk, pitcher. Теперь допустим, что вам пришлось иметь дело с этим тестом. И здесь причиной вашего возражения послужил тот факт, что все эти слова относятся к терминологии бейсбола. Следовательно, вы можете сказать, что тот человек, который в целом очень плохо разбирается в написании слов, мог бы хорошо выполнить данный тест из-за того, что он является фанатом бейсбола. Человек же с хорошими способностями к правописанию может получить плохой результат при выполнении этого теста по сравнению с тем, кто обладает меньшими природными способностями, но сильнее интересуется бейсболом. Этот тест характеризуется недостатком содержательной достоверности, поскольку не содержит соответствующую подборку из всех доступных слов, которые могут использоваться при составлении данного теста, а является очень специфическим по своей тематике.

Теоретически, для того чтобы проверить способность произносить слова по буквам (в английском языке) наиболее приемлемым образом, мы должны организовать тест так, чтобы он включал в себя все слова английского языка. Тот человек, который произнес бы по буквам наибольшее число этих слов, корректно мог бы быть назван лицом, обладающим наилучшей способностью по буквенному произношению слов. Это нереалистичная процедура. Она бы заняла большую часть человеческой жизни. Поэтому мы прибегаем к отбору ряда характеристик, в соответствии с которыми создаются тесты для проверки способности к побуквенному произношению, включающие в себя выборки из всех возможных слов, которые могут быть применены в данном случае. Различные выборки слов могут дать разные результаты их выполнения одними и теми же людьми. Мы должны осознать, что оценка нами нужных характеристик зависит от того, насколько хорошо мы отобрали необходимые характеристики. Это справедливо не только в отношении способности к побуквенному произношению, но также и для других психологических характеристик.

Как мы можем определить, что наш показатель обладает содержательной достоверностью? Мы никогда не сможем этого гарантировать, поскольку это частично зависит от самого процесса оценивания. Мы можем чувствовать себя вполне удовлетворенными теми пун­ктами, которые включены в показатель, в то время как критик может сказать, что мы ошиблись в выборе среди относящихся к объекту аспектов характеристики. Хотя мы никогда не можем гарантировать содержательную достоверность меры измерения, мы способны минимизировать возражения критиков. Ключ к достижению содержательной достоверности в процедурах, которые используются для разработки этого инструмента.

Один из способов выделить соответствующую область, например, — найти литературу и посмотреть, как другие исследователи определяли эту же область. Следующий шаг состоит в том, чтобы сформулировать большое количество пунктов, которые широко представляют список предпочтений, которые могли бы быть связаны с темой вопроса. На этой стадии исследователь может захотеть включить широкий перечень вопросов со слегка отличающимися оттенками значения, с тем чтобы этот обширный список был в дальнейшем сокращен для выработки окончательного инструмента измерения.

Набор характеристик должен быть достаточно широким, чтобы после обработки показатель содержал достаточно большое их количество для адекватного отбора целой группы переменных. В приведенном примере показатель степени удовлетворенности торговых представителей своей работой включал бы в себя вопросы о каждом компоненте работы (обязанности, коллеги, высшее управленческое звено, руководитель торгового отдела, клиенты, оплата, способности к про­движению товаров), если он хочет быть содержатель недостоверным.

КОНСТРУКЦИОННАЯ НАДЕЖНОСТЬ

Оценка того, насколько хорошо инструмент охватывает теоретическое построение, концепцию или черту, которую предполагается измерять.

КОНСТРУКЦИОННАЯ НАДЕЖНОСТЬ. Измерение теоретических построений является жизненной задачей, и конструкционная надежность является наиболее трудным типом достоверности с точки зрения ее определения. Не только сам инструмент должен быть внутренне последовательным, но измерять им нужно только то, для измерения чего он предназначается. То есть каждая составляющая инструмента должна отражать конструкцию и также должна показать корреляцию с другими частями инструмента.

Так, инструмент измерения, предназначенный для измерения предпочтения, будет обладать конструкционной надежностью, если он в самом деле будет измерять предпочтение в данном вопросе, а не какую-то другую базовую характеристику человека, которая влияет на его или ее набранные очки. Конструкционная надежность связана с самой сутью научного прогресса. Ученые должны создавать некие конструкции, с которыми они будут взаимодействовать. Так же должны поступать вы и я. В маркетинговых исследованиях мы говорим о принадлежности, людей к некоторой социально-демографической группе, их личности, предпочтениях и так далее, поскольку все эти конструкции служат для объяснения рыночного поведения. И являясь существенными, они также не поддаются наблюдению. Мы можем наблюдать поведение, относящееся к этим понятиям, но не понятия. Скорее мы стараемся с точки зрения использования определить понятие через факторы, которые мы можем наблюдать. Когда мы соглашаемся с таким операционным определением, мы соглашаемся заранее и с точностью оценок, получаемых при взаимодействии. Вместо того чтобы говорить о том, что полученные 75 пунктов показывают лояльность человека к конкретной торговой марке, мы можем говорить о получении представления о лояльности к марке.

Когда исследователи определяют область понятия, вырабатывают набор вопросов, связанных с широтой этой области, обрабатывают эти вопросы и обеспечивают их внутреннюю последовательность, заключительный шаг состоит в том, чтобы посмотреть, насколько хорошо этот показатель соотносится с показателями других понятий, с которыми понятие в вопросе исследования теоретически связано. Ведет ли оно себя так, как ожидалось? Подходит ли оно для теории или модели, соотносящей это понятие с другими понятиями?

Например, посмотрим наш прежний пример, показывающий связь удовлетворения своей работой с текучестью кадров среди торговых представителей. Допустим, мы разработали показатель для оценки удовлетворенности работой. Конструкционная надежность этого показателя могла бы быть оценена при помощи определения того, существуют ли действительные взаимосвязи между количеством баллов в оценке удовлетворенности работой и текучестью кадров в компании. Те компании, которые характеризуются низким количеством баллов (показывающим недостаточное удовлетворение работой), должны продемонстрировать большие показатели подвижности кадров, чем те, в которых результаты выше. Если это не так, возникает вопрос о конструкционной надежности этого показателя. Другими словами, конструкционная надежность показателя определяется тем, подтверждает или опровергает показатель гипотезы, выведенные из теории, основанной на данных конструкциях.

Конечно то, что гипотетические взаимосвязи оказались неправильными в отношении наблюдавшегося феномена, может объясняться как недостатком конструкционной надежности, так и неправильной теорией. Мы часто пытаемся определить конструкционную надежность показателя соотнесением его с рядом других понятий, а не с каким-то одним. Мы также пытаемся использовать те теории и гипотезы, которые были протестированы другими и найдены заслуживающими внимания.

Если какая-то характеристика или понятие существуют, они должны быть измерены более чем одним методом. Эти методы должны быть настолько независимыми, насколько возможно. Если они все измеряют один и тот же показатель, то они должны иметь высокий уровень корреляции. Это доказывает присутствие конвергенционной достоверности (или сходящейся достоверности), которая определяется как «подтверждение взаимосвязи независимыми процедурами измерения». Другое доказательство конструкционной надежности представляет собой дифференцированная достоверность, которая требует, чтобы показатель не был коррелирован слишком сильно с показателями, от которых он предположительно отличается. Корреляционные связи, которые слишком сильны, предполагают, что этот показатель в действительности не охватывает отличительную характеристику или отдельную сторону объекта.

КОНВЕРГЕНЦИОННАЯ ДОСТОВЕРНОСТЬ

Подтверждение существования понятия посредством установления корреляционных связей, доказанных независимыми измерениями этого понятия.

ДИФФЕРЕНЦИРОВАННАЯ ДОСТОВЕРНОСТЬ

Критерий, основанный на показателе конструкции, от которого требуется отсутствие слишком высокой степени корреляции с показателями, от которых, как предполагаетcя, он отличается.

КОСВЕННАЯ ОЦЕНКА ЧЕРЕЗ НАДЕЖНОСТЬ

НАДЕЖНОСТЬ

Одинаковость результатов, полученных независимыми, но сравнимыми измерениями одного и того же объекта, черты или понятия.

Надежность относится к способности получить одинаковые результаты измерения объекта, черты или понятия независимыми, но сравнимыми измерениями. Если мы применили два различных показателя для группы людей в отношении их умственных способностей, и два набора результатов из двух способов измерения будут тесно коррелировать друг с другом, мы могли бы сказать, что эти показатели надежны, если каждый из них повторяет количество набранных во втором случае баллов.

Оценка надежности измерительного инструмента состоит в определении того, какая часть из разницы в количестве очков вызвана непоследовательностью в измерениях. Надежность инструмента должна быть установлена перед тем, как использовать его в отдельном исследовании, а не после этого.

Перед обсуждением того, как получить доказательство надежности, нам следует сделать несколько предварительных замечаний. Если показатель считается надежным, то на него не могут повлиять временные факторы. Однако показатель может быть надежным, но не обязательно достоверным. Например, допустим, мы разработали показатель силы верхней части тела. Измерение требует, чтобы участники выполнили несколько опытов с различными весами. Теперь предположим, что результаты различных опытов согласуются между собой. Это могло бы означать, что показатель надежен. Но допустим, что при этом использованные веса были неправильно помечены. Таким образом, оставаясь надежным, показатель силы тела может систематически давать не те результаты, что означает его недостоверность.

Например, старая винтовка ненадежна. Новая винтовка относительно надежна, но ее прицел неправильно отрегулирован, как это видно из центрального рисунка. Правая диаграмма показывает результаты новой винтовки после корректировки прицела. Только в правой диаграмме стрелок из винтовки мог бы добиться регулярного попадания в центр мишени.

Хотя надежный показатель может быть, а может и не быть достоверным, если он является ненадежным, он обязательно будет недостоверным. И наоборот, если он достоверен, он обязательно будет надежным. Достоверная мера роста будет надежной, поскольку он действительно измеряет нужную характеристику проблемы. Надежность, таким образом, обеспечивает только доказательство, построенное на отрицании; она может подтвердить недостаточную достоверность, но не само ее наличие. Надежность, однако, более легко определяется, чем достоверность, вот почему ей исторически уделялось большее внимание в вопросе о степени надежности показателей измерения.

СТАБИЛЬНОСТЬ

Свидетельство надежности показателя; определяется при помощи измерения одного и того же объекта или индивида в два разных момента времени с последующим сравнением результатов; также известна как оценка надежности методом перепроверки.

СТАБИЛЬНОСТЬ. Один из наиболее популярных способов установления надежности показателя состоит в том, чтобы измерить один и тот же объект или человека в два разных момента времени и установить соответствие между результатами. Предполагается, что если индивидуум или объект остаются неизменными в этом промежутке, то два набора оценок совершенно совпадают между собой. Степень, в которой они не совпадают, объясняется случайной ошибкой в измерении, вызванной существованием случайных нарушений в ситуации, имевших место в случае одного или обоих измерений. Эта процедура известна как оценка надежности методом перепроверки и определяет показатель стабильности.

Одно из важных решений, с которым сталкивается исследователь в определении стабильности показателя, — определение, каким должен быть промежуток между использованиями измерительного инструмента. Предположим, инструментом исследователя является шкала предпочтений. Если исследователь ждет слишком долго, предпочтения человека могут измениться, что повлечет за собой низкую корреляцию между двумя наборами оценок. С другой стороны, короткое время ожидания вызовет искажение самого теста, — люди могут запомнить, как они отвечали в первый раз и быть более последовательными в своих ответах, чем это диктуется их предпочтениями.

Для решения данной проблемы исследователи могут использовать альтернативные формы проведения исследования. Вместо того чтобы включить все вопросы в одну форму, исследователь создает два инструмента, которые как можно ближе совпадают по содержанию. То есть каждая форма должна содержать

вопросы из одних и тех же областей, и каждая часть содержания должна получить приблизительно одинаковое внимание в каждой из форм. В идеале соответствие должно быть один в один между вопросами в каждой из двух форм, так чтобы средние значения и стандартные отклонения в этих двух формах были бы одинаковы, а взаимная корреляция между вопросами была бы одинакова в обеих версиях. Хотя идеала достичь невозможно, вполне возможно разработать формы, которые примерно параллельны, и эти параллельные формы могут быть сравнены во времени для измерения стабильности. Рекомендуемый временной интервал между проведением замеров составляет две недели.

ЭКВИВАЛЕНТНОСТЬ

Свидетельство надежности показателя; определяется как в случае отдельного инструмента, так и применительно к ситуации измерения. Когда используется в отношении инструмента, эквивалентным показателем надежности является внутренняя последовательность или внутренняя гомогенность набора характеристик, формирующих шкалу. Когда применяется к ситуации измерения, эквивалентный показатель надежности фокусируется на том, получают ли различные наблюдатели или инструменты, используемые для замера одних и тех же индивидов или объектов в один и тот же момент времени, согласующиеся результаты.

ЭКВИВАЛЕНТНОСТЬ. На шкале предпочтений каждый пункт теоретически действует как показатель этого предпочтения, а количество очков, набранных участниками на одной части шкалы должно коррелировать с их результатом на другой части шкалы. Эквивалентная мера надежности концентрируется на внутренней последовательности набора характеристик, формирующих шкалу.

Самый первый показатель внутренней последовательности набора характеристик представляет собой надежность половины шкалы. При оценке половинной надежности весь набор характеристик разделяется на две эквивалентные половины; совокупные баллы для двух половинок соотносятся; и это берется как мера надежности инструмента. Иногда разделение характеристик производится случайным образом, в других случаях четные вопросы образуют одну половину, а нечетные — вторую половину инструмента. Общая сумма баллов по четным пунктам затем соотносится с общим результатом, полученным по нечетным пунктам.

На использование половинной надежности как показателя внутренней последовательности шкалы направляется прицельная критика. Эта критика сконцентрирована на неизбежно произвольном делении параметров на эквивалентные половины. Каждое из множе­ства возможных разделении может создавать различные соответствия между двумя половинами или, различные величины надежности. Какое разделение правильно или, наоборот, какова надежность инструмента? Например, десятипунктная шкала имеет 126 возможных разбиении или 126 возможных коэффициентов надежности.

Более приемлемым способом оценить интервальную гомогеничность набора пунктов состоит в том, чтобы посмотреть на все пункты одновременно, используя коэффициент а. Одна из причин состоит в том, что коэффициент альфа имеет прямое отношение к наиболее часто используемой и концептуально разработанной измерительной модели, модели полноценной выборки. Модель полноценной выборки утверждает, что цель любого конкретного измерения состоит в том, чтобы оценить результат, который может быть получен, если все параметры определенной сферы используются при измерении. Результат, который любой субъект может получить на основе всей области выборки, представляет собой настоящую оценку отдельного человека XT

На практике никто не использует все параметры, которые могут быть использованы, а только часть из них. В той степени, в которой выборка параметров соответствует правильным результатам, она полезна. Согласно модели полноценной выборки, первичный источник ошибки измерения состоит в неадекватности выборки из области относящихся к проблеме параметров.

Базой для модели полноценной выборки является концепция очень большой корреляционной матрицы, показывающей все соотношения между параметрами в данной области. Ни одни параметр, вероятно, не дает совершенного понимания всей конструкции, также как одно слово не может использоваться для проверки различий в способности субъектов исследования произносить по буквам слова, и не один вопрос не может измерить личные умственные способности.

Средняя корреляция между параметрами в этой большой матрице, r показывает степень, в которой некоторая общая составляющая содержится в параметрах. Дисперсия показателей корреляции средних показывает степень, в которой параметры разделяют эту общую составляющую. Главное допущение в модели полноценной выборки состоит в том, что все параметры, если они относятся к основному содержанию понятия, обладают одинаковым количеством этой основной составляющей. Это утверждение подразумевает, что средняя корреляция в каждой колонке гипотетической матрицы является одной и той же, и равна, в свою очередь, средней корреляции по всей матрице. То есть если все вопросы в показателе относятся к одному предмету, ответы на эти вопросы должны обладать высокой степенью взаимной корреляции. Наоборот, низкая степень корреляции между вопросами показывает, что некоторые пункты не относятся к соответствующей области и создают ошибку и ненадежность.

Коэффициент представляет собой итоговый показатель взаимной корреляции, которая существует внутри набора вопросов рассчитывается так:

где k — число пунктов в шкале, σi2 — вариация результатов для пункта i по всем субъектам исследования, σi2? —вариация совокупных результатов по всем субъектам, где совокупный результат для каждого респондента представляет собой сумму оценок по отдельным пунктам.

Коэффициент а обычно должен рассчитываться для оценки качества показателя. Это имеет смысл, потому что квадратный корень из коэффициента α представляет собой оценочную корреляцию между k-пунктным тестом и безошибочным истинным результатом.

Если низкая, что должен делать исследователь? Если набор параметров достаточно большой, этот результат предполагает, что некоторые параметры не в равной степени представлены в общей составляющей, и они должны быть устранены. Наиболее простой способ обнаружить их — это подсчитать корреляцию каждого вопроса с общим результатом и распределить эти показатели корреляции в порядке убывания величины. Пункты с корреляцией, близкой к нулю, должны быть устранены. Также должны быть исключены пункты, которые продемонстрировали существенное или неожиданное отклонение в степени корреляции между пунктами и совокупным результатом.

Если конструкция имеет, скажем, пять выделенных подразделов или компонентов, коэффициент а будет рассчитан для каждого массива. Корреляции между отдельными пунктами и совокупным итогом, используемые для устранения отдельных пунктов, должны также опираться на пункты в компоненте и совокупный результат для данного массива.

Предыдущее обсуждение имело дело с эквивалентным показателем надежности применительно к отдельному инструменту. Чередующийся эквивалентный показатель используется, когда различные наблюдатели или различные инструменты замеряют одни и те же объекты или людей в один и тот же момент времени. Предоставляют ли эти методы последовательные результаты? Настолько ли они эквивалентны, как показывает величина корреляции между итоговыми результатами? Примером может служить конкурс красоты. Способны ли судьи, использующие установленные критерии красоты, таланта, осанки и так далее, ранжировать женщин в одном и том же порядке: победительница, две женщины, занявшие второе место, и так далее. Надежность этого измерения тем больше, чем в большей степени судьи согласны между собой. Этот тип эквивалентности является основой для конвергентной достоверности, когда измерения независимы.

Соседние файлы в папке Часть 4