Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Фар, Бакарак - Психометрика (перевод Попова А.Ю.).doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
1.58 Mб
Скачать

Глава 12 теория генерализуемости

Доктор Джонсон – специалист в области возрастной психологии, особенно она интересуется исследованием агрессивности у подростков. Есть несколько вариантов того, как она может в своих исследованиях проводить измерение агрессивности. Она могла бы попросить «целевых» респондентов заполнить самооценочный опросник на агрессивность, либо же она могла бы опросить друзей этих респондентов, и в таком случае уровень агрессивности респондента оценивался бы не им самим, а его друзьями. С другой стороны, она могла бы постараться избежать использования опросников и измерить агрессивность испытуемого путем наблюдения за его поведением. Например, доктор Джонсон могла бы попросить испытуемых в течение пяти минут разговаривать с незнакомцем противоположного пола и записать этот разговор на видеокамеру. Затем она могла бы привлечь к работе свою помощницу, Дорис, попросив ее просмотреть записи и оценить у каждого из участников исследования уровень поведенческой агрессии. Понимая необходимость использования нескольких мер, она могла бы попросить Дорис оценить каждого испытуемого по трем позициям, которые, как она считает, связаны с агрессивностью, - враждебный, злой и недоброжелательный. Цель, которую преследует доктор Джонсон, - количественно выразить индивидуальные различия респондентов в отношении агрессивности, которую они проявляют.

Данная стратегия измерения хорошо вписывается в классическую теорию тестов (Classical test theory, CTT) – психометрический подход, описанный ранее в главах, посвященных проблеме надежности. Эта стратегия относительно проста, оценивается лишь один потенциальный источник ошибки измерения - различия пунктов (вопросов, заданий или утверждений) теста. В данном случае классическая теория тестов может применяться доктором Джонсон для оценки степени вклада межпунктовых различий в общую погрешность измерения. На основе определения межпунктовой корреляции она могла бы вычислить коэффициент надежности «альфа» для трехпунктовой шкалы агрессивности. Кроме того, она могла бы воспользоваться процедурами типа формулы Спирмена-Брауна и предсказать коэффициент надежности шкалы с большим или меньшим набором сходных по смыслу пунктов.

Данная относительно простая исследовательская стратегия, однако, может вызвать у доктора Джонсон некоторые сомнения. В частности, ее может обеспокоить то, что для оценки поведенческих проявлений агрессивности приходится надеяться лишь на одного наблюдателя. Будучи уникальной личностью, Дорис обладает своим неповторимым способом мышления и интерпретации событий, включая интерпретацию поведения, потенциально связанного с агрессией. Например, Дорис может иметь склонность воспринимать сарказм как проявление агрессии. Когда испытуемый делает саркастичное замечание, Дорис воспринимает это замечание как агрессивное, хотя многие другие наблюдатели могли бы воспринять его как шутку. Исходя из данных соображений, доктор Джонсон могла бы нанять еще двух наблюдателей, Кена и Тима, которые также должны будут смотреть видеозаписи и оценивать поведение испытуемых. При такой организации исследования каждый из наблюдателей независимо оценивает каждого из испытуемых по каждому из пунктов (враждебный, злой, недоброжелательный). Затем доктор Джонсон объединит оценки трех независимых наблюдателей и получит обобщенные баллы агрессивности, надеясь на то, что эти баллы будут более объективными, потому что уникальные особенности интерпретации поведения одним наблюдателем будут сглаживаться уникальными особенностями интерпретации поведения другим наблюдателем.

Несмотря на то, что классическая теория тестов находит широкое применение для концептуализации и оценки качества многих измерительных методов, в данном случае для улучшенной стратегии измерения, использованной доктором Джонсон, она неприменима. Улучшенная стратегия более сложна, поскольку включает в себя несколько компонентов, каждый из которых может быть рассмотрен как источник ошибки измерения. В то время как первоначальный вариант ее исследования включал в себя только лишь набор пунктов, последний вариант включает в себя два компонента измерения – набор пунктов и набор наблюдателей. Возможно, разные компоненты измерения по-разному влияют на его общее качество. Например, возможен вариант, при котором три пункта работают на измерение агрессивности адекватно, однако различные наблюдатели в своих оценках поведения испытуемых значительно расходятся. Несмотря на потенциальную важность такого рода различий, классическая теория тестов не может развести различные компоненты измерительного процесса. Отдельная оценка эффектов различных компонентов измерения на его общее качество, а также внесение соответствующих поправок в процесс тестирования становятся возможными при применении подхода, получившего название «теория генерализуемости».

В данной главе будет представлена общая логика и процедура психометрического анализа, основанного на теории генерализуемости (G-теория; Cronbach, Gleser, Nanda, & Rajaratnam, 1972). Сперва будут раскрыты основные понятия G-теории и проведено ее сопоставление с классической теорией тестов. Затем будут приведены два примера применения G-теории, иллюстрирующие ее логические основания, вычисления и интерпретацию. Первый пример относительно прост, он направлен на то, чтобы познакомить читателя с процессом G-анализа и показать его параллели с психометрическим анализом на основе классической теории тестов. Второй пример более сложен, его задача – показать большую степень гибкости G-теории. В конце главы будут обсуждаться несколько вопросов, имеющих значение для организации процесса и интерпретации результатов психометрического анализа, основанного на теории генерализуемости.

МНОЖЕСТВЕННЫЕ КОМПОНЕНТЫ ИЗМЕРЕНИЯ

Теория генерализуемости может применяться для психометрических исследований сложноорганизованных измерений, в которых на общее качество измерения могут влиять различные его компоненты. Данное соображение составляет фундаментальное и потенциально ценное отличие G-теории от классической теории тестов.

Вариативность в результатах психологического тестирования может быть вызвана различными компонентами измерения; в свою очередь, различные компоненты измерения могут различным образом влиять на общее качество тестирования. В этом плане доктора Джонсон могут интересовать, например, количество пунктов, количество наблюдателей, а также то, каким образом на качество измерения влияет взаимодействие данных двух факторов. С точки зрения классической теории, общая дисперсия тестовых баллов подразделяется лишь на два компонента: дисперсия измеряемого признака («истинных баллов») и дисперсия ошибки. В классической теории тестов дисперсия ошибки рассматривается как недифференцированная, аморфная и монолитная (R.L.Brennan, 2001; Cronbach et al., 1972). Таким образом, классическая теория не может дифференцировать эффекты различных компонентов измерения, например, пунктов и наблюдателей, объединяя их в единую «ошибку измерения». Выбранный доктором Джонсон метод исследования дает по девять оценок для каждого из респондентов – три наблюдателя, оценивающие видеозаписи по трем пунктам. В рамках классической теории данные девять оценок могут рассматриваться лишь как девять однотипных «тестов» на агрессивность.

В противоположность этому, G-теория рассматривает ошибку измерения как составную из нескольких компонентов. Другими словами, теория генерализуемости может быть использована для исследования влияний, оказываемых различными аспектами измерительной стратегии на общее психометрическое качество измерения. Существует множество теоретических и практических причин, по которым исследователь мог бы захотеть разграничить различные источники ошибки измерения. Так, доктор Джонсон может быть заинтересована в том, чтобы рассмотреть пункты экспертного опросника и самих наблюдателей как отдельные, однако потенциально взаимосвязанные, источники ошибки измерения.

По теоретическим причинам доктора Джонсон может интересовать восприятие учителями агрессивного поведения учеников. С этой целью она может провести исследование, в котором несколько взрослых наблюдателей оценивают агрессивность подростков в процессе их взаимодействия друг с другом. В связи с задачами данного исследования, ее интересуют индивидуальные особенности наблюдателей в восприятии агрессивного поведения, а потому ей может быть необходимо отделить этот источник ошибки измерения от ошибки, связанной с различием самих пунктов.

С другой стороны, для разграничения пунктов и наблюдателей как различных компонентов измерительного процесса у доктора Джонсон могут быть и практические причины. К примеру, планируется масштабное исследование агрессии, и может быть необходимо разработать эффективный и надежный метод измерения агрессивности в поведении. В плане необходимого времени и финансовых средств делать ставку на количество наблюдателей менее выгодно, чем делать ставку на количество пунктов – включение в исследование каждого дополнительного наблюдателя (например, переход от трех наблюдателей к пяти), вероятно, более затратно, чем простое включение в тест дополнительных пунктов (например, расширение теста с трех пунктов до пяти). Тем не менее, доктор Джонсон еще не знает психометрические последствия добавления (или удаления) наблюдателей или пунктов. Возможно, общее качество теста на агрессивность при добавлении дополнительных наблюдателей возрастет достаточно сильно, а при добавлении новых пунктов – лишь незначительно.

Чтобы оценить потенциальные преимущества различных измерительных стратегий для своего масштабного исследования, доктор Джонсон проводит небольшое пилотное исследование с применением трех пунктов и трех наблюдателей. Руководствуясь в анализе полученных данных теорией генерализуемости, она сможет оценить психометрическое качество различных комбинаций количества наблюдателей и количества пунктов (например, два наблюдателя и четыре пункта, три наблюдателя и два пункта). Можно оценить качество измерения, наиболее вероятное для каждой из таких комбинаций. Используя эту информацию вместе с информацией о стоимости добавления новых наблюдателей и/или пунктов, доктор Джонсон сможет выбрать оптимальную (с точки зрения качества и эффективности) стратегию для своего будущего полномасштабного исследования.

На языке G-теории каждый из аспектов измерительной стратегии называется компонентом измерения, а сами эти стратегии частично определяются по количеству задействованных в них компонентов измерения. Рассмотрим первоначальный вариант исследования доктора Джонсон – три пункта, один наблюдатель в одной ситуации и в один момент времени. Поскольку данное исследование систематически включает в себя более чем один пункт, разница пунктов в данной исследовательской стратегии является единственным компонентом измерения. Другими словами, формулировка пункта может влиять на результаты исследования, и анализ генерализуемости может быть использован для оценки психометрического эффекта различий между пунктами. В измерительной стратегии рассматриваемого исследования больше не было характеристик, которые проявлялись бы более чем на одном уровне или в одной форме – исследование квлючало в себя три различных пункта, но лишь одного наблюдателя (Дорис), лишь одну ситуацию (беседа с незнакомцем противоположного пола) и лишь один момент времени. При такой организации исследования теория генерализуемости не может быть использована для оценки различий между наблюдателями. Сходным образом, поскольку в исследовании использовалась лишь одна ситуация наблюдения, G-теория не может быть применена для оценки различий между ситуациями. Тем не менее, поскольку в исследование было включено три разных пункта, G-теорию в данном случае можно применить для оценки различий между пунктами. Поскольку исходный вариант организации исследования доктора Джонсон включает в себя лишь одну характеристику измерительной стратегии, проявляющуюся более чем на одном уровне (пункты), данный исследовательский дизайн в терминологии G-теории называется однокомпонентным.

Более сложные исследовательские стратегии включают в себя несколько компонентов измерения. Во второй вариант исследования доктора Джонсон было включено несколько разных пунктов и несколько разных наблюдателей (Дорис, Кен, Тим). Данный исследовательский дизайн является двухкомпонентным, и у доктора Джонсон появляется возможность оценить не только различия между пунктами, но и различия между наблюдателями. Как будет показано ниже, такая усложненная стратегия приводит к постановке некоторых интересных и потенциально важных психометрических вопросов. Усложняя дизайн исследования еще дальше, доктор Джонсон могла бы проводить наблюдение за испытуемыми в двух ситуациях – общение с незнакомцем того же пола и общение с незнакомцем противоположного пола. Для такого рода исследования она могла бы попросить трех наблюдателей оценить испытуемых по трем пунктам в каждой из двух ситуаций. Данный исследовательский дизайн будет трехкомпонентным – пункты, наблюдатели и ситуации. Данный трехкомпонентный дизайн сделает возможной постановку большего количества интересных и потенциально важных психометрических вопросов, в том числе выходящих за пределы возможностей двухкомпонентного дизайна.

ГЕНЕРАЛИЗУЕМОСТЬ И КОМПОНЕНТЫ ДИСПЕРСИИ

Как подразумевает само название G-теории, в ее основе лежит понятие генерализуемости. Коротко говоря, качество измерения в теории генерализуемости оценивается с позиций переносимости выводов с а) баллов, основанных на ограниченном количестве наблюдений, на б) баллы, основанные на практически исчерпывающем количестве наблюдений.

Как правило, при измерении психологической или поведенческой переменной используется лишь ограниченное количество наблюдений. Так, первоначальный вариант исследования доктора Джонсон включал в себя лишь три пункта – враждебный, недоброжелательный и злой. Традиционный для G-теории предмет исследования – то, насколько баллы, полученные на ограниченном наборе пунктов, включенных в экспертный опросник, соответствуют баллам, которые были бы получены при использовании всего большого «универсума» пунктов. В некотором смысле использованные доктором Джонсон три пункта на агрессивность представляют собой выборку из генеральной совокупности («универсума») возможных пунктов, отражающих агрессивное поведение. В ее исследование могло бы быть включено множество других пунктов (например, протестный, антагонистичный, вспыльчивый и т.д.), и существует вероятность, что разные пункты в исследовании давали бы несколько разные результаты. Таким образом, исследователю необходимо оценивать степень репрезентативности использованных в тесте пунктов относительно множества других возможных пунктов на агрессивность. Хотя доктор Джонсон использовала в экспертном опроснике лишь три пункта, ей хотелось бы считать, что данные три пункта приводят к получению баллов, репрезентативных (генерализуемых, соотносимых) по отношению к тем баллам, которые были бы получены при условии использования всех возможных пунктов на агрессивность.

В этом плане G-теорию можно назвать расширением теории выборки из домена, описанной в Главе 5. В данной главе описывалось понятие домена пунктов, и из этого понятия выводилось понятие надежности. Сходным образом, G-теория основана на понятии «универсума» пунктов (или других методов или аспектов измерения), и надежность понимается в терминах способности обобщать результаты с небольшого набора пунктов на весь «универсум».

В качестве еще одного примера рассмотрим баллы, получаемые спортсменами на олимпийском соревновании по фигурному катанию. В системе оценки, используемой сегодня на олимпийских соревнованиях по фигурному катанию, успешность выступления спортсменов оценивается девятью судьями (Новая система оценивания Международного союза конькобежцев ISU, без даты). Девять судей выбираются по критериям их квалификации, однако их можно рассмотреть и как небольшую выборку из большой совокупности квалифицированных судей со всего мира. Далее, с позиций теории генерализуемости, баллы, которые присуждают выступающим данные девять судей, должны соответствовать баллам, которые были бы присуждены выступающим, если бы их оценивали все квалифицированные судьи мира. Другими словами, хотелось бы верить, что используемые на соревновании баллы генерализуются за пределы несколько предвзятого восприятия девяти людей, которым случилось быть избранными в качестве судей.

Ранее в данной книге при обсуждении проблемы надежности большое внимание уделялось понятию согласованности. Согласованность является важным понятием и для теории генерализуемости. В предыдущих главах надежность была представлена как согласованность между тестовыми баллами и истинными баллами; было показано, что оценка надежности выводится из измерения степени согласованности между пунктами теста. С позиций теории генерализуемости, доктор Джонсон заинтересована в степени согласованности между результатами ее трехпунктового теста и результатами гипотетического теста, составленного из всех возможных пунктов на агрессивность. Говоря конкретнее, доктора Джонсон интересует степень согласованности между дисперсией тестовых баллов и дисперсией баллов по «универсуму» всех возможных пунктов.

В G-анализе оценки генерализуемости основаны на компонентах дисперсии, отражающих степень согласованности с «универсумом» для каждого из элементов исследовательского дизайна (Shavelson & Webb, 1991). Например, один из компонентов дисперсии отражает вариативность в большой совокупности людей (т.е. популяции), из которой была выбрана исследуемая выборка. Для еще более глубокого понимания компонентов дисперсии представьте себе, что респондент получает балл по каждому из пунктов всего «универсума» пунктов на агрессивность. Эти баллы усредняются и приводят к получению "универсального балла" – в том смысле, что этот балл основан на целом универсуме пунктов. Представьте теперь, что каждый человек из популяции был протестирован с использованием всех возможных пунктов на агрессивность и получил такой «универсальный балл». Тогда еще одним компонентом дисперсии является вариативность «универсальных баллов» в популяции респондентов. Не следует сильно беспокоиться по поводу точного значения данного весьма абстрактного понятия. Вероятно, достаточно понять, что компоненты дисперсии отражают вариативность в большой совокупности наблюдений.

G-АНАЛИЗ И D-АНАЛИЗ

G-теория может использоваться различными способами, однако основной процесс психометрического анализа в ее рамках предполагает две стадии. На первой стадии оцениваются компоненты дисперсии. Идентифицируются факторы, оказывающие эффект на наблюдаемую дисперсию тестовых баллов (и через нее – на генерализуемость результатов); проводится количественная оценка этих эффектов. Например, доктор Джонсон может оценить, насколько полученные респондентами баллы по агрессивности обусловлены истинными различиями самих респондентов, различиями пунктов, различиями наблюдателей, а также тем, как эти три аспекта измерения взаимодействуют друг с другом (например, разные наблюдатели могут использовать разные пункты каким-то особым образом). Данная стадия часто называется G-анализом, поскольку используется она для определения степени влияния различных аспектов (компонентов) измерения на генерализуемость тестовых баллов (Marcoulides, 1996).

На второй стадии психометрического анализа в рамках G-теории результаты первого этапа используются для оценки генерализуемости различных комбинаций компонентов (аспектов) измерения. Так, доктор Джонсон может оценить количество пунктов и наблюдателей, которые потребуются ей для достижения коэффициента генерализуемости 0.80. В условиях реального исследования увеличение количества наблюдателей может быть сложным или затратным в финансовом плане, поэтому доктор Джонсон может быть также заинтересована в вычислении того количества пунктов, которое потребуется добавить для достижения определенного уровня генерализуемости в исследовательском дизайне с тем же количеством наблюдателей. Вторая стадия психометрического анализа в рамках теории генерализуемости зачастую называется D-анализом, поскольку используется она для принятия решений о модификации исследовательского дизайна (Marcoulides, 1996).

ПРОВЕДЕНИЕ И ИНТЕРПРЕТАЦИЯ АНАЛИЗА ГЕНЕРАЛИЗУЕМОСТИ: ОДНОКОМПОНЕНТНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ДИЗАЙН

Первый из рассматриваемых примеров будет иллюстрировать общую логику, вычисления и интерпретацию анализа генерализуемости на основе относительно простой исследовательской стратегии. В качестве примера будет взят исходный исследовательский дизайн доктора Джонсон, в котором поведение респондентов оценивается одним наблюдателем по трем позициям (пунктам). Как было показано выше, это однокомпонентный исследовательский дизайн, поскольку в нем используется несколько пунктов, но лишь один наблюдатель, лишь одна ситуация, лишь один момент времени и т.д. Несмотря на то, что данный пример будет использован для иллюстрации положений G-теории, к такого рода исследованиям применима и классическая теория тестов. Таким образом, данный пример будет использован для того, чтобы показать читателю, как теория генерализуемости пересекается с классической теорией тестов в случае простого, однокомпонентного исследовательского дизайна.

Представьте, что доктор Джонсон набрала данные, приведенные в Таблице 12.1. В этом примере пять испытуемых, поведение которых наблюдается Дорис и оценивается с использованием трех пунктов, связанных с агрессивностью. Для получения общего балла агрессивности для каждого из респондентов доктор Джонсон планирует вычислять среднее арифметическое по трем пунктам. Она надеется, что результаты исследования могут быть генерализованы на баллы, которые были бы получены в случае тестирования респондентов всеми возможными пунктами из "универсума" пунктов, связанных с агрессивностью. Главной целью анализа и является оценка степени такой генерализуемости. На первом этапе необходимо исследовать факторы, влияющие на оценку поведения респондентов и, как следствие, на психометрическое качество получаемых ими баллов агрессивности.

Стадия 1: G-анализ

На первой стадии анализа генерализуемости применяется дисперсионный анализ (ANOVA). С его помощью производится оценка компонентов дисперсии по каждому из факторов, оказывающих влияние на итоговые баллы респондентов. Как вы знаете, дисперсионный анализ ANOVA – это статистическая процедура, которая обычно применяется в экспериментальных исследованиях. Цель ANOVA - исследовать дисперсию в распределении баллов (например, оценок поведения респондентов) и разделить, или "разложить", эту дисперсию на компоненты, связанные с различными факторами (например, самими респондентами, пунктами и т.д.). Доктор Джонсон проводит дисперсионный анализ для исследования вариативности в наборе из 15 баллов - оценки пяти респондентов по трем пунктам. Результаты приведены в Таблице 12.2. ANOVA позволяет доктору Джонсон разделить исходные данные на набор эффектов и оценить компоненты дисперсии, связанные с каждым из них.

Таблица 12.1. Гипотетические данные для однокомпонентного дизайна в рамках теории генерализуемости: оценки пяти респондентов по трем пунктам

Участник

Пункт

Среднее по пунктам

Враждебный

Злой

Недоброжелательный

Энн

3

3

3

3

Боб

1

1

2

1.3

Кэролин

3

3

4

3.3

Дрю

3

5

5

4.3

Элеанор

3

7

6

5.3

Среднее по участникам

2.60

3.80

4.00

В случае однокомпонентного дизайна на вариативность в распределении тестовых баллов могут влиять три фактора. Первый – это, конечно, индивидуальные различия респондентов по уровню агрессивности. Заметьте (см. Таблицу 12.1), что усредненный по трем пунктам балл агрессивности у Энн (3.0.) ниже, чем аналогичный балл у Дрю (4.3). Это означает, что в целом Энн вела себя менее агрессивно, чем Дрю. Вариативность усредненных баллов у респондентов отражает то, насколько они отличаются друг от друга в терминах агрессивности. При прочих равных условиях качество измерения будет наилучшим тогда, когда респонденты отличаются друг от друга. Как уже обсуждалось ранее в главах, посвященных корреляции и надежности, вариативность между респондентами является ключевым компонентом процесса измерения. В сущности, это как раз тот фактор, который доктор Джонсон и надеется измерить в своем исследовании.

Второй фактор – это степень различия между пунктами по усредненному для всех респондентов баллу агрессивности. Заметьте (см. Таблицу 12.1), что пункт "враждебный" в среднем оценивается ниже (2.60), чем «недоброжелательный» (4.00). Вариативность между данными показателями отражает то, насколько различные оценки поведения респондентов провоцируются использованием различных пунктов. Таким образом, тот факт, что 15 анализируемых баллов отличаются друг от друга, частично обусловлен тем, что разные пункты приводили к различным оценкам поведения.

Третий фактор – это ошибка измерения. Вспомните, что целью доктора Джонсон является обнаружение четких и согласованных различий между респондентами, однако полученные результаты показывают, что эти различия от пункту к пункту несколько непостоянны. Так (Таблица 12.1), Энн и Дрю одинаково оцениваются по параметру "враждебный", однако по параметру "злой" Энн оценивается ниже, чем Дрю. Чему же верить? Являются ли Энн и Дрю одинаково агрессивными, или же Энн менее агрессивна, чем Дрю? Данная несогласованность между двумя пунктами частично искажает различия между Энн и Дрю, в связи с чем она и называется ошибкой измерения.

В однокомпонентном исследовательском дизайне ANOVA выделяет два основных эффекта и остаток (случайную ошибку измерения). В большинстве экспериментальных применений анализа ANOVA для всех выделенных эффектов проводятся тесты статистической значимости. Тем не менее, для анализа генерализуемости такие тесты не требуются. Фактически, результаты анализа ANOVA, особенно среднеквадратичные отклонения, представляют для G-теории интерес лишь постольку, поскольку они позволяют оценивать компоненты дисперсии.

Таблица 12.2. Гипотетические данные по наблюдению за поведением испытуемых: результаты дисперсионного анализа ANOVA и анализа генерализуемости

Эффект

df

Сумма квадратов

Среднеквадратичное отклонение

Компонент дисперсии

% дисперсии

Индивидуальные различия респондентов (target)

4

27.067

6.767

1.967

0.608

Пункты

2

5.733

2.867

0.400

0.124

Остаток

8

6.933

0.867

0.867

0.268

Всего

14

39.733

3.233

1.000

Таблица 12.3. Уравнения оценки компонентов дисперсии в исследовательском дизайне «респонденты х пункты»

Эффект

Уравнение

Индивидуальные различия респондентов (target)

Пункты

Остаток

В Таблице 12.2 приведены результаты дисперсионного анализа ANOVA, а в Таблице 12.3 - формулы оценки компонентов дисперсии для данного исследовательского дизайна. В дополнение к этому в Таблице 12.2 приведены оценки компонентов дисперсии (коэффициенты 2) и процент объяснимой дисперсии для каждого из эффектов (вычисляется путем деления данного компонента дисперсии на сумму всех компонентов). Например, компонент дисперсии, связанный с индивидуальными различиями респондентов, вычисляется следующим образом:

,

,

,

Результаты показывают ту степень, в которой различные аспекты (компоненты) измерения влияют на общую оценку агрессивности респондентов. Абсолютная величина компонента дисперсии сложно поддается интерпретации, поскольку она зависит от величины эффекта и шкалы измерения. В связи с этим более осмысленные результаты получаются при сравнении компонента дисперсии, связанного с определенным эффектом, с компонентами дисперсии других эффектов или же при рассмотрении компонента дисперсии в процентном отношении к общей вариативности.

Основной эффект, представляющий наибольший интерес, – эффект индивидуальных различий между респондентами (target effect). Этот эффект отражает то, насколько различны у респондентов баллы агрессивности, усредненные по всем пунктам. Как показано в Таблице 12.2, абсолютное значение компонента дисперсии для данного эффекта получилось наивысшим из всех (1.967). Фактически, различия между усредненными баллами агрессивности у респондентов объясняют более 60 % общего разброса данных:

.

Для доктора Джонсон относительно большая величина данного компонента дисперсии (по сравнению с другими эффектами) - хорошая новость, поскольку целью исследования является выявление различий между респондентами. В сущности, основной эффект, связанный с индивидуальными различиями респондентов, является тем "сигналом", который пыталась обнаружить доктор Джонсон, и относительно высокий показатель по данному компоненту дисперсии означает, что сигнал достаточно силен.

Если эффект индивидуальных различий респондентов – сигнал, который пытается обнаружить доктор Джонсон, необходимо рассмотреть также и шум, который может искажать этот сигнал. На основе теории генерализуемости возможно принятие одного из двух решений, которые по-разному обходятся с шумом, или ошибкой измерения. Чтобы не усложнять логику изложения, рассмотрим лишь «относительные» решения, которые теснее всего связаны с тем, как ошибка измерения и надежность понимаются в классической теории тестов. Относительные решения (известные также как ориентированные на норму) предполагают использование порядка респондентов относительно друг друга. Например, если некоторое почетное общество принимает в свои ряды лучшие 15 % студентов, это общество будет заинтересовано в информации о порядковых рангах студентов, а решение о принятии будет основано на сравнении баллов одного студента с баллами других студентов. Ближе к концу главы будет приведено краткое описание другого типа решений, которые называются "абсолютными", или ориентированными на критерий.

В рассматриваемом нами однокомпонентном исследовательском дизайне тем самым шумом, который может исказить сигнал эффекта, связанного с индивидуальными различиями респондентов, является эффект остатка. Если между респондентами существуют ярко выраженные различия, если все пункты являются хорошими индикаторами исследуемого психологического конструкта и если оценки не подвержены влиянию случайных состояний респондентов и наблюдателя либо случайных изменений в контексте тестирования, то различия между респондентами должны быть постоянными для любых рассматриваемых пунктов. Другими словами, если стратегия измерения хороша, респонденты с высокими баллами по одному пункту должны также иметь высокие баллы по другим пунктам. Непоследовательность в баллах, полученных по разным пунктам, наводит на мысль о том, что не существует ярко выраженных различий между респондентами, пункты неодинаково адекватно отражают исследуемый конструкт, и/или оценки подвержены влиянию случайных посторонних факторов в ситуации тестирования. Последние два варианта (отношение пунктов к исследуемому конструкту и случайные эффекты) находят свое количественное выражение в компоненте дисперсии, связанном с эффектом остатка. В результатах, полученных доктором Джонсон, эффект остатка ( ) невелик по сравнению с эффектом индивидуальных различий и объясняет лишь 27 % общего разброса данных.

Несколько углубляясь, рассмотрим также основной эффект пунктов и поясним, почему этот эффект источником ошибки при обнаружении индивидуальных различий между респондентами не является. Компонент дисперсии, связанный с основным эффектом пунктов, отражает степень того, насколько некоторые пункты в среднем оцениваются выше или ниже других. Как показано в Таблице 12.1, усредненные по всем респондентам значения для трех пунктов варьируются от 2.6 до 4.0. Тот факт, что пункты различаются в своих усредненных оценках, никак не связан с проблемой их согласованного действия для ранжирования испытуемых относительно друг друга. Таким образом, поскольку основной эффект пунктов не нарушает способности доктора Джонсон обнаруживать индивидуальные различия между респондентами, данный эффект к ошибке измерения не относится.

Стадия 2: D-анализ

Вторая стадия исследования генерализуемости – D-анализ, который служит для эмпирического сопровождения будущих решений по поводу изменения исследовательского дизайна. Как уже говорилось, разработчикам тестов следует стремиться к максимизации качества и эффективности своего инструментария, однако эти две цели несколько противоречат друг другу. С одной стороны, для обеспечения высокого уровня генерализуемости в основном исследовании доктору Джонсон необходимо включить в экспертный опросник достаточно большое количество пунктов. С другой стороны, она предпочла бы включить в исследование небольшое количество пунктов, что упростит работу наблюдателя, минимизирует необходимое для измерения агрессивности время, даже сэкономит ей деньги. Проводя D-анализ, доктор Джонсон оценивает психометрическое качество различных возможных исследовательских стратегий, что позволяет ей подобрать наиболее подходящую для себя.

Чтобы провести D-анализ, для различных исследовательских стратегий вычисляются т.н. «коэффициенты генерализуемости». Если доктор Джонсон заинтересована в измерении индивидуальных различий между респондентами, ее прежде всего будут интересовать «относительные» коэффициенты генерализуемости. Как уже говорилось, коэффициент генерализуемости аналогичен надежности в терминах классической теории тестов, поскольку он отражает то, насколько наблюдаемые различия между респондентами согласованы с различиями, которые были бы получены при использовании практически неограниченного числа наблюдений. Как и коэффициент «альфа», коэффициент генерализуемости может принимать значения от 0 до 1.0. Как будет показано ниже, один из видов генерализуемости в некоторых исследовательских дизайнах равен коэффициенту «альфа».

С концептуальной точки зрения коэффициент генерализуемости выражает соотношение сигнала и шума. Измеряя психологические или поведенческие различия между респондентами, пользователь теста, в сущности, пытается обнаружить сигнал (т.е. индивидуальные различия), который, тем не менее, может искажаться шумом (т.е. случайной ошибкой и другими аспектами измерительного процесса). Существует два фактора, влияющие на способность обнаружения сигнала – сила сигнала и количество шума (помех). Коэффициент генерализуемости может быть представлен как

Коэффициент генерализуемости =

Для вычисления коэффициентов генерализуемости используются компоненты дисперсии, полученные на стадии G-анализа. Как уже говорилось, компонент дисперсии, связанный с основным эффектом индивидуальных различий (target effect), представляет собой тот самый сигнал, который пытается обнаружить доктор Джонсон. Компонент дисперсии, связанный с эффектом остатков, - это шум, который может вносить искажения в сигнал. Чтобы получить коэффициент генерализуемости (ρ2) для какого-то конкретного исследовательского дизайна, необходимо вычислить отношение соответствующих компонентов дисперсии, взвешенное количеством пунктов в данном исследовательском дизайне.

. (12.1)

В данном уравнении – относительный коэффициент генерализуемости индивидуальных различий респондентов, – оценка компонента дисперсии, связанного с эффектом индивидуальных различий, – оценка компонента дисперсии, связанного с остатком, – количество пунктов теста. Так, доктор Джонсон может использовать компоненты дисперсии, вычисленные на стадии G-анализа (см. Таблицу 12.2), для оценки относительного коэффициента генерализуемости своего трехпунктового теста на агрессивность:

,

,

.

Относительно большая величина этого коэффициента (более 0.80) означает, что трехпунктовый дизайн измерения агрессивности, вероятно, обладает достаточно высокой генерализуемостью результатов. Фактически, коэффициент генерализуемости индивидуальных различий респондентов в однокомпонентном дизайне точно равен соответствующему коэффициенту «альфа» (в чем можно убедиться, вычислив коэффициент «альфа» для данных, приведенных в Таблице 12.1).

Таблица 12.4. Коэффициенты генерализуемости, вычисленные с использованием компонентов дисперсии

Пункты ( )

1

2

3

4

5

6

7

Коэффициент

Относительный ( )

0.69

0.82

0.87

0.90

0.92

0.93

0.94

Абсолютный ( )

0.61

0.76

0.82

0.86

0.89

0.90

0.92

Хотя исследовательский дизайн с тремя пунктами обладает весьма высокой генерализуемостью, доктор Джонсон могла бы захотеть оценить потенциальную генерализуемость других дизайнов, включающих большее или меньшее количество пунктов. В Таблице 12.4 представлены относительные коэффициенты генерализуемости, вычисленные для разного количества пунктов. К примеру, относительный коэффициент генерализуемости для исследования с двумя пунктами равен

,

,

.

Результаты D-анализа для примера доктора Джонсон приведены в Таблице 12.4 и на Рисунке 12.1. Как видим, с добавлением новых пунктов генерализуемость возрастает, однако после третьего или четвертого пункта этот рост замедляется. На основе таких результатов доктор Джонсон могла бы заключить, что дизайн с тремя пунктами обеспечивает ее исследованию адекватное психометрическое качество. Кроме того, она могла бы решить, что потенциальные психометрические выгоды от добавления четвертого или пятого пунктов не стоят тех дополнительных усилий и временных затрат наблюдателя, которыми это будет сопровождаться.

Рисунок 12.1. Однокомпонентный дизайн: относительные коэффициенты генерализуемости как функция количества пунктов

В целом данный пример показывает, как можно применять G-теорию к однокомпонентным исследовательским дизайнам. Надеемся, этот пример передал общий смысл, логику и значение теории генерализуемости, а также показал, какого рода данные могут быть получены в результате ее использования. Пример с однокомпонентным исследовательским дизайном рассматривался с целью иллюстрации некоторых наиболее фундаментальных аспектов G-теории в относительно простом контексте. Кроме того, было показано, что в однокомпонентных исследовательских дизайнах G-теория эквивалентна классической теории тестов. Тем не менее, данный пример не передает истинных возможностей теории генерализуемости. Как обсуждалось ранее, ключевое различие между G-теорией и классической теорией тестов заключается в том, что G-теория может оценивать множественные компоненты ошибки измерения. Рассмотрим это соображение на следующем примере.

ПРОВЕДЕНИЕ И ИНТЕРПРЕТАЦИЯ АНАЛИЗА ГЕНЕРАЛИЗУЕМОСТИ: ДВУХКОМПОНЕНТНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ДИЗАЙН

Способность анализировать несколько компонентов измерительного дизайна одновременно делает теорию генерализуемости весьма полезной альтернативой классической теории тестов. Многие измерительные дизайны предполагают несколько компонентов (аспектов) измерения, и различные компоненты измерения могут по-разному влиять на его общее психометрическое качество. G-теория способна уловить эти различия.

Например, улучшенный исследовательский дизайн доктора Джонсон задействует нескольких наблюдателей, оценивающих поведение испытуемых по нескольким пунктам. По сравнению с предыдущим данный исследовательский план более совершенен, т.к. у одного наблюдателя может оказаться достаточно уникальный способ восприятия и интерпретации поведения испытуемых. Фактически, описанный выше однокомпонентный исследовательский дизайн ограничен, поскольку включает в себя лишь одного наблюдателя, Дорис. Хотя в рассмотренном выше примере и было показано, что оценки Дорис характеризуются высокой генерализуемостью, может оказаться так, что Дорис – необычно восприимчивый и добросовестный наблюдатель. У доктора Джонсон могут быть подозрения о том, что оценки других наблюдателей обладали бы куда более низким психометрическим качеством. С другой стороны, если Дорис не сможет продолжать работать на доктора Джонсон на основном этапе исследования, придется нанимать других наблюдателей. В какой степени результаты анализа генерализуемости оценок Дорис (см. выше) могут быть распространены на других наблюдателей? Задав себе все эти вопросы, доктор Джонсон наняла еще двух наблюдателей и попросила их оценить поведение тех же пяти испытуемых по тем же трем пунктам агрессивности.

Таблица 12.5. Гипотетические данные для двухкомпонентного дизайна в рамках теории генерализуемости: оценки пяти респондентов тремя наблюдателями по трем пунктам

Участник

Кен

Дорис

Тим

Среднее

Враждебный

Злой

Недоброжелательный

Враждебный

Злой

Недоброжелательный

Враждебный

Злой

Недоброжелательный

Энн

2

2

2

3

3

3

3

5

1

2.67

Боб

1

3

2

1

1

2

4

5

3

2.44

Кэролин

2

3

3

3

3

4

5

7

3

3.67

Дрю

5

8

6

3

5

5

7

7

6

5.78

Элеанор

8

7

9

3

7

6

4

7

9

6.67

В Таблице 12.5 представлены гипотетические данные, которые доктор Джонсон могла бы получить в такого рода исследовании. В данном измерительном дизайне пять испытуемых оцениваются тремя наблюдателями по трем пунктам. Каждый испытуемый оценивался по каждому из пунктов, при этом использовалась шкала от 1 до 10, где более высокие баллы означают более высокий уровень агрессивности. Как и в прошлый раз, доктор Джонсон планирует вычислить средний балл агрессивности для каждого из респондентов; как и в прошлый раз, она надеется, что индивидуальные различия респондентов по среднему баллу агрессивности будут генерализуемыми.

Улучшенный дизайн включает в себя два компонента измерения – пункты и наблюдатели. Таким образом, доктор Джонсон надеется достичь генерализуемости по двум «универсумам». Как и в однокомпонентном исследовательском дизайне, она рассчитывает на то, что баллы, полученные с использованием трех пунктов, будут генерализуемы на баллы, которые могли бы быть получены при использовании всех возможных пунктов на измерение агрессивности. Кроме того, она надеется, что баллы, полученные с использованием трех наблюдателей, будут генерализуемы на тот гипотетический случай, когда поведение испытуемых оценивается огромным количеством наблюдателей. Другими словами, доктор Джонсон рассчитывает на то, что средние баллы агрессивности респондентов будут генерализуемы как на «универсум» пунктов, так и на «универсум» наблюдателей.

Анализ многокомпонентного исследовательского дизайна во многом напоминает анализ однокомпонентного. Сперва проводится G-анализ, в котором для каждого из эффектов вычисляются соответствующие компоненты дисперсии. В многокомпонентых дизайнах, как и в однокомпонентных, для вычисления компонентов дисперсии, как правило, используется ANOVA. Затем проводится D-анализ, в котором вычисляются коэффициенты генерализуемости для различных модификаций использованного измерительного дизайна. В многокомпонентых исследовательских дизайнах коэффициенты генерализуемости также оцениваются через отношение сигнала к шуму, что выражается соотношением соответствующих компонентов дисперсии.

Несмотря на все эти сходства, между однокомпонентными и многокомпонентыми измерительными дизайнами существует и одно важное различие. Это различие касается сложности тех компонентов дисперсии, которые вносят вклад в общую вариативность данных. Добавление в исследовательский дизайн одного дополнительного компонента (аспекта) измерения приводит к необходимости вычисления нескольких дополнительных компонентов дисперсии. Вспомните, что в однокомпонентном дизайне доктора Джонсон вычислялись три компонента дисперсии – дисперсия респондентов, пунктов и остатка. Двухкомпонентый дизайн будет включать в себя 7 компонентов дисперсии, трехкомпонентный дизайн – уже 16, и так далее. Эти дополнительные компоненты создают дополнительный «шум» и вносят вклад в усложнение ошибки измерения. В данной части главы в качестве иллюстрации общей логики анализа более сложных дизайнов будет рассмотрен двухкомпонентый исследовательский дизайн.

Стадия 1: G-анализ

Как и в предыдущем случае, для вычисления компонентов дисперсии для каждого из факторов, оказывающих влияние на оценки агрессивности, используется дисперсионный анализ ANOVA. Результаты анализа ANOVA, оценивающие вариативность в 45 оценках агрессивности, полученных доктором Джонсон, представлены в Таблице 12.6. Исследователь заинтересована в том, насколько данные оценки подвержены влиянию трех основных эффектов (индивидуальные различия респондентов, различия наблюдателей, различия пунктов), взаимодействия этих трех эффектов, а также случайной ошибки измерения. В Таблице 12.7 приведены уравнения, по которым вычисляются компоненты дисперсии для этого исследовательского дизайна. В Таблице 12.6 приведены абсолютные значения компонентов дисперсии, а также доля объяснимой дисперсии для каждого из рассматриваемых эффектов.

Результаты показывают относительный вклад каждого из эффектов в оценку агрессивности, а в Таблице 12.8 для каждого из эффектов приведена интерпретация и пояснение на примере. Для оценки относительной генерализуемости использованной процедуры кодирования агрессивности в поведении респондентов наибольший интерес представляют четыре эффекта: один из них является «сигналом», который необходимо обнаружить, остальные три вносят вклад в искажающий этот сигнал шум. Для упрощения понимания этих эффектов в Таблице 12.9 приведены средние арифметические значения по каждому из них.

Таблица 12.6. Гипотетические данные по наблюдению за поведением испытуемых: результаты дисперсионного анализа ANOVA и анализа генерализуемости

Эффект

df

Сумма квадратов

Среднеквадратичное отклонение

Компонент дисперсии

% дисперсии

Индивидуальные различия респондентов (target)

4

128.533

32.133

3.233

0.544

Пункты

2

12.044

6.022

0.289

0.049

Наблюдатели

2

19.244

9.622

0.439

0.074

Респонденты х Пункты

8

12.400

1.550

0.044

0.007

Респонденты х Наблюдатели

8

23.200

2.900

0.494

0.083

Пункты х Наблюдатели

4

6.222

1.556

0.028

0.005

Остаток

16

22.667

1.417

1.4170

0.238

Всего

44

224.311

5.944

1.000

Таблица 12.7. Уравнения оценки компонентов дисперсии в исследовательском дизайне «респонденты х наблюдатели х пункты»

Эффект

Уравнение

Индивидуальные различия респондентов (target)

Пункты

Наблюдатели

Респонденты х Пункты

Респонденты х Наблюдатели

Пункты х Наблюдатели

Остаток

Наибольший интерес, как и прежде, представляет основной эффект индивидуальных различий респондентов. Как сказано в Таблице 12.8, данный эффект отражает степень различий респондентов по баллам агрессивности, усредненным по всем пунктам и по всем наблюдателям. В данном случае эти различия варьируются от 2.44 до 6.67 (см. Таблицу 12.9). Как показано в Таблице 12.6, абсолютное значение компонента дисперсии, связанного с этим основным эффектом, наивысшее из всех:

,

,

,

.

Фактически, индивидуальные различия между респондентами объясняют более 50 % общего разброса данных, что означает довольно высокую силу сигнала. Для доктора Джонсон, как и в предыдущем случае, это хорошая новость, так как она заинтересована в обнаружении и измерении различий между респондентами. Коэффициенты генерализуемости, которые будут вычисляться на следующей стадии анализа, покажут, насколько данные индивидуальные различия респондентов устойчивы для разных пунктов и разных наблюдателей.

Таблица 12.8. Содержательные интерпретации и примеры различных эффектов, выявляемых при анализе генерализуемости

Эффект

Интерпретация (степень того, насколько…)

Пример

Респонденты

Различны баллы респондентов, усредненные по семи наблюдателям и двум пунктам

У респондента X средняя оценка выше, чем у респондента Y

Пункты

Различны значения пунктов, усредненные по 60 респондентам и семи наблюдателям

Средняя оценка по пункту 1 выше, чем средняя оценка по пункту 2

Наблюдатели

Различны средние оценки наблюдателей, усредненные по 60 респондентам и двум пунктам

Наблюдатель A в среднем ставит более высокие оценки, чем наблюдатель B

Респонденты х Пунктыa

Различно ранжирование респондентов по разным пунктам (при усреднении по наблюдателям)

По пункту 1 респондента X оценили выше, чем респондента Y; однако по пункту 2 респондента Y оценили выше, чем респондента X

Респонденты х Наблюдателиa

Различно ранжирование респондентов у разных наблюдателей (при усреднении по двум пунктам)

Наблюдатель A оценивает респондента X выше, чем респондента Y; однако наблюдатель B оценивает респондента Y выше, чем респондента X

Пункты х Наблюдатели

Различно ранжирование пунктов у разных наблюдателей (при усреднении по респондентам)

Наблюдатель A имеет тенденцию по пункту 1 ставить более высокие оценки, чем по пункту 2; наблюдатель B имеет тенденцию по пункту 2 ставить более высокие оценки, чем по пункту 1

Остатокa

Вариативность оценок, не связанная ни с одним из предыдущих эффектов

Примечание: а. Эти эффекты при вычислении относительного коэффициента генерализуемости считаются вносящими вклад в ошибку измерения

С точки зрения способности исследователя обнаруживать индивидуальные различия между респондентами, ошибка измерения (т.е. шум) включает в себя три эффекта. Все они включены в числитель формулы, вычисляющей компонент дисперсии для основного эффекта индивидуальных различий респондентов (MSti, MSto, MSres), и все они повлияют на коэффициент генерализуемости данного эффекта. Взаимодействие эффектов «респонденты х пункты» отражает степень рассогласованности в порядковом ранжировании респондентов по различным пунктам. Высокий показатель по взаимодействию данных двух эффектов будет означать, что пункты для разных респондентов работают по-разному, а это может исказить истинные индивидуальные различия между респондентами. Другими словами, высокий показатель взаимодействия «респонденты х пункты» будет означать, что индивидуальные различия респондентов, выявляемые различными пунктами, не согласуются друг с другом. Как видно по Таблице 12.6, взаимодействие «респонденты х пункты» в исследовании доктора Джонсон достаточно невелико (оно объясняет менее 1 % общего разброса данных), это же отражено и в средних арифметических значениях в Таблице 12.9. Заметьте, например, что по всем трем пунктам Дрю набирает более высокие баллы, нежели Кэролин. Средний (т.е. усредненный по всем трем наблюдателям) балл по пункту «враждебность» у Дрю на 2 выше, чем аналогичный балл у Кэролин (5 – 3 = 2), баллы по пунктам «злой» и «недоброжелательный» у Дрю на 2.34 выше, чем у Кэролин. Таким образом, разница между Дрю и Кэролин достаточно устойчива по всем трем пунктам. Другими словами, индивидуальные различия респондентов, похоже, генерализуемы по пунктам, и доктор Джонсон заключает, что небольшое взаимодействие эффектов «респонденты х пункты» создает незначительное количество «шума».

Второй источник ошибки в рассматриваемом примере – взаимодействие «респонденты х наблюдатели», которое отражает степень рассогласованности в порядковом ранжировании респондентов по оценкам различных наблюдателей. Средние значения, иллюстрирующие этот эффект, приведены в Таблице 12.9. Заметьте, к примеру, что три наблюдателя не согласны друг с другом в своих суждениях по поводу различий между Бобом и Энн. Дорис воспринимает Энн как более агрессивную по сравнению с Бобом, Кен не усматривает между этими двумя респондентами никакой разницы, а Тиму кажется, что Боб агрессивнее. В частности, средняя оценка агрессивности, которую Дорис выставляет Энн, составляет 3.00 (усреднено по всем трем пунктам агрессивности), а средняя оценка, которую она выставляет Бобу – 1.33. В противоположность этому, средняя оценка Кена и для Энн, и для Боба составляет 2.00. Тим выставляет Энн 3.00 балла, а Бобу – 4.00. Поскольку целью доктора Джонсон является обнаружение индивидуальных различий между респондентами, такая рассогласованность между различными наблюдателями представляет собой проблему. Повторимся, что изначальной целью данного исследования было получение четкой и последовательной процедуры измерения различий респондентов по показателю агрессивности, т.е. получение генерализуемых оценок индивидуальных различий по агрессивности. Исходя из данного соображения очевидно, что взаимодействие эффектов «респонденты х наблюдатели» вносит вклад в ошибку измерения. Высокая выраженность данного эффекта означает, что ранжирование респондентов по агрессивности различно у разных наблюдателей, т.е. не является генерализуемым по наблюдателям. Как показано в Таблице 12.6, взаимодействие эффектов «респонденты х наблюдатели» объясняет приблизительно 8 % общей вариативности данных.

Третий источник ошибки отражен в эффекте остатка, который объединяет в себе два элемента, вносящих в измерение шум. Поскольку для каждого наблюдателя по каждому пункту (и в каждой ситуации) наблюдатели присуждали респонденту только одну оценку, отделить взаимодействие трех факторов «респонденты х наблюдатели х пункты» от чисто «ошибочной» дисперсии невозможно. Оба этих элемента будут считать случайной ошибкой измерения, т.к. они вносят вклад в неоднозначность/рассогласованность ранжирования респондентов у разных наблюдателей и по разным пунктам. Как показано в Таблице 12.6, к остаточной дисперсии относится 24 % общей вариативности данных.

Для более целостного понимания может оказаться полезным рассмотреть оставшиеся три эффекта. Данные эффекты не считаются ошибкой измерения, поскольку они не нарушают порядковое ранжирование респондентов. Основной эффект «наблюдатели» показывает, насколько средние оценки одних наблюдателей отличаются от средних оценок других наблюдателей, т.е. насколько наблюдатели отличаются друг от друга в своей тенденции воспринимать людей в целом как более или менее агрессивных. Как показано в Таблице 12.9, средние оценки наблюдателей (усредненные по респондентам и пунктам) варьируются от 3.5 до 5.1. Так, Дорис по сравнению с Тимом в целом воспринимает людей как менее агрессивных. Тот факт, что наблюдатели отличаются друг от друга в своих средних оценках агрессивности, никак не связан с тем, согласованны ли они друг с другом в терминах расположения респондентов относительно друг друга в порядке возрастания/убывания агрессивности. Таким образом, в отношении способности доктора Джонсон обнаруживать индивидуальные различия респондентов основной эффект «наблюдатели» не рассматривается как шум или ошибка. Заметьте, что рассмотренное выше взаимодействие эффектов «респонденты х наблюдатели» как раз выражает степень рассогласованности индивидуальных различий между респондентами по оценкам разных наблюдателей (что вносит вклад в ошибку измерения), но данное взаимодействие и статистически, и концептуально отделено от тенденции одних наблюдателей в целом, в среднем оценивать респондентов выше, чем другие наблюдатели.

Таблица 12.9. Средние арифметические значения оценок поведения респондентов

Основные эффекты

Респондент

Среднее

Наблюдатель

Среднее

Пункт

Среднее

Энн

2.67

Кен

4.20

Враждебный

3.60

Боб

2.44

Дорис

3.50

Злой

4.87

Кэролин

3.67

Тим

5.10

Недоброжелательный

4.27

Дрю

5.78

Элеанор

6.67

Взаимодействия

Респонденты х Наблюдатели

Респонденты х Пункты

Наблюдатели х Пункты

Кен

Дорис

Тим

Враждебный

Злой

Недоброжелательный

Враждебный

Злой

Недоброжелательный

Энн

2.00

3.00

3.00

Энн

3.00

3.33

2.00

Кен

3.60

4.60

4.40

Боб

2.00

1.33

4.00

Боб

2.00

3.00

2.33

Дорис

2.60

3.80

4.00

Кэролин

2.67

3.33

5.00

Кэролин

3.00

4.33

3.33

Тим

4.60

6.20

4.40

Дрю

6.33

4.33

6.67

Дрю

5.00

6.67

5.67

Элеанор

8.00

5.33

6.67

Элеанор

5.00

7.00

8.00

Как было описано в предыдущем примере, основной эффект «пункты» отражает степень различий в средних оценках по разным пунктам. Как показано в Таблице 12.9, средние оценки по пунктам (усредненные по всем респондентам и наблюдателям) варьируются от 3.6 до 4.9. И снова тот факт, что по одним пунктам респонденты оцениваются выше, чем по другим, никак не связан с тем, насколько согласованно работают пункты в отношении порядкового ранжирования респондентов. Таким образом, в отношении способности доктора Джонсон обнаруживать индивидуальные различия между респондентами, данный эффект в ошибку измерения вклада не вносит.

Наконец, взаимодействие эффектов «пункты х наблюдатели» означает то, насколько наблюдатели отличались друг от друга по ранжированию средних оценок по пунктам (усредненных по всем респондентам). Заметьте, что средняя оценка Дорис по пункту «злой» (3.80) ниже, чем ее средняя оценка по пункту «недоброжелательный» (4.00), в то время как у Кена средняя оценка по пункту «злой» (4.60) выше средней оценки по пункту «недоброжелательный» (4.40; см. Таблицу 12.9). Хотя Дорис и Кен, похоже, в целом использовали данные пункты по-разному, эта разница не должна оказать влияния на выявление индивидуальных различий респондентов. Таким образом, в терминах способности доктора Джонсон получать четкие и согласованные порядковые ранги респондентов взаимодействие эффектов «пункты х наблюдатели» не является ошибкой измерения.

Дифференциация компонентов ошибки измерения, проводимая в рамках G-теории, позволяет доктору Джонсон исследовать то, в какой степени итоговые баллы агрессивности респондентов (т.е. оценка индивидуальных различий респондентов по агрессивности) подвержены влиянию различных компонентов процедуры измерения – наблюдателей и пунктов. Затем она может использовать значения компонентов дисперсии (см. Таблицу 12.6) для принятия решений по поводу количества наблюдателей и количества пунктов, которые наиболее оптимально использовать в будущих исследованиях.

Стадия 2: D-анализ

Как говорилось в предыдущем примере (для однокомпонентного исследовательского дизайна), относительный коэффициент генерализуемости аналогичен надежности в классической теории тестов. Оно может быть рассмотрен как соотношение сигнала и шума:

Коэффициент генерализуемости =

Единственная разница между однокомпонентным и двухкомпонентным дизайном – состав шума. Формула относительного коэффициента генерализуемости для определенной стратегии измерения такова:

. (12.2)

В данном уравнении – относительный коэффициент генерализуемости индивидуальных различий респондентов, – собственное число компонента дисперсии для основного эффекта индивидуальных различий респондентов, – собственное число компонента дисперсии для взаимодействия эффектов «респонденты х пункты», – собственное число компонента дисперсии для взаимодействия эффектов «респонденты х наблюдатели», – собственное число компонента дисперсии для эффекта остатка, – рассматриваемое количество пунктов, – рассматриваемое количество наблюдателей. Например, доктор Джонсон может использовать компоненты дисперсии для оценки генерализуемости исследовательской стратегии с двумя наблюдателями и одним пунктом:

,

,

.

Это означает, что она, вероятно, получит умеренный уровень генерализуемости, однако не мешало бы рассмотреть возможность увеличения количества пунктов и/или наблюдателей. Например, коэффициент генерализуемости для исследовательской стратегии с двумя наблюдателями и двумя пунктами составит приблизительно 0.84:

,

,

.

Уравнение 12.2 выражает ключевое преимущество теории генерализуемости перед классической теорией тестов. С позиций классической теории, где ошибка измерения не дифференцируется на компоненты, не существует возможности отдельной оценки эффектов наблюдателей и пунктов на качество измерения, следовательно, не существует и возможности оценить различные комбинации количества пунктов и количества наблюдателей. С другой стороны, G-теория (т.е. Уравнение 12.2 и оценка компонентов дисперсии) позволяет доктору Джонсон оценить психометрическое качество различных комбинаций пунктов и наблюдателей. Систематически тестируя разные комбинации количества пунктов и количества наблюдателей, она может оценить генерализуемость различных измерительных дизайнов. Данная информация, наряду с информацией о практической пользе и потенциальной стоимости дополнительных пунктов и/или наблюдателей, поможет ей оптимизировать качество и эффективность диагностического исследования.

Таблица 12.10. Коэффициенты генерализуемости, вычисленные с использованием компонентов дисперсии

Пункты ( ):

1

1

1

3

3

3

5

5

5

7

7

7

Наблюдатели ( ):

1

3

5

1

3

5

1

3

5

1

3

5

Коэффициент

Относительный ( )

0.62

0.83

0.88

0.77

0.91

0.94

0.80

0.92

0.95

0.82

0.93

0.96

Абсолютный ( )

0.54

0.74

0.80

0.68

0.85

0.89

0.71

0.87

0.91

0.73

0.88

0.92

Рисунок 12.2. Двухкомпонентный дизайн: относительные коэффициенты генерализуемости как функция количества пунктов и количества наблюдателей

В Таблице 12.10 и на Рисунке 12.2 представлены коэффициенты генерализуемости для различных комбинаций наблюдателей и пунктов. Эти коэффициенты были получены с использованием Формулы 12.2 и значений компонентов дисперсии из Таблицы 12.6. Представленные данные иллюстрируют два важных момента. Во-первых, доктор Джонсон может найти такие комбинации наблюдателей и пунктов, которые будут характеризоваться некоторым конкретным значением надежности. Например, оценка надежности в 0.80 может быть достигнута при нескольких таких комбинациях. Три наблюдателя и один пункт, один наблюдатель и пять пунктов, два наблюдателя и два пункта – все эти комбинации приведут к получению коэффициента надежности как минимум 0.80. Таким образом, если доктор Джонсон рассчитывает на надежность в 0.80 или выше, она может взвесить все преимущества и недостатки использования каждой из данных трех комбинаций. Во-вторых, доктор Джонсон может определить те точки, в которых увеличение количества наблюдателей и/или пунктов больше не приводит к существенному возрастанию надежности. Например, рассмотрим возрастание надежности измерения при переходе от трех наблюдателей к пяти. График, представленный на Рисунке 12.2, показывает, что это возрастание относительно невелико, особенно если принять во внимание потенциальную стоимость увеличения количества наблюдателей (которых нужно нанимать, обучать, контролировать и т.д.). Такого рода информация может оказаться весьма полезной при планировании эффективных стратегий сбора эмпирических данных о поведении респондентов.

ДРУГИЕ ИЗМЕРИТЕЛЬНЫЕ ДИЗАЙНЫ

Примеры, рассмотренные в этой главе, коснулись однокомпонентного и двухкомпонентного измерительного дизайнов, однако сфера применения G-теории включает в себя большое разнообразие ситуаций и стратегий измерения, и в литературе было описано множество вариаций в областях практического применения этой теории. Существуют как минимум четыре позиции, по которым могут отличаться друг от друга способы применения G-теории. Эти отличия основаны на дизайне диагностической стратегии и предполагаемом способе использования тестовых баллов.

Количество компонентов измерения

Как было показано в рассмотренных нами примерах, исследовательские дизайны могут различаться по количеству использованных в них компонентов измерения. Однокомпонентные дизайны весьма широко распространены во многих областях науки и практики. Например, типичный самооценочный опросник личности представляет собой однокомпонентный измерительный дизайн, в котором единственным компонентом измерения являются пункты. Кроме того, в некоторых из однокомпонентых измерительных дизайнов G-теория эквивалента классической теории тестов. Тем не менее, по ряду теоретических и прикладных причин может понадобиться применение многокомпонентного дизайна. Как было показано в рассмотренных примерах, доктор Джонсон имела практические причины для того, чтобы включить в измерительный дизайн два компонента, пункты и наблюдателей. Измерительные стратегии могут быть и более сложными, т.е. включать более двух или трех компонентов.

Как показано в данной главе, количество компонентов измерения определяет количество основных эффектов и их взаимодействий при анализе генерализуемости. Более крупные и сложные дизайны предполагают большее количество эффектов и, следовательно, компонентов дисперсии. Компоненты дисперсии несут в себе важную информацию о тех факторах, которые оказывают влияние на оценку респондентов. Они используются для вычисления коэффициентов генерализуемости. В остальном же основная логика и процедура анализа генерализуемости для дизайнов с различным количеством компонентов измерения одинакова.

Рандомизированные и фиксированные компоненты измерения

В G-теории каждый из компонентов измерения рассматривается либо как рандомизированный, либо как фиксированный. Это довольное тонкое различие, и решение об отнесении каждого из компонентов измерения к тому или иному типу принимается исследователем. До сих пор изложенное в данной главе относилось к рандомизированным компонентам измерения, наиболее распространенным в большинстве областей применения G-теории. Рассмотрим компонент «пункты» в двухкомпонентном измерительном дизайне доктора Джонсон. Как уже говорилось, доктор Джонсон рассматривала три использованных пункта как репрезентативную выборку из большого «универсума» пунктов, которые могли бы быть выбраны для такого рода исследования. В каком-то смысле данные три пункта представляют собой рандомизированную выборку. Таким образом, доктор Джонсон не имела бы ничего против замены этих трех пунктов тремя другими (например, протестный, антагонистичный, вспыльчивый). Поскольку доктор Джонсон рассматривает пункты как заменимые, как случайную выборку из большого «универсума» пунктов, данный компонент измерения в ее исследовательском дизайне является рандомизированным.

Другие измерительные дизайны могут включать в себя фиксированные компоненты измерения. Компонент измерения считается фиксированным в том случае, когда исследователь не хочет обобщать результаты за пределы тех нескольких уровней данного компонента, которые включены в анализ. Кроме того, компонент измерения считается фиксированным, если в анализ включены все возможные уровни этого компонента. Например, психолог, занимающийся проблемами развития, может задумать измерение детской агрессивности путем предоставления опросника обоим биологическим родителям. В данном случае «биологический родитель» будет одним из компонентов измерения, и психолога может интересовать генерализуемость результатов измерения на обоих родителей. Тем не менее, мать и отец исчерпывают весь «универсум» биологических родителей, и генерализуемость за эти пределы просто немыслима. Поскольку в исследование включены оба (т.е. все) варианта, можно сказать, что в данном измерительном дизайне представлен весь «универсум» биологических родителей, и данный компонент измерения является фиксированным.

Исследователь, проводящий анализ генерализуемости, должен отнести к рандомизированным либо фиксированным все компоненты измерения. Для многокомпонентных дизайнов возможен смешанный случай, при котором некоторые компоненты измерения являются рандомизированными, а некоторые – фиксированными. К примеру, психолог, изучающий агрессивность ребенка по оценкам родителей, может использовать смешанный двухкомпонентный дизайн. Компонент измерения «биологический родитель», вероятнее всего, будет отнесен к фиксированным. Тем не менее, если каждый из родителей оценивал ребенка по набору трех пунктов, представляющих собой случайную выборку из возможного «универсума» пунктов на агрессивность, тогда компонент измерения «пункты» будет являться рандомизированным. Поскольку один из компонентов измерения рандомизирован, а другой фиксирован, данный психолог использует смешанный измерительный дизайн.

Несмотря на несколько тонкое различие между рандомизированными и фиксированными компонентами измерения, это отличие может иметь важные последствия как для проводимых анализов, так и для психометрических результатов. Описание данных проблем выходит за пределы этой книги, однако читателю необходимо осознавать разграничение между рандомизированными и фиксированными компонентами измерения, смысл этого разграничения, а также помнить о том, что это разграничение имеет важные практические последствия в плане количества и величины компонентов дисперсии, которые могут подвергаться вычислению.

Перекрестные и вложенные дизайны (кроссинг и нестинг)

При анализе генерализуемости в многокомпонентных дизайнах каждая пара компонентов измерения может являться перекрестной или вложенной. Это важная характеристика исследовательского дизайна как в G-теории, так и в дисперсионном анализе ANOVA, т.к. она влияет на вычисления основных эффектов и их взаимодействий. В рассмотренном выше примере однокомпонентого дизайна содержалось два перекрестных эффекта (что довольно распространено). В данном примере каждый из трех наблюдателей оценивал поведение респондентов по каждому из трех пунктов. Таким образом, оценка производилась по всем возможным комбинациям компонента «пункты» и компонента «наблюдатели». Компоненты измерения называются перекрестными, если сбор данных осуществляется по всем возможным комбинациям значений этих компонентов.

В противоположность этому, во вложенных дизайнах в исследование включается не каждая такая комбинация. Например, доктор Джонсон могла бы провести исследование, в котором каждый из наблюдателей использовал бы разные пункты – Дорис использовала бы пункты «вредный» и «злой», Кен – пункты «враждебный» и «воинственный», а Тим – «протестный» и «антагонистичный». В данном случае используются шесть пунктов, но каждый из наблюдателей оценивает респондента лишь по двум. Таким образом, в дизайне не представлены все возможные комбинации пунктов и наблюдателей, и могли бы сказать, что пункты (как компонент измерения) «вложены» в наблюдателей.

Проблема перекрестных и вложенных дизайнов важна, так как она определяет, какие эффекты будут вычисляться при анализе генерализуемости. Например, в описанном ранее двухкомпонентном дизайне с перекрестными компонентами измерения могут быть вычислены семь эффектов – три основных, три взаимодействия и остаток. Если бы пункты были «вложены» в наблюдателей, можно было бы вычислить лишь пять эффектов. Данная разница в измерительных дизайнах приводит к разным способам вычисления коэффициентов генерализуемости и, следовательно, к разным заключениям по результатам анализов. К сожалению, полное раскрытие данного вопроса выходит за пределы этой книги, однако следует помнить, что важно осознавать различие между перекрестными и вложенными дизайнами, а также тот факт, что это различие может оказывать влияние на специфику психометрического исследования в рамках G-теории.

Относительные и абсолютные решения

Как уже упоминалось, G-теория может использоваться для принятия двух типов решений. В рассмотренных примерах использовались лишь «относительные» решения, при которых важным является порядок респондентов относительно друг друга. Если почетное общество принимает в свои ряды 15 % лучших (по какому-либо показателю) студентов, интерес представляет порядковое ранжирование студентов, а решения принимаются на основе расположения баллов, полученных студентами, в порядке возрастания/убывания. Когда тесты используются для принятия относительных решений, они зачастую называются тестами, «ориентированными на норму» (R.L. Brennan, 2001).

В противоположность этому, «абсолютные» решения принимаются на основе самого тестового балла, полученного респондентом. Так, желающие попасть в армию США проходят тестирование по Батарее тестов на профориентацию в службе в вооруженных силах (ASVAB, Armed Services Vocational Aptitude Battery), которая описывается как инструмент диагностики «знаний и способностей в десяти различных областях, от математики до электроники. Это не тест интеллекта, однако ASVAB является одним из способов помочь вам принять решение относительно того, какие области работы в армии лучше всего подойдут именно вам» (http://www.goarmy.com/contact/how_to_join.jsp). На вербовочном Интернет-сайте армии США потенциальным новобранцам говорится, что «для рассмотрения вашей кандидатуры вам необходимо набрать по крайней мере 31 балл». Предположительно, балл ниже отметки в 31 дисквалифицирует новобранца, а при бале 31 или выше респондент попадает в список кандидатов на службу в армии. Таким образом, армия принимает решение частично на основе тестового балла рекрута по батарее тестов ASVAB, а не на основе процента граждан страны, которых необходимо взять в армию. Когда тесты используются для принятия абсолютных решений, они называются тестами, «ориентированными на критерий» (R.L. Brennan, 2001).

Разница между абсолютными и относительными решениями важна, т.к. она влияет на способ представления «шума» или ошибки измерения. Это различие оказывает влияние на количество компонентов дисперсии, которые вносят вклад в ошибку измерения при вычислении коэффициентов генерализуемости. В целом при относительных решениях ошибка измерения состоит из меньшего количества компонентов дисперсии, чем при абсолютных решениях, следовательно, при относительных решениях имеется тенденция получения более высоких коэффициентов генерализуемости.

В рассмотренном выше примере с однокомпонентным измерительным дизайном абсолютная дисперсия ошибки (т.е. дисперсия ошибки для абсолютного решения) включает в себя на один элемент больше, нежели относительная дисперсия ошибки (т.е. дисперсия ошибки для относительного решения). Говоря конкретнее, коэффициент генерализуемости для абсолютных решений (φ2, иногда называемый индексом зависимости (dependability)) в данном примере составляет

.

Заметьте, что данное уравнение включает в себя компонент дисперсии для основного эффекта пунктов, которого не было в коэффициенте генерализуемости для относительных решений (см. Формулу 12.1). Для измерительной стратегии с использованием трех пунктов абсолютный коэффициент генерализуемости составляет 0.823:

,

,

.

Данный коэффициент несколько ниже того, который вычислялся ранее для относительных решений ( = 0.87). Последняя строка в Таблице 12.4 содержит абсолютные коэффициенты генерализуемости для разного количества пунктов.

В описанном выше двухкомпонентном измерительном дизайне абсолютная дисперсия ошибки включала бы в себя три дополнительных элемента (по сравнению с относительной дисперсией ошибки). Конкретнее, коэффициент генерализуемости для абсолютных решений в двухкомпонентном дизайне составляет:

.

Заметьте, что в данное уравнение входят компоненты дисперсии для основного эффекта пунктов, основного эффекта наблюдателей и для взаимодействия эффектов «наблюдатели х пункты». Ни один из этих эффектов не использовался при вычислении коэффициента генерализуемости для относительных решений (см. Формулу 12.2). Для исследовательской стратегии, основанной на использовании трех пунктов и трех наблюдателей, коэффициент генерализуемости для абсолютных решений составляет 0.76:

,

,

.

Данный коэффициент несколько ниже, чем соответствующее значение для относительных решений ( = 0.84). Последняя строка в Таблице 12.10 содержит абсолютные коэффициенты генерализуемости для разного количества пунктов в примере с двухкомпонентным измерительным дизайном.

В целом разница между относительными и абсолютными решениями может иметь важные последствия для величины коэффициентов генерализуемости. По-разному определяя ошибку измерения, исследователь в этих двух случаях включает в состав ошибки различные компоненты дисперсии, что, в свою очередь, приводит к получению различных коэффициентов генерализуемости. Не вдаваясь подробно в причины существования данных различий или в точные уравнения, которые используются в данных двух случаях, важно помнить, что такие различия существуют, и что абсолютные решения обычно сопровождаются большей ошибкой измерения и меньшей генерализуемостью.

РЕЗЮМЕ

Теория генерализуемости расширяет традиционные взгляды на психометрическое качество тестирования по крайней мере по двум направлениям. Во-первых, теоретическое понимание надежности расширяется и включает в себя возможность того, что на качество измерения влияют сразу несколько его аспектов или компонентов. Во-вторых, в данной теории предлагаются статистические процедуры, направленные на вычисление эффектов каждого из компонентов измерения и планирование качественных и эффективных измерительных стратегий.

В данной главе рассматривалась общая логика наиболее основополагающего измерительного дизайна: относительные решения на основе перекрестных рандомизированных компонентов измерения. Тем не менее, кратко были освещены и другие дизайны, их концептуальная логика, вычисление и интерпретация в рамках теории генерализуемости. В целом можно утверждать, что теория генерализуемости представляет собой гибкий и эффективный психометрический подход, расширяющий классическую теорию тестов (CTT) в нескольких немаловажных аспектах.

РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА

Классическая работа по теории генерализуемости:

Cronbach, L. J., Gleser, G. C., Nanda, H., & Rajaratnam, N. (1972). The dependability of behavioral measurements: Theory of generalizability for scores and profiles. New York: John Wiley.

L. Cronbach, выдающийся исследователь в области психометрики, подготовил комментарии по поводу теории надежности и широко распространенного коэффициента надежности «альфа» почти через 50 лет после публикации этой теории. Данные комментарии, как и аргументация точки зрения о том, что теория генерализуемости предоставляет более разносторонний взгляд на проблему надежности, приведены в работе:

Cronbach, L. J., & Shavelson, R. J. (2004). My current thoughts on coefficient alpha and successor procedures. Educational and Psychological Measurement, 64, 391-418.

Довольно техническое, но весьма понятное и глубокое обсуждение теории генерализуемости:

Brennan, R. L. (2001). Generalizability theory. New York: Springer-Verlag.

Широко используемое введение в теорию генерализуемости:

Shavelson, R. J., & Webb, N. M. (1991). Generalizability theory: A primer. Newbury Park, CA: Sage.