Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
БИБЛИОТЕКА ПРАКТИЧЕСКОЙ ПСИХОЛОГИИ.doc
Скачиваний:
10
Добавлен:
09.08.2019
Размер:
2.57 Mб
Скачать

12 Школьных системах по 6 старшим классам для 5 уровней

выполнения (А, В, С, , Р) задания и на самых различных испытуемых.

Учителя и классы отбирались в случайном порядке. В качестве

предварительных данных использовались результаты самой первой из

регулярных контрольных работ, проводившихся в каждом классе.

Решение о том, писать свои замечания или нет, учитель принимал в

зависимости от результатов бросания особым образом размеченной

игральной кости. Следующая по расписанию контрольная работа

выполняла роль итогового тестирования. Насколько можно было

заключить из дальнейших бесед, ни один из 2139 учеников не знал о

проведении эксперимента. Лишь немногие школьные процедуры

поддаются такой не вызывающей подозрения рандомизации, так как в

классе обычно применяется устная речь, которая адресуется сразу всему

классу, а не отдельным ученикам. (Письменное общение обеспечивает

возможность рандомизации учеников по различным эксперимен-

тальным воздействиям, хотя остается проблемой, что ученики могут

обнаружить варьирование воздействия.) Тем не менее, имея в виду

сказанное выше, исследователи смогут предупреждать нежелательные

реакции испытуемых на эксперимент в большей мере, чем в настоящее

время.

84 Дональд кэмпбелл

Проверка значимости эффекта в плаве 4

Хороший экспериментальный план независим от способа

статистической обработки результатов. Планирование эксперимента

представляет собой искусство получения поддающихся интерпретации

сравнений и как таковое необходимо и тогда, когда конечные

результаты выражаются в виде процентных диаграмм, параллельного

описания случаев, фотографий испытуемых, занятых выполнением

задания, и т. д. Возможность истолкования результатов во всех этих

случаях зависит от контроля рассмотренных нами факторов валид-

ности. Если сравнение поддается интерпретации, мы обращаемся к

статистической проверке значимости, позволяющей установить,

превышает ли наблюдавшееся различие уровень случайных флюкту-

ации, которых можно ожидать для выборок данного объема при

отсутствии подлинного различия. Применение этой статистической

процедуры предполагает, но не доказывает и не гарантирует

сопоставимости сравниваемых групп или возможности истолковать

обнаруженное различие.

Нам хотелось бы научить строить план эксперимента на основе

здравого смысла и соображений нематематического характера.

Надеемся, что большая часть этой книги доступна исследователям, не

прошедшим курса подготовки в области математической статистики.

Но поскольку вопрос статистической обработки данных тесно связан с

планированием эксперимента, мы выскажем некоторые соображения

по этому поводу. (См. также Сгееп, ТиЬеу [45], Ка15ег [56], МиппаИу

[86], КогеЬоот [96]) 1.

Распространенные ошибки статистической обработки. Хотя

план 4 является стандартным и широко распространенным, даже в

этом случае часто применяются неправильные, неполные или не соот-

ветствующие задаче статистические процедуры. Применяя обычный

критерий Стьюдента ((-критерий), многие подсчитывают два зна-

См. также работы по планированию эксперимента и процедурам проверки

статистической значимости: Хикс Ч. Основные принципы планирования

эксперимента. М., <Мир>, 1967; Г лас с Дж.,Стэнли Дж. Статистические методы

в педагогике и психологии. М., <Прогресс>, 1976. - Прим. ред.

85

чения I: одно - для различия в показателях предварительного и

итогового тестирования по экспериментальной группе, а другое - для

аналогичных результатов по контрольной группе. Если первое

значение статистически значимо, а второе нет, то делается вывод о

наличии эффекта Х без прямого статистического сравнения экспери-

ментальной и контролькой групп. Во многих таких случаях

пр1 менение более адекватного критерия не обнаружило бы значимого

различия между группами (например, когда значение (-критерия чуть

выше критического в экспериментальной и почти достигает его в

контрольной группе). Уиндл [135] и Кантор [18] показали, насколько

распространена эта ошибка.

Использование приращений и ковариационный анализ.

Наиболее широко используемая и приемлемая процедура состоит в

определении для каждой группы приращения показателей от

предварительного тестирования к конечному и вычислении (-критерия

для приращений, наблюдавшихся в экспериментальной и контрольной

группах. В большинстве случаев, однако, следует предпочесть

ковариационный анализ, в котором показатели предварительного

тестирования берутся в качестве сопутствующих переменных и

которому предшествует процедура формирования рандомизированных

блоков или <распределение по уровням> показателей предвари-

тельного тестирования. Использование этого более точного анализа

представляется весьма желательным. По сравнению с трудом,

затраченным на проведение эксперимента, усилия, связанные с

надлежащим анализом, просто ничтожны. Детали обработки можно

найти в стандартных примерах анализа данных по Фишеру. (См.

также Сох [27, 28], Ре1а1 [35], ЬпшзС [68]).

Статистики для рандомизированного распределения целых

групп по режимам эксперимента. Обычные статистики применимы

только тогда, когда назначение определенного режима производится в

случайном порядке для каждого ученика в отдельности. Когда же

режим определяется сразу для целого класса, ошибка, вычисленная

согласно этим моделям, будет занижена, так как при рандомизации

использовались более крупные единицы и выборка наблюдений

содержала меньшее число случайных событий. Линдквист [68, с. 172-

86 Дональд КЭМПБЕЛЛ

189] предложил обоснование и формулы анализа, адекватного данной

ситуации. В качестве исходных данных здесь используются средние

значения класса, и эффект Х должен быть выделен из колебаний именно

этих величин. Они же должны фигурировать в роли сопутствующих

переменных при проведении ковариационного анализа.

Статистики достижения внутренней валидности. Первые

три пункта этого параграфа выражают ортодоксальную для статис-

тиков установку в отношении планирования эксперимента. В данном

разделе делается попытка расширить или скорректировать эту

установку, при этом различение внешней и внутренней валидности

распространяется на сферу статистики выборочного исследования. Все

обсуждавшиеся выше статистики предполагают выборки из бесконечно

большой популяции, что больше соответствует изучению общест-

венного мнения, чем обычному лабораторному эксперименту. Лишь в

редких случаях (как, например, в работе Пейджа [87]) выборки

действительно берутся из большой, заранее определенной популяции,

что делает пригодными обычные формулы. Диаметрально противопо-

ложны этому лабораторные эксперименты, описываемые, скажем, в

<}оигпа1 ог Ехрептеп1а1 Р5усЬо1оу>, в которых принимается во

внимание только внутренняя валидность и в которых все члены

уникальной малой популяции входят в экспериментальные и

контрольные группы. В таких экспериментах большое значение

придается рандомизации, но не в целях обеспечения репрезента-

тивности в отношении более широкой популяции. Вместо этого

рандомизация служит единственной цели уравнивания экспери-

ментальной и контрольной групп. Таким образом, рандомизация

проводится в пределах весьма малой конечной популяции, которая,

собственно говоря, есть сумма экспериментальных и контрольных

групп.

Эта крайняя позиция в вопросе формирования выборки

оправданна применительно к лабораторным процедурам такого типа:

приглашаются добровольцы за вознаграждение - за деньги, за

оценки, за зачетные очки по данному курсу - или без него, в порядке

выполнения обязательных требований, которые рано или поздно все

равно пришлось бы выполнить. Эти добровольцы в случайном

87

порядке распределяются по группам, которые по-разному участвуют в

эксперименте. Как только обследовано определенное число испы-

туемых, эксперимент прекращается. Отсутствует даже случайный отбор

из гораздо более длинного списка добровольцев. Первые добровольцы

образуют смещенную выборку, а вся популяция, из которой комплек-

туется выборка, меняется изо дня в день, и требуется все больше

усичй, чтобы набрать новых добровольцев, и т. д. В какой-то момент,

когда все члены популяции уже использованы в том или ином режиме,

процедуру прекращают. Отметим, что смещенность выборок здесь

никак не влияет на случайную эквивалентность групп, а сказывается

лишь на их репрезентативности.

В целом очевидно, что главная цель рандомизации в лабора-

торном эксперименте - это внутренняя, а не внешняя валидность.

В связи с этим следует пользоваться меньшими значениями ошибки,

отвечающими меньшим популяциям. Вслед за Кемпторном [59], а

также Уилком и Кемпторном [132] мы считаем, что данной задаче

соответствует не извлечение случайных выборок из какой-то

бесконечной популяции, а модель урновой рандомизации. В данном

случае возможна более подходящая, более точная непараметрическая

модель, согласно которой берутся полученные показатели экспери-

ментальной и контрольной групп и многократно распределяются в

случайном порядке по двум <урнам>. При этом эмпирически (или

математически) генерируется распределение средних различий,

возникающее целиком за счет случайного расклада этих конкретных

показателей. Это распределение является критерием, с которым

следует сравнивать фактически полученную разность групповых

средних. Когда имеет место взаимодействие между испытуемыми и

режимами эксперимента, это распределение характеризуется меньшей

дисперсией, чем соответствующее распределение Стьюдента.

Мы не ожидаем, что приведенные выше замечания коренным

образом изменят повседневную практику применения критерия

значимости в педагогических исследованиях. Точные решения очень

трудоемки и обычно недостижимы. Урновая рандомизация, например,

требует наличия быстродействующих ЭВМ. Но направление ошибки

известно: традиционные статистические методы слишком консерва-

88 Дональд КЭМПБЕЛЛ

тивны, слишком склоняют нас к ответу: <Никакого эффекта нет>. Раз

мы находим, что наши публикации перегружены <ошибками первого

рода>, то есть констатациями эффектов, не подтверждаемых перекрест-

ной валидизацией (это бесспорно в отношении экспериментальной и

социальной психологии, и даже исследования обучения), то подобная

ошибка вполне оправданна. Наибольшая недооценка значимости

может иметь место, когда сравниваются всего два вида экспери-

ментальных условий, причем используются все имеющиеся в

распоряжении испытуемые (УИЬ, Кетр1Ьогпе [132, с. 1154]).

5. План Соломона для четырех групп

Хотя план 4 используется чаще, чем план 5, предложенный

Соломоном [104], заслуженно обладает большим признанием и

является первой попыткой эксплицитно учитывать факторы внешней

валидности. Этот план имеет следующий вид:

К О, Х Ог

К Оз 04

К Х Оз

К Об.

Путем параллельного использования элементов плана 4

(0 -"04), когда предварительное тестирование не проводится ни в

экспериментальной, ни в контрольной группах, может быть определен

не только главный эффект тестирования, но и его взаимодействие с X.

Тем самым расширяются возможности обобщения результатов и,

кроме того, эффект Х воспроизводится четырьмя различными

способами: Ог > О], Ог > 04; Оз > Об и Оз > Оз. Ввиду

нестабильности экспериментальных условий, если все эти четыре

соотношения выполняются, то правомерность вывода значительно

возрастает. Обобщению экспериментальных результатов косвенно

способствует и то, что применение плана 5 в какой-либо определенной

области позволяет выяснить общую вероятность взаимодействия

тестирования и X, благодаря чему облегчается интерпретация данных,

полученных в прошлых и будущих экспериментах по плану 4. Точно

89

так же сравнение 0(, с 0 и Оз позволяет выявить комбинированный

эффект естественного развития и фона.

Статистические модели для плана 5

Единой статистической процедуры, в которой бы одновременно

использовались результаты всех шести наблюдений, не существует.

Асимметрия этого плана исключает дисперсионный анализ прира-

щений. (Предложения Соломона на этот счет неприемлемы.) Не

обращая внимания на предварительные тестирования (отводя им роль

лишь дополнительного параметра воздействия X), можно обработать

данные итогового тестирования согласно простой схеме 2х2

дисперсионного анализа:

Средние по столбцам позволяют оценить главный эффект X, средние

по строкам - главный эффект предварительного тестирования, а средние

по ячейкам - взаимодействие этих двух факторов. Если главный эффект

предварительного тестирования и эффект взаимодействия настолько малы,

что ими можно пренебречь, желательно провести ковариационный анализ

0 и О, используя результаты предварительного тестирования в

качестве сопутствующей переменной.

6. План с применением контрольной группы

и тестирования, осуществляемого

только после воздействия

Хотя идея предварительного тестирования глубоко проникла в

сознание исследователей, работающих в области педагогики и

психологии, оно не является неотъемлемой частью истинного экспери-

90

Дональд КЭМПБЕЛ.Л

мента. По причинам психологического порядка трудно отказаться от

того, чтобы удостовериться в <равенстве> экспериментальной и

контрольной групп до введения дифференцированного режима

эксперимента. Тем не менее наиболее адекватной во всех отношениях

гарантией отсутствия изначального смещения между группами

является рандомизация. В рамках доверительных пределов, устанав-

ливаемых статистической моделью, рандомизации достаточно и без

предварительного тестирования. Фактически почти все агробио-

логические эксперименты, выдержанные в традициях работ Фишера

[37, 38], выполнены без предварительного тестирования. Проводя

педагогические исследования, особенно в младших классах, часто

приходится испытывать методы изложения ученикам совершенно

нового учебного материала, и в этой обстановке предварительное

тестирование в обычном смысле слова невозможно. Точно так же при

исследовании влияния доводов адвокатов на решение присяжных

неуместно определять априорные оценки виновности или невиновности

подсудимого. Схема 6 годится для этих случаев, а также для тех, в

которых можно было бы применить планы 4 и 5, позволяющие

производить подлинную рандомизацию. Вот как выглядит план 6:

К Х О,

К Ог.

Хотя этот план применялся еще в 20-х годах, он не рекоменду-

ется большинством руководств по методам исследования в педагогике.

Причина этого отчасти в неумении отличить его от плана 3, а отчасти в

недоверии к рандомизации как средству уравнивания. Этот план

представляет собой как бы половину плана Соломона, и, как нетрудно

видеть, в нем контролируется как главный эффект тестирования, так и

его взаимодействие с X, но в отличие от плана 5 они не измеряются.

Однако такое измерение несущественно для решения центрального

вопроса о наличии эффекта X. Таким образом, хотя план 5

предпочтительнее плана 6 по упомянутым причинам, выигрыш от плана

5 может не стоить большого труда, затрачиваемого на его реализацию.

Аналогично план 6 обычно лучше плана 4, если только нет оснований

сомневаться в подлинности рандомизации. Эксперимент типа 6

слишком редко применяется в педагогике и психологии.

91

Если, как это часто бывает при проведении педагогических

исследований, доступны данные, полученные до введения X, ими,

разумеется, следует воспользоваться для формирования блоков,

определения факторных уровней или как сопутствующими перемен-

ными. Этот совет основан на двух соображениях. Во-первых,

статистические модели, соответствующие плану 4, обладают большей

моц-ностью, чем те, которые применимы для плана 6. Хотя

значительные усилия, необходимые для реализации плана 4, в

большинстве ситуаций делают подобный выигрыш неоправданным,

положение меняется, когда нужные исходные показатели <лежат на

поверхности>. Во-вторых, доступность таких показателей позволяет

проверить наличие взаимодействия Х с начальным уровнем и тем

самым составить более полное представление о возможности

обобщения результатов. Правда, нечто подобное может быть выпол-

нено и в рамках плана 6, если вместо предварительного тестирования

воспользоваться другими имеющимися данными. Кроме того, для

генеральной совокупности, на которую предполагается распространять

выводы педагогического исследования, характерно частое тестиро-

вание. Последние два обстоятельства могут изменить ситуацию, делая

план 6 предпочтительнее плана 4. Отметим также, что при заметном

выбывании испытуемых между К и итоговым тестированием исходные

данные в плане 4 обеспечивают больше возможностей для отклонения

гипотезы о влиянии на эффект неравномерности выбывания из

экспериментальной и контрольной групп.

Как бы то ни было, существует ряд проблем, применительно к

которым предварительное тестирование невозможно, неуместно или

легко провоцирует нежелательную реакцию испытуемых; для иссле-

дования этих проблем более приемлем план 6. Кроме упомянутого

ранее изучения способов подачи нового учебного материала, можно

привести много примеров, когда: 1) Х и итоговое тестирование О могут

быть предъявлены учащимся или группам естественным образом в

единой композиции и 2) предварительное тестирование нельзя

провести должным образом. Такие ситуации часто возникают при

исследовании самой процедуры тестирования - например, при

сравнении эффективности различных инструкций, бланков для