Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
598
Добавлен:
03.03.2016
Размер:
2.8 Mб
Скачать

2.2 Подготовительный и исследовательский этапы разработки педагогического теста

Этап III – подготовительный

На подготовительном этапе осуществляется непосредственная подготовка всего материала, из которого будет состоять тест. На этом этапе решаются такие задачи, как: составление тестовых заданий, в том числе инструкций к ним, экспертиза тестовых заданий, построение выборки для апробации заданий и теста и компоновка заданий для апробации.

О составлении тестовых заданий мы подробно говорили в параграфах 1.3 и 1.4. Мы рассмотрели, из каких элементов должно состоять тестовое задание, какие типы и виды тестовых заданий выделяют, кроме того задания каких типов и видов обязательно использовать при разработке тестов в системе психологической подготовки МЧС России, а какие желательно. Вместе с тем мы определили каким образом необходимо формулировать тестовые задания того или иного вида и как располагать тестовые задания в бланке.

Далее следует сказать о том, какая работа должна производиться с тестовыми заданиями после того, как они составлены.

После того, как тестовые задания будут подготовлены, следует провести содержательную экспертизу тестовых заданий. Содержательная экспертиза тестовых заданий предполагает проверку тестовых заданий на предмет их соответствия требованиям, предъявляемым к формулировке тестовых заданий.

Кроме содержательной экспертизы тестовых заданий, необходима и тестологическая экспертиза, в которой должны проверяться соответствие содержания задания выбранному типу и виду тестового задания, правильность пространственного и логического расположения элементов заданий и другие элементы задания, которые не относятся к содержанию предмета [5, с. 147].

В качестве экспертов для проведения содержательной и тестологической экспертизы педагогических тестов, разрабатываемых в системе психологической подготовки МЧС России, могут выступать только психологи НИО ПП и ПК ФКУ ЦЭПП МЧС России. Это обусловлено тем, что психологи НИО ПП и ПК прошли соответствующее обучение и имеют подтверждающее это сертификаты.

Следующей задачей, которая решается на подготовительном этапе, является построение выборки для апробации заданий и тестов.

Выборкой называется любая подгруппа элементов, в нашем случае подгруппа респондентов, отбираемая из генеральной совокупности для проведения исследования [7, с. 20]. Генеральной совокупностью в свою очередь называется всё множество объектов, в отношении которого формулируется исследовательская гипотеза и на которое соответственно планируется распространение результатов тестирования [7, с. 19]. Например, апробация педагогического теста, предназначенного для его использования на всех спасателях международного класса России, проводится на выборке спасателей международного класса, отбираемой из генеральной совокупности спасателей международного класса России с учетом прдставленности в ней всех основных признаков генеральной совокупности спасателей международного класса.

Проблема построения выборки для апробации тестовых заданий, тестов, для получения норм является чрезвычайно важной. От того, насколько качественно построена выборка, зависит корректность расчетов трудности и дискриминативности заданий, надежности и валидности. Кроме того, на основе работы с выборками строится система оценивания, перевода тестовых баллов в стандартные и шкальные оценки.

При формировании выборки следует учитывать два важных фактора: репрезентативность выборки и её объем.

Выборка должна точно отражать категорию лиц (генеральную совокупность), для которых предназначен тест (может быть несколько таких категорий и, следовательно, несколько выборок или же одна большая выборка).

Качество выборки, позволяющее распространить полученные на ней выводы, на всю генеральную совокупность называется репрезентативностью. Репрезентативная выборка – это выборка, в которой все основные признаки генеральной совокупности представлены приблизительно с той же частотой и в той же пропорции, с которой данный признак выступает в генеральной совокупности [7, с. 20]. Иначе говоря, репрезентативная выборка представляет собой меньшую по размеру, но точную модель той генеральной совокупности, которую она должна отражать. В той степени, в какой выборка является репрезентативной, выводы, основанные на изучении этой выборки можно считать применимыми ко всей генеральной совокупности. С точки зрения статистики репрезентативность выборки означает, что представленное в выборке распределение изучаемых признаков соответствует (с определенной долей погрешности) их распределению в генеральной совокупности [4, с. 34].

Например, для того, чтобы наша выборка спасателей международного класса была репрезентативной, нам необходимо учитывать такие характеристики входящих в неё респондентов, как пол, возраст, стаж работы, уровень образования, дата предыдущей аттестации.

Репрезентативность выборки можно обеспечить с помощью двух приемов.

Во-первых, это простой случайный (рандомизированный) отбор. Он предполагает обеспечение таких условий, при которых каждый член генеральной совокупности имеет равные с другими шансы попасть в выборку. Случайный отбор обеспечивает возможность попадания в выборку самых разных представителей генеральной совокупности.

Во-вторых, это стратифицированный случайный отбор, или отбор по свойствам генеральной совокупности. Он предполагает предварительное определение тех качеств, которые могут влиять на изменчивость изучаемого свойства (это может быть пол, стаж работы, уровень образования и т.п.). Затем определяется процентное соотношение численности различающихся по этим качествам групп (страт) в генеральной совокупности и обеспечивается идентичное процентное соотношение соответствующих групп в выборке. Далее в каждую подгруппу выборки респонденты отбираются по принципу простого случайного отбора [4, с. 34].

Проверить репрезентативность выборочного распределения по отношению к генеральной совокупности можно, проанализировав кривую нормальности распределения. Самый легкий метод проверки нормальности эмпирического распределения основывается на универсальном критерии Колмогорова. Если проверка согласованности эмпирического распределения с нормальным дает положительные результаты, то это означает, что полученное распределение можно рассматривать как репрезентативное по отношению к генеральной совокупности и, следовательно, на его основе можно определить репрезентативные тестовые нормы. Если проверка не выявляет нормальности на требуемом уровне, то это означает, что либо выборка мала и нерепрезентативна к популяции, либо измеряемое свойство и устройство теста (способ подсчета) вообще не дают нормального распределения [2, с. 91-92].

Таким образом, вместе с задачей обеспечения репрезентативности выборки должна решаться задача о том, каков должен быть объем выборки. Существует несколько факторов, от которых может зависеть объем выборки.

Во-первых, это задачи исследования. Например, психолог может изучать единичные случаи, если они по каким-либо причинам представляют особый интерес для науки. В частности так строится работа с одаренными детьми, каждый из которых, как правило, имеет свои неповторимые особенности. Если специалист ставит своей целью изучение характеристик, присущих многим представителям генеральной совокупности, то необходимо позаботиться о достаточном объеме выборке. Больший объем выборки позволяет получить более надежные результаты.

Во-вторых, это степень однородности изучаемого явления. Как правило, чем более однородно изучаемое явление, тем меньше может быть объем выборки. Например, нам необходимо изучить уровень знаний у спасателей международного класса, общая численность которых по всей России составляет 257 человек. Подобная группа представляет собой достаточно однородную совокупность, поэтому выборка может быть сравнительно небольшой.

В-третьих, это статистические методы, которые предполагается использовать. Одни методы требуют большого количества респондентов в выборке, другие могут применяться при относительно небольшом количестве человек. Например, некоторые непараметрические критерии различий могут использоваться при сравнении групп численностью в 5-7 человек, в то время факторный анализ следует использовать, если объем выборки составляет около 100 человек [4, с. 35].

Следует отметить, что для целей тестирования большее значение имеет репрезентативность выборки, нежели её объем. Маленькая, но репрезентативная выборка будет предпочтительнее, нежели большая, но неравномерно представленная.

Однако если на основе получаемых в результате апробации данных планируется определение норм, то проведение расчетов объемов выборки должно быть максимально строгим. Если же предполагается критериально-ориентированное оценивание, то оно требует меньшей точности.

Последней задачей, решаемой в рамках подготовительного этапа разработки педагогического теста, является компоновка заданий для апробации.

Прежде чем переходить к процедуре апробации тестовых заданий, необходимо их упорядочить. Это довольно несложная операция, выполнение которой, в случае наличия достаточного количества сведений, не представляет особой трудности. Так, при объединении заданий следует сделать следующее:

1. Не комплектовать вместе такое количество тестовых заданий, на выполнение которого у среднего обучающегося из числа профессиональных контингентов МЧС России уйдет времени больше, чем это прописано в требованиях к проведению педагогического тестирования в системе психологической подготовки МЧС России.

2. Проверить выполнение требований к пространственному и шрифтовому оформлению тестовых заданий.

3. Подготовить все необходимые инструкции.

4. Проверить выделены ли особым шрифтом (подчеркнуты) важные части инструкции.

5. Размножить бланки с тестовыми заданиями и подготовить необходимое оснащение [5, с. 150-151].

Этап IV – исследовательский

Исследовательский этап занимает центральное место в процессе разработки теста. Он достаточно объемен по содержанию и, как правило, занимает немало времени. На этом этапе исследуются статистические характеристики отдельных тестовых заданий, определяются показатели качества теста в целом.

На исследовательском этапе решаются такие задачи, как: апробация тестовых заданий, определение и расчет показателей качества тестовых заданий, отбраковка заданий и составление теста, апробация теста, определение и расчет показателей качества теста, составление окончательного варианта теста.

Апробация тестовых заданий. Другими названиями являются: пробное тестирование, предварительное тестирование, претестирование, испытание, эмпирическая проверка, специальная апробация.

Апробация тестовых заданий имеет несколько целей:

  1. Определение трудности заданий с целью оценки их пригодности для тестируемых.

  2. Определение тех заданий, в которых есть существенные недостатки.

  3. Выявление случайных ошибок (опечаток, недостатков орфографии, пунктуации и т.д.).

  4. Определение времени, необходимого на решение задания или всего теста целиком.

  5. Выявление недостатков в инструкциях.

  6. Анализ ответов на задания открытого типа, в том случае, если они используются, с целью возможного уточнения формулировки правильных ответов или оценочной схемы [5, с. 152].

Для апробации используются пробные версии теста, подготовленные на предыдущем этапе. Эти пробные версии предлагаются пилотажным выборкам, которые по качественному составу должны соответствовать планируемому контингенту тестируемых.

Таким образом, на стадии апробации тестовых заданий, прежде всего, проводится анализ первичных статистик по каждому пункту. В первую очередь анализируются такие показатели, как трудность тестового задания и дискриминативность.

Однако следует отметить, что статистические расчеты характеристик тестовых заданий проводятся с целью выявления заданий, в которых есть недостатки, но не являются самоцелью процедуры апробации.

Определение и расчет показателей качества тестовых заданий.

Основными показателями качества тестовых заданий являются трудность и дискриминативность.

Трудность задания является важнейшей характеристикой, в некоторых случаях определяющей место задания в тесте. Трудность может быть субъективной и статистической.

Субъективная трудность задания связана с индивидуально-психологическим барьером. В психологии величина этого барьера определяется различными факторами, основными из которых являются:

1. Условия выполнения теста (время, отведенное на выполнение теста; понятность инструкции и т.п.).

2. Степень сформированности необходимых для ответа знаний;

3. Функциональное состояние обучающегося и т.д.

Для снижения влияния перечисленных факторов при тестировании определяется стандартная форма процедуры проведения.

В большинстве случаев для тестов достижений достаточно учитывать только правильность решения задания и меньше внимания уделять способу решения, характеру затруднений, энергетическим затратам обучающегося. В связи с этим определяется и используется статистическая трудность заданий.

Статистическая трудность определяется долями выборки выполнивших и не выполнивших задание обучающихся.

Самым простым вариантом, представляющим трудность задания в цифровой форме, является количество обучающихся, справившихся с заданием. Например, при апробации теста на выборке из 250 человек с первым заданием справились 50, а со вторым 150 человек. Соответственно можно сказать, что первое задание более трудное, чем второе.

Однако такая форма представления имеет два существенных недостатка. Нам всегда придется указывать количество респондентов, участвовавших в апробации. Данная форма представления неудобна для сравнения заданий, которые апробировались на разных по объему выборках.

Лучшей формой является доля обучающихся справившихся с заданием. Исходя из нашего примера, доля справившихся с первым заданием – 20%, а доля справившихся со вторым заданием 60%.

Этим вариантом представления трудности задания можно пользоваться в реальной практике, однако у него также есть недостаток. Увеличение значения этого показателя указывает не на увеличение трудности, а, наоборот, на ее уменьшение. То есть для нашего примера: задание с трудностью 60% менее трудное, чем задание в 20%. Поэтому было предложено использовать для обозначения трудности обратную величину, то есть долю тех, кто с заданием не справился. Этот показатель получил название индекса трудности, который может быть найден как величина, обратная трудности:

Для нашего примера:

U1 = 100-Р1=100-20=80%

U2 = 100- Р2= 100-60=40%

где: P1- это доля справившихся с первым заданием

P2 – это доля справившихся со вторым заданием.

или с использованием формулы:

U = 100 (1 – n/N), где:

U – индекс трудности в процентах

n – число обучающихся, справившихся с заданием

N – общее число обучающихся, принявших участие в апробации.

Для нашего примера:

U1= 100 (1 – 50/250) = 100 (1 – 0,2) = 80%

U2 = 100 (1 – 150/250) = 100 (1 – 0,6) = 40%

Вычисления трудности заданий в любом случае достаточно просты, поскольку они отражают ту долю респондентов, которые справились (или не справились) с тестовым заданием.

Например, если задание решили только 20% тестируемых, то его можно оценить как трудное для данной выборки, если 80% — как легкое. При этом значимым является только факт выполнения или не выполнения задания.

Статистическая трудность позволяет определить место задания в тесте. Так, если задание решает большинство респондентов, то его, как легкое, помещают в начале. В том случае, когда с заданием справляется незначительный процент респондентов, то его, как трудное, помещают в конце теста. Итогом распределения заданий по степени их трудности должна стать «лестница» усложняющихся заданий, каждая ступень которой представлена процентом респондентов, выполнивших соответствующее задание [5, с. 154-156].

В связи с тем, что тестовые бланки в системе психологической подготовки МЧС России конструируются автоматически с помощью АИС «Психолог», у нас, к сожалению, нет возможности располагать задания в бланках в зависимости от уровня их сложности. Однако показатели трудности заданий для нас все же важны, поскольку задания, с которыми справляются все обучающиеся или не справляется никто, являются не информативными, так как за первые из них все респонденты получают по 1 баллу, а за вторые – никто не получает баллов. Эти задания играют роль балласта. Так, для нормативно-ориентированных тестов, в том случае, если индекс трудности задания меньше 20 и больше 80, его необходимо переработать или исключить из теста.

Педагогический смысл и значение трудности тестовых заданий состоит в следующем:

1. Трудность задания является относительной характеристикой, поскольку зависит от особенностей выборки и может меняться от выборки к выборке. Указание уровня трудности задания без указания контингента лиц, для которого эта трудность установлена, не имеет смысла.

2. Основным назначением трудности заданий, является определение заданий, которые не подходят для использования по причинам излишней простоты или сложности, и определение места задания в тесте. Вопрос о включении или не включении заданий в тест по причинам излишней простоты или трудности должен решаться не автоматически, а с учетом таких обстоятельств, как: цели тестирования, содержательная важность задания, возможность переформулирования задания в более простое или более сложное.

3. Апробация должна охватывать все категории лиц, которые могут принять участие в тестировании, уровень, количество простых и сложных заданий в тесте должны соответствовать возможному разбросу в подготовленности того контингента респондентов, для которого тест предназначен. Тесты должны использоваться только для той категории лиц, для которой они создавались.

4. Трудность задания может зависеть не только от содержания учебного материала, которым наполнено задание, но и от выбранной формы задания, его формулировки.

5. Трудность является фундаментальным свойством не только задания, но и теста целиком. Он может состоять из простых заданий или из сложных. Поэтому нет никакого педагогического смысла в словах о том, что обучающийся справился с 80 процентами заданий в тесте или он выполнил только 5 заданий из 40, до тех пор, пока не становится ясным сложность тех заданий, из которых составлен данный тест [5, с. 157-158].

Еще одним показателем качества тестовых заданий является дискриминативность (дифференцирующая способность) тестовых заданий. Дискриминативность - это возможность заданий разделять обучающихся, имеющих высокий индивидуальный балл по тесту, от обучающихся, имеющих низкий индивидуальный балл, или респондентов с высокой продуктивностью учебной деятельности от респондентов с низкой продуктивностью [5, с. 13].

Так как основной целью нормативно-ориентированных педагогических тестов является разделение обучающихся по уровню знаний, то соответственно дискриминативность каждого из заданий является важной характеристикой качества теста.

Поясним понятие дискриминативности на примере. Представим себе, что мы провели тестирование группы обучающихся. В составе этой группы были отличники, хорошисты и двоечники.

Логично предположить, что отличники должны справиться с тестом лучше, чем двоечники. Но выясняется, что с одним из заданий и двоечники, и отличники справились одинаково успешно или неуспешно. В чем может быть причина такого нелогичного явления? Оказывается, что это бывает только в том случае, когда задание обладает существенными недостатками. Типичными недостатками низкодискриминативных заданий являются:

1. Излишняя сложность, запутанность формулировки.

2. Неоднозначность инструкции.

3. Очевидность решения.

4. Абсурдность, нереальность вариантов ответов.

5. Появление двух и более правильных ответов, не оговоренное в инструкции.

Действительно, в том случае, если задания обладают перечисленными недостатками, вероятность того, что с ними одинаково справятся (или не справятся) как отличники, так и двоечники довольно высока. Таким образом, определение дискриминативности необходимо для того, чтобы поставить заслон некачественным заданиям [5, с. 161-162].

Самый простой и наглядный способ вычисления дискриминативности — вычисление с применением метода крайних групп, т.е. при расчете учитываются результаты обучающихся наиболее и наименее успешно справившихся со всем тестом.

Как правило, берут от 10 до 30% (чаще 27%, исходя из статистических соображений) лучших и худших по результатам выполнения всего теста.

Индекс дискриминации задания вычисляется как разность долей испытуемых из высокопродуктивной и низкопродуктивной групп, правильно выполнивших задание.

D = (Nпверх/Nверх) – (Nпниз/Nниз)

Nпверх- количество обучающихся в группе лучших, верно выполнивших данное задание

Nпниз- количество обучающихся в группе худших, верно выполнивших данное задание

Nверх -общее количество респондентов в группе лучших

Nниз- общее количество респондентов в группе худших

Например: На группе из 200 обучающихся была проведена апробация. Для определения дискриминативности мы должны ранжировать обучающихся по оценке выполнения всего теста. После этого отобрать группу лучших обучающихся (27%) в количестве 54 человек и группу худших обучающихся в том же количестве.

После этого нам необходимо найти, как справились с заданием обучающиеся, отобранные в лучшую группу и обучающиеся, отобранные в худшую группу. Предположим, что с первым заданием у нас справились 50 обучающихся из первой группы и 25 обучающихся из второй. А со вторым заданием 30 обучающихся первой группы и 25 обучающихся второй группы.

Тогда для первого задания:

D= 50/54 –25/54 = 0,93 – 0,46 = 0,47

Для второго задания:

D = 30/54 – 25/54 = 0,56 – 0,46 = 0,10

Индекс дискриминации может изменяться в пределах от +1 (когда с заданием справились все обучающиеся лучшей группы и ни один обучающийся из худшей группы) до -1 (когда складывается обратная ситуация — в лучшей группе никто не справился, а в худшей справились все).

Задания с отрицательным значением индекса дискриминации или со значением, близким к нулю, не могут быть признаны удовлетворительными, и в них следует искать существенные ошибки. Такие задания должны быть переформулированы или исключены из теста.

Показатель индекса дискриминации больший 0,3, следует признать удовлетворительным [5, с. 164-165].

Существуют и другие способы определения дискриминативности заданий. Они основаны на нахождении различных коэффициентов корреляции.

Для определения коэффициента корреляции необходимо наличие двух рядов цифр. Один из них представляет собой результаты выполнения респондентами данного задания, а другой результаты выполнения всего теста [5, с. 166].

Поясним, что коэффициентом корреляции называется количественная мера силы и направления вероятностной взаимосвязи двух переменных. Коэффициент корреляции принимает значения в диапазоне от - 1 до + 1.

Сила связи достигает максимума при условии взаимно однозначного соответствия: когда каждому значению одной переменной соответствует только одно значение другой переменной (и наоборот), эмпирическая взаимосвязь при этом совпадает с функциональной линейной связью. Показателем силы связи является абсолютная (без учета знака) величина коэффициента корреляции.

Направление связи определяется прямым или обратным соотношением значений двух переменных: если возрастанию значений одной переменной соответствует возрастание значений другой переменной, то взаимосвязь называется прямой (положительной). Если возрастанию значений одной переменной соответствует убывание значений другой переменной, то взаимосвязь является обратной (отрицательной). Показателем направления связи является знак коэффициента корреляции [7, с. 67].

Наиболее часто используются коэффициенты корреляции: точечно-бисериальный (в двух модификациях — когда корреляция находится между результатами выполнения задания и результатами выполнения всего теста, и в случае, когда определяется корреляция между заданием и всеми остальными заданиями (за исключением данного). Естественно, что первый показатель будет выше, поскольку он содержит корреляцию задания самого с собой.

Могут быть использованы коэффициент корреляции Пирсона или его модификации, вычисление дискриминативности по формуле Фергюсона.

На самом деле большинство из этих показателей дает примерно одинаковый результат. Вместе с тем, даже произведя вычисления наиболее простого показателя — индекса дискриминации, возможно получение на его основе трудности заданий и точечно-бисериального коэффициента корреляции, пользуясь специально созданными для этого таблицами Фэна.

Для заданий закрытого типа, особенно заданий множественного выбора, кроме анализа собственно правильных ответов, представляется чрезвычайно полезным нахождение коэффициентов корреляции по всем дистракторам. Коэффициенты корреляции по ним должны быть или отрицательны или близки к нулю, что даст возможность проведения более полного анализа заданий [5, с. 166-167].

Следует отметить, что коэффициенты корреляции зависят от выборки. Зависимость от выборки означает, что задания дадут более низкие индексы при предварительном тестировании группы, содержащей, как и очень способных, так и очень слабых по подготовке обучающихся, и более высокие в том случае, когда группа будет однородной. Отсюда вытекает необходимость подбора для апробации выборки с максимальной репрезентативностью.

Одним из ограничений в использовании коэффициентов корреляции является небольшое количество заданий в тесте. Когда в предварительном тестировании в целом более 40 заданий, можно спокойно сравнить коэффициенты корреляции одного задания с коэффициентами корреляции других заданий. Как показывает опыт, для проведения корреляционного анализа минимальное количество заданий должно быть не менее 20.

В качестве крайнего случая, рассмотрим пример из трех заданий. Корреляция результатов выполнения задания 1 производится с суммой заданий 2 и 3, для задания 2 использует сумму баллов заданий 1 и 3, а для задания 3 — использует сумму баллов заданий 1 и 2. Сравнивать коэффициенты корреляции этих заданий нет никакого смысла, поскольку значения второго ряда каждый раз новые. И, как следствие, невозможно выбрать лучшее задание.

Вне зависимости от того, каким корректным способом производились вычисления дискриминативности, в результате мы разделим задания на приемлемые и те задания, которые нуждаются в изменениях. Как мы уже отмечали, расчеты статистических показателей не являются самоцелью. Необходимо не столько учитывать индексы и показатели, сколько искать явные ошибки. Задание должно быть отбраковано не потому, что у него низкий статистический показатель, а потому, что низкий статистический показатель указывает на наличие в нем недостатков, которые невозможно или нецелесообразно исправлять.

Существует точка зрения, согласно которой определение значений дискриминативности является обязательным для всех тестовых заданий. Однако определение дискриминативности является строго обязательным лишь для тестов, которые будут использованы для отбора обучающихся, на вступительных экзаменах или при итоговой аттестации.

Подобную точку зрения разделяют и специалисты CITO: «Показатели дискриминации должны всегда использоваться с точным пониманием того, что тестирует вопрос и должен ли он отличаться от других вопросов. Показатели мало различающихся вопросов по ответам не должны автоматически вести к исключению этих вопросов» [5, с. 167-168].

После предварительной апробации и первичной отбраковки заданий, из оставшихся заданий составляется тест, соответствующий заданной ранее технологической матрице. Составленный тест вновь подвергается процедуре апробации.

Проверяется и уточняется процедура тестирования. Основными элементами процедуры педагогического тестирования являются: раздача тестовых бланков обучающимся; зачитывание им инструкции; контроль времени, отводимого на выполнение теста; сбор тестовых бланков по окончании тестирования; обработка результатов тестирования с помощью оценочной схемы (ключа). Процедура тестирования представляет собой такую же важную составляющую методики, как и тестовый материал, поэтому должна быть тщательно продумана, апробирована, описана и стандартизирована.

Особое значение имеет проверка инструкции по выполнению теста, так как часто невозможно предсказать заранее, как будет понят и реализован на практике конкретный текст инструкции.

Параллельно с инструкцией проверяется и уточняется формат регистрации данных (например, форма бланков, интерфейс компьютерной программы, способы регистрации данных для качественных методов и т.д.).

Также уточняются алгоритмы обработки данных - прописываются оценочные схемы (ключи).

Кроме того, фиксируется и уточняется примерное время, необходимое для тестирования. Временные ограничения являются полезным фактором, который способен увеличить дискриминативность теста. Именно с этой позиции и выбирается длительность временного интервала: должен быть выбран такой временной интервал, при котором тест обеспечивает максимальную дискриминативность.

После всех проведённых проверок утверждается рабочая версия теста, в состав которой входят: подробно описанная процедура тестирования, зафиксированная инструкция, тестовый материал, формы для регистрации данных и алгоритмы обработки результатов тестирования. После этого тест готов к дальнейшим испытаниям [9].

Завершением исследовательского этапа и «кульминацией» всего процесса разработки теста является определение и расчет показателей качества теста. Это проверка успешности всех действий, предпринятых ранее для обеспечения эффективности теста. Показателями качества теста являются надежность и валидность. Надежность теста определяется после окончания анализа заданий и составления окончательной формы теста. Для ее определения проводится, как правило, специальная апробация теста.

Под надежностью понимается устойчивость, или согласованность результатов теста, получаемых при повторном их применении к тем же респондентам в различные моменты времени, при использовании разных наборов эквивалентных заданий или же при изменении других условий обследования. Такое понимание надежности лежит в основе вычисления ошибки измерения отдельного показателя, благодаря чему мы можем предсказывать диапазон случайных колебаний тестового балла у конкретного человека, возникающих, вероятно, под действием посторонних или неизвестных факторов.

Иными словами, надежность характеризует точность теста как измерительного инструмента, устойчивость его к действию помех (состояние респондентов, их отношение к процедуре тестирования, случайные ошибки и т.п.). Качественный тест не может быть создан без тщательного изучения этого важного аспекта измерения. Использование ненадежных тестов, допущение большого количества ошибок в таком ответственном деле, каким является тестирование людей, может стать причиной педагогических и административных ошибок.

Понятие надежности обычно охватывает несколько аспектов устойчивости тестовых показателей. В самом широком смысле надежность теста показывает, в какой степени различия в тестовых показателях могут быть отнесены на счет «истинных» различий в изучаемых показателях, а в какой могут быть приписаны случайным ошибкам. Таким образом, меры надежности теста позволяют оценить, какую долю общей дисперсии (общей изменчивости) тестовых показателей составляет дисперсия ошибок.

Что касается надежности показателя, то смысл заключается в определении дисперсии ошибок. Тестовый балл, полученный респондентом, содержит в себе две компоненты - истинную и ошибочную (в данном случае ошибочная — это не означит, что она вызвана ошибками или промахами респондента, а означает, что она содержит неизбежные погрешности измерения). Факторы, которые применительно к одним заданиям можно было бы счесть источниками случайной вариации показателя (т.е. дисперсии ошибок), при решении других заданий могут быть отнесены, и не без основания, к причинам его истинной дисперсии. Например, если бы нас интересовало измерение колебаний настроения, то происходящие день ото дня изменения в показателях шкалы «радость-уныние» были бы релевантны цели данного теста и, следовательно, составляли бы часть истинной дисперсии показателей. Если же тест предназначался бы для измерения уровня знаний, те же ежедневные колебания настроения попали бы уже в разряд дисперсии ошибок.

В сущности, любое условие тестирования, которое не имеет отношения к цели теста, представляет собой источник дисперсии ошибок. Поэтому, стремясь к поддержанию единых условий тестирования (контролируя общую обстановку, временные ограничения, инструкции респондентам и пр.), пользователи тестов способствуют уменьшению дисперсии ошибок и повышению надежности тестовых показателей. Но и при оптимальных условиях тестирования ни один тест не является абсолютно надежным инструментом. Поэтому каждый тест следует сопровождать сведениями о его надежности. Сообщаемая мера надежности характеризует тест только в случае его проведения в стандартных условиях и с людьми, имеющими сходство с теми, кто входил в состав нормативной выборки. Следовательно, при описании теста нужно точно указывать характеристики этой выборки вместе с типом измеренной на ней надежности.

Теоретически, разновидностей надежности может быть очень много – столько же сколько условий, влияющих на показатели теста, так как любое из этих условий может оказаться нерелевантным конкретной цели тестирования и потому отнесенным к источникам дисперсии ошибок. Однако практическое применение находит лишь несколько типов надежности, а именно: ретестовая надежность, надежность взаимозаменяемых форм, надежность эквивалентных половин теста, надежность по Кьюдеру-Ричардсону и коэффициент альфа, надежность оценщика. Каждый из способов измерения надежности тестовых показателей идентифицирует определенные источники дисперсии ошибок.

Поскольку все типы надежности касаются степени согласованности или соответствия между двумя независимо полученными множествами показателей, их все можно выразить в виде коэффициента корреляции[1, с. 103-104]. Рассмотрим далее использование коэффициента корреляции для вычисления различных мер надежности теста. Методы определения надежности, которые мы будем рассматривать, отличаются друг от друга факторами, относимыми к источникам дисперсии ошибок.

  1. Ретестовая надежность. Самый очевидный и понятный метод определения надежности результатов теста – это его повторное проведение. В этом случае коэффициент надежности просто равен корреляции между показателями, полученными теми же респондентами в каждом из двух случаев проведения теста. Дисперсия ошибок соответствует случайным колебаниям в выполнении заданий от одного сеанса тестирования к другому. Эти колебания могут быть отчасти результатом неконтролируемых условий тестирования – таких, как изменения погоды, внезапные шумы и другие отвлекающие факторы или, например, закончившаяся неожиданно ручка. В какой-то степени они могут быть вызваны и изменениями в состоянии самих тестируемых, например, болезнью, эмоциональным напряжением, утомлением, беспокойством, недавними приятными или неприятными переживаниями и т.д. Ретестовая надежность показывает, в какой степени результаты теста можно распространить на различные случаи его применения.

Приводя в руководстве к тесту его ретестовую надежность, всегда следует указывать, в каком интервале времени она измерена. Поскольку ретестовые корреляции постепенно снижаются по мере увеличения этого интервала. Для любого теста существует не один, а бесконечное множество ретестовых коэффициентов надежности. Желательно также давать некоторые сведения о событиях, происшедших за время между двумя сеансами тестирования с теми, на ком измерялась надежность теста, и касающихся их работы, семейной жизни и т.д.

При проверке этого типа тестовой надежности, стараются придерживаться небольших временных интервалов. Это обусловлено тем, что обычно дисперсия ошибок тестового показателя определяется кратковременными, случайными колебаниями, происходящими в интервалах от нескольких часов до нескольких месяцев. Так, как правило, ретестовый интервал редко превышает шесть месяцев. Какие-либо дополнительные изменения в относительном выполнении теста одними и теми же людьми, происходящие в более длительные промежутки времени, уместнее относить к кумулятивным и прогрессирующим, а не к чисто случайным. Кроме того, такие изменения, скорее всего, характеризуют более широкую сферу поведения, чем та, которая проявляется при выполнении данного теста.

Например, при повторении тестирования возможно улучшение показателей как побочный результат тренировки. Однако улучшение показателей будет, вероятно, различным у различных людей. Если промежуток времени между первым и вторым тестированием достаточно мал, тестируемые могут припомнить многие из своих прежних ответов. Благодаря работе памяти может воспроизводиться та же картина правильных и ошибочных ответов. Соответственно, результаты двух предъявлений теста не будут независимыми, и корреляция между ними окажется обманчиво высокой. К тому же повторное тестирование может изменить саму сущность теста. Например, это касается заданий, требующих логических рассуждений или сообразительности. Тестируемый, однажды поняв принцип решения или построив всю цепь рассуждений, в дальнейшем может воспроизводить правильный ответ, минуя промежуточные ступени. Методика повторного тестирования применима только к тем тестам, на которые их повторное проведение на одних и тех же тестируемых не оказывает заметного влияния. К этой категории относится ряд моторных тестов и тестов сенсорного различения. В то время как для подавляющего большинства психологических тестов эта методика определения коэффициента надежности оказывается неприменимой. Неприменима она в том числе и для наших педагогических тестов[1, с. 110-112].

  1. Надежность взаимозаменяемых форм. Один из способов избежать трудностей, с которыми приходится сталкиваться при определении ретестовой надежности, - использование взаимозаменяемых форм теста. Одних и тех же респондентов могут тестировать в первый раз с помощью одной формы, а второй раз – с помощью другой формы – эквивалентной. Корреляция между показателями, полученными по двум формам теста, представляет его коэффициент надежности. Такой коэффициент надежности служит как мерой временной устойчивости, так и мерой согласованности ответов на различные выборки заданий (или формы теста). Таким образом, этот коэффициент служит смешанной характеристикой двух типов надежности. Поскольку оба её типа важны для большинства целей тестирования, надежность взаимозаменяемых форм оказывается полезной мерой для оценки многих тестов.

Как и в случае ретестовой надежности, сведения о надежности взаимозаменяемых форм всегда должны сопровождаться указанием длительности временного интервала между двумя предъявлениями теста, а также характеристикой релевантных событий, происшедших за это время в жизни респондентов. Если обе формы применяются непосредственно одна за другой, то полученная корреляция показывает только надежность параллельных форм, но ничего не говорит о надежности как временной устойчивости. Дисперсия ошибок в этом случае обусловлена колебаниями результатов при переходе от одного набора заданий к другому, а не временными колебаниями показателей.

При разработке взаимозаменяемых форм, необходимо позаботиться о том, чтобы они на самом деле были параллельными. Принципиально важно, чтобы параллельные формы конструировались как независимые тесты, отвечающие, однако, одним и тем же требованиям. Такие тесты должны содержать одинаковое число заданий, представленных в одной и той же форме и с однотипным содержанием. Диапазон и уровень трудности заданий тоже должны быть одинаковыми. Инструкции, временные рамки, поясняющие примеры, формат бланков и все другие аспекты теста также должны быть сопоставимы.

Надежность взаимозаменяемых форм имеет более широкое, в сравнении с ретестовой надежностью, применение. Однако и у неё есть ряд недостатков. Во-первых, если изучаемые поведенческие функции подвержены значительному влиянию тренировки, использование параллельных форм ослабит, но не устранит его полностью. Если бы у тестируемых наблюдалось одно и то же улучшение результатов при повторном проведении теста, это не повлияло бы на корреляцию показателей, поскольку прибавление постоянной величины к этому показателю не меняет коэффициента корреляции. Однако, скорее всего, улучшение результатов у разных людей будет неодинаковым вследствие индивидуальных различий в опыте работы с подобным материалом, в мотивации участия в тесте и по другим причинам. Таким образом, эффект тренировки представляет собой еще один источник дисперсии, снижающий корреляцию между двумя формами. Но если влияние тренированности невелико, то снижение корреляции будет незначительным.

Во-вторых, при повторном проведении тестирования возможно изменение сущности теста, что является еще одним ограничением этого типа надежности. Например, если в параллельных заданиях применен один и тот же принцип, то большинство респондентов, однажды найдя решение, вероятнее всего применят его и во второй раз. В подобных случаях одной замены содержания заданий явно недостаточно для того, чтобы избежать переноса принципа решения из одной формы теста в другую. Вместе с тем, следует добавить, что для многих тестов взаимозаменяемые формы отсутствуют ввиду практических трудностей создания подлинно эквивалентных форм. В силу этих обстоятельств приходится обращаться к другим методам оценки надежности теста [1, с. 112-114].

  1. Надежность эквивалентных половин теста. Меру надежности можно определить еще одним способом, а именно - на основании однократного применения единственной формы теста, пользуясь для этого различными процедурами расщепления теста на две равноценные половины. При таком способе каждый респондент получает два показателя благодаря разделению теста на две эквивалентные части. Очевидно, что надежность, найденная методом расщепления, дает нам меру согласованности выборочных проверок содержания. Временная устойчивость показателей в такой характеристике надежности не представлена, поскольку она предполагает только один сеанс тестирования. Этот тип коэффициента надежности иногда называют коэффициентом внутренней согласованности, так как для его определения требуется лишь однократное проведение единственной формы теста.

Трудности при применении метода расщепления связаны с тем, как разделить тест, чтобы добиться максимальной эквивалентности его половин. Тест можно расщеплять многими способами. В большинстве тестов первая и вторая половины оказались бы неэквивалентными вследствие различий в характере и уровне трудности заданий, а также в связи с кумулятивными эффектами вхождения в работу, практики, утомления, скуки и любых других факторов, воздействие которых нарастает от начала к концу теста. Подходящий для большинства целей метод состоит в вычислении показателей отдельно по четным и нечетным заданиям теста. Если задания в тесте изначально были расположены в порядке возрастания трудности, то такое разбиение дает практически эквивалентные показатели обеих половин.

Между полученными показателями по обеим частям теста проводится корреляционный анализ. Однако нужно иметь ввиду, что эта корреляция показывает надежность лишь половины теста. Например, если весь тест состоит из 100 заданий, то корреляция вычисляется между двумя множествами показателей, каждый из которых основан только на выполнении 50 заданий. В отличие от надежности этого типа, при расчете ретестовой надежности и надежности взаимосвязанных форм, каждый показатель основывается на полном наборе заданий теста.

Таким образом, при прочих равных условиях, чем больше заданий содержит тест, тем выше его надежность. Влияние, которое оказывает увеличение или сокращение теста на его коэффициент надежности можно оценить с помощью формулы Спирмена-Брауна [1, с. 114-116].

  1. Надежность по Кьюдеру-Ричардсону и коэффициент альфа. Этот метод определения надежности также использует однократное предъявление единственной формы теста. Он основан на оценке согласованности ответов по всем заданиям теста. На эту внутреннюю согласованность влияют два источника дисперсии ошибок: во-первых, выборочная представленность содержания (как в случае надежности взаимозаменяемых форм и эквивалентных половин теста), а, во-вторых, неоднородность выборочной области поведения. Чем однороднее эта область, тем выше внутренняя согласованность. Например, если один тест состоит только из заданий на узнавание, а другой тест включает в себя задания на узнавание, воспроизведение, сопоставление, упорядочивание, интерпретацию данных, то первый тест, вероятно, покажет более высокую внутреннюю согласованность, чем второй. Во втором, более разнородном тесте один респондент может лучше справиться с заданиями на упорядочивание, сопоставление, но хуже проявить себя в заданиях на интерпретацию, другой респондент, напротив, может показать более высокий результат в заданиях на интерпретацию, но у него могут возникнуть сложности с заданиями на сопоставление, упорядочивание данных.

Очевидно, что чем однороднее тест, тем однозначнее его результаты. В этой связи весьма существенным является вопрос об относительной однородности (или неоднородности) самого критериального признака, на предсказание которого направлен тест. Хотя однородные тесты могут предпочитаться, потому что их показатели допускают довольно однозначную интерпретацию, но взятый в отдельности однородный тест, очевидно, не пригоден для предсказания крайне неоднородного критериального признака. Более того, при предсказании неоднородного признака-критерия разнородность заданий теста не обязательно означала бы дисперсию ошибок. В частности примером неоднородных тестов могут быть педагогические тесты, если задания из которых они состоят, направлены на проверку различного уровня когнитивных умений.

Самая распространенная методика оценки внутренней согласованности была разработана Кьюдером и Ричардсоном. Как и в методах расщепления, внутренняя согласованность находится по данным однократного проведения единственной формы теста, но вместо использования показателей по двум эквивалентным половинам теста эта методика опирается на результаты выполнения каждого задания. Формула Кьюдера-Ричардсона применима лишь к тем тестам, в которых выполнение заданий оценивается как правильное, либо ошибочное, иначе говоря, по принципу «все или ничего». В некоторых тестах, в частности в педагогических тестах, применяемых в нашей системе, практикуется более дифференцированная форма представления результатов отдельных заданий. Напомним, что в системе психологической подготовки МЧС России за полностью правильно выполненное тестовое задание обучающемуся присваивается 1 балл, за частично правильно выполненное тестовое задание обучающемуся присваивается 0,5 балла, а за неверно выполненное задание обучающемуся присваивается 0 баллов. Для тестов такого типа была введена обобщенная формула, известная как коэффициент альфа. Процедура вычислений состоит в нахождении дисперсии всех индивидуальных балльных оценок по каждому заданию с последующим суммированием этих дисперсий по всем заданиям [1, с. 116-118].

  1. Надежность оценщика. Из вышеизложенного следует, что различные типы надежности отличаются друг от друга факторами, относимыми к источникам дисперсии ошибок. В одном случае дисперсия ошибок охватывает временные колебания, в другом относится к различиям между наборами параллельных заданий, в третьем учитывает любую внутреннюю несогласованность теста. С другой стороны, факторы, исключенные из мер дисперсии ошибок, образуют два широких класса: во-первых, факторы, чья дисперсия сохраняется в показателях, так как эти факторы составляют часть истинных различий, измеряемых тестами, и, во-вторых, нерелевантные факторы, поддающиеся экспериментальному контролю. Например, в руководстве к тесту не принято сообщать об ошибках измерения, которые могут появиться в результате проведения теста в отвлекающей обстановке или в более короткое или более длительное, чем это положено, время. Подобных нарушений можно избежать, и поэтому нет нужды в отдельных коэффициентах надежности, соответствующих «дисперсии отвлечения» или «дисперсии временных лимитов». Большинство тестов, особенно если они предназначены для массового обследования с использованием компьютеров для вычисления показателей, настолько стандартизированы, что их проведение и регистрация результатов сводят на нет дисперсию ошибок, обусловленную этими факторами. Пользуясь такими тестами необходимо лишь внимательно следить за выполнением соответствующих предписаний.

Однако существует еще один источник дисперсии ошибок, который довольно легко установить – это дисперсия оценщика, оценивающего ответы респондентов и выставляющего за них определенное количество баллов. Надежность оценщика можно определить, располагая выборкой протоколов выполнения теста, оцененного двумя специалистами независимо друг от друга. Между двумя множествами полученных таким образом показателей вычисляется обычный коэффициент корреляции, который и служит искомой мерой надежности оценщика. Если подсчет показателей теста существенно зависит от суждений пользователя, то в руководстве к тесту необходимо также привести и коэффициент надежности оценщика [1, с. 118-119].

Подводя итог рассмотрению типов надежности, систематизируем рассмотренный материал в виде двух таблиц. В первой таблице сгруппируем методы, применяемые для оценки каждого типа надежности, в зависимости от числа требуемых для этой цели форм теста и сеансов тестирования. Во второй таблице представим источники дисперсии, трактуемые каждым из методов измерения надежности как дисперсия ошибок.

Таблица 1. Классификация методов измерения надежности в зависимости от требуемого числа форм теста и сеансов тестирования.

Необходимое число сеансов тестирования

Необходимое число форм теста

одна

две

один

Метод расщепления на эквивалентные половины;

Метод Кьюдера-Ричардсона

Метод взаимозаменяемых форм (непосредственный)

два

Метод «тест-ретест»

Метод взаимозаменяемых форм (отсроченный)

Таблица 2. Источники дисперсии ошибок, связываемые с коэффициентами надежности.

Вид коэффициента надежности

Дисперсия ошибок

Ретестовый

Временная выборка

Взаимозаменяемых форм (непосредственный)

Выборка содержания

Взаимозаменяемых форм (с временным интервалом)

Временная выборка и выборка содержания

Эквивалентных половин теста

Выборка содержания

Кьюдера-Ричардсона и альфа

Выборка содержания и неоднородность содержания

Оценщика

Различия между оценщиками

Исходя из вышеизложенного, можно сделать вывод, что при разработке педагогических тестов способами определения надежности являются использование взаимозаменяемых форм теста, расщепление теста на эквивалентные половины и определение коэффициента альфа. В случае необходимости, определяется также надежность оценщика.

Любой коэффициент надежности можно интерпретировать непосредственно в процентах дисперсии показателей, приписываемой разным источникам. Так, коэффициент надежности 0,85 означает, что 85% дисперсии показателей теста зависят от истинной изменчивости (дисперсии) измеряемой черты, а 15% - от дисперсии ошибок. Напомним, что квадрат коэффициента корреляции представляет собой часть общей дисперсии. Фактически доля истинной дисперсии в показателях теста есть квадрат корреляции, между показателями, полученными по какой-то одной форме теста, и истинными показателями, свободными от случайных ошибок. Эта корреляция, именуемая индексом надежности, равна корню квадратному из коэффициента надежности (√rtt). Если индекс надежности возвести в квадрат, то получится исходный коэффициент надежности (rtt), который, следовательно, можно интерпретировать как процент истинной дисперсии для указанного использования теста.

Планы эксперимента, позволяющие получать несколько разных коэффициентов надежности на одной группе респондентов, дают возможность проводить компонентный анализ суммарной дисперсии показателей [1, с. 119-120].

Одной надежности для обоснования качества теста недостаточно. Еще одной важнейшей характеристикой теста является его валидность. Валидность - это понятие, характеризующее что именно измеряет тест и насколько хорошо он это делает. Валидность теста говорит о том, какие выводы можно сделать из полученных по нему показателей. В этой связи следует предостеречь от принятия названия теста за отличительный признак того, что им измеряется. Установить, какое свойство измеряет данный тест, можно лишь на основе изучения объективной информации и эмпирических операций, применявшихся при установлении его валидности. Сведения о валидности теста невозможно представить в общих чертах. Ни о каком тесте нельзя сказать, что он имеет «высокую» или «низкую» валидность вообще. Его валидность должна устанавливаться в отношении того конкретного применения, ради которого он выбирается. Поэтому при разработке теста необходимо всегда указывать вид валидности, так как говорить о валидности теста, не указывая на то, какая это валидность, просто не имеет смысла.

Все методы определения валидности теста имеют дело с тем, как выполнение теста соотносится с другими независимо наблюдаемыми фактами исследуемых характеристик поведения. Существуют многочисленные методы исследования подобных соотношений. Их традиционные названия отражают разные аспекты валидности.

Вместе с развитием тестов и расширением сферы их применения видоизменялись и понятия валидности. К самым истокам тестирования восходит применение тестов для оценки усвоенного людьми содержания в конкретных областях знаний или деятельности, т.е. применение тестов достижений. Тесты достижений принято оценивать путем сравнения его содержания с содержанием той области, для оценки которой он предназначается. В этом случае речь идет об установлении содержательной валидности теста [1, с. 133-134].

Вторая фаза в развитии тестирования характеризуется смещением интереса исследователей с констатации достижений на предсказание поведения. Как разные люди будут реагировать на данную ситуацию сейчас или через какое-то время? Какой будет эта индивидуальная реакция в разных точно установленных условиях? Действие (или деятельность) в той ситуации, для которой хотели предсказать поведение, стали называть критерием. Методы установления валидности через предсказание критерия показывают эффективность теста в том, что касается прогнозирования выполнения респондентом точно определенной деятельности. Измерение критерия, относительно которого устанавливается валидность тестовых показателей, может производиться почти одновременно с ними или же через установленный промежуток времени. В зависимости от временных отношений между критерием и тестом различают текущую и прогностическую валидности. Текущая валидность применима к тестам, используемым для диагноза существующего положения дел. Прогностическая валидность применима к тестам, используемым для предсказания положения дел в пределах некоторого временного интервала. Информация, получаемая при прогнозирующей валидизации, особенно важна для тестов, используемых при отборе и распределении персонала. Примерами ситуаций, требующих для принятия решения сведений о прогностической валидности используемых тестов, являются прием на работу, отбор обучающихся в учебные заведения, в том числе профессиональный отбор и т.д. Соответственно, валидность теста обычно сообщается в виде коэффициента корреляции между показателями теста и прямой, независимой мерой такого критерия [1, с. 134, 139].

Современный этап в истории тестирования характеризуется растущим признанием ценности конструктов в том, что касается описания и понимания поведения человека. Конструкты – это широкие категории, выводимые логическим путем из общих признаков, свойств или черт, обнаруживающих себя в непосредственно наблюдаемых поведенческих переменных.

Интерес к конструктам привел к введению нового понятия, которое сначала считалось еще одной, третьей, разновидностью понятия валидности теста, а именно конструктной валидности. Конструктная валидность теста показывает, насколько его результаты могут рассматриваться в качестве меры некоего теоретического конструкта или свойства. Примерами таких конструктов являются академические способности, стрессоустойчивость, тревожность и пр.

Со временем конструктную валидность признали в качестве основного, базисного понятия валидности, включающего все её остальные виды (содержательную, критериальную), поскольку именно она точно определяет, что измеряется данным тестом. Методы установления содержательной и прогностической валидности относятся к разряду тех многих средств получения информации, которые способствуют более точному определению и пониманию конструктов, оцениваемых тестами. Однако эти методы дают также информацию, предоставляющую самостоятельную ценность, и сохраняют свое первостепенное значение при оценке применяемых в ряде областей тестов [1, с. 134].

Поскольку мы говорим о разработке педагогического теста, а выполнение таких тестов интерпретируется с точки зрения содержания предметной области, на основе которой они разрабатываются, то важнейшим условием их эффективного использования, является содержательная валидность. Рассмотрим подробнее именно этот метод валидизации. Содержательная валидность устанавливается через описание содержания теста. Описание содержания заключается в систематической проверке содержания теста на соответствие репрезентативной выборке измеряемой области знаний. Может создаться впечатление, что для установления валидности любого такого теста достаточно было бы простого просмотра его содержания. Однако сразу же возникает проблема формирования выборки заданий, адекватно отражающих всю оцениваемую предметную область. Поэтому тестируемая область сначала должна быть подвергнута систематическому анализу, с тем чтобы существовала уверенность в полном и пропорциональном охвате её главных аспектов заданиями теста. Поэтому рассматриваемую предметную область следует описывать заранее, и как можно полнее, а не определять после того, как тест уже составлен. Правильно построенные педагогические тесты должны охватывать цели обучения, а не только его конкретные темы. Содержание, соответственно, необходимо определять достаточно широко, включая в него помимо знания фактического материала такие важнейшие цели обучения, как применение изученных правил и объяснение фактов [1, с. 135].

Содержательная валидность теста обеспечивается с самого начала конструирования теста. Для этого специалисту, разрабатывающему тест, необходимо предпринять:

1) перед составлением тестовых заданий проанализировать соответствующие учебные программы, методические пособия и пр.

2) в соответствии с поставленными целями и учебной программой разработать технологическую матрицу;

2) провести ее тщательную экспертизу;

3) в соответствии с технологической матрицей составить тестовые задания;

4) предоставить разработанные тестовые задания на проверку экспертам;

5) получить экспертные заключения о соответствии тестовых заданий технологической матрице;

6) изложить результаты проделанной работы в спецификации теста.

Кроме того, данные о содержательной валидности, приводимые в руководстве к педагогическому тесту, должны сопровождаться описанием тех методов, которыми обеспечивались целесообразный отбор и репрезентативность содержания теста проверяемой предметной области. Следует также указать количество и профессиональную квалификацию специалистов, принимавших участие в конструировании теста. Вместе с тем важно сообщить число и характер проанализированных при подготовке теста программ и учебных пособий, с указанием года их издания.

Содержательная валидность педагогических тестов, таким образом, в большей степени определяется на основе экспертных методов. Однако экспертные оценки могут дополняться и рядом эмпирических методов. И суммарный показатель, и выполнение отдельных заданий можно скорректировать относительно шкалы успеваемости. Сохраняются те задания, которые показывают наибольший прирост процента обучающихся, переходящих с более низких на более высокие уровни успеваемости. Другие дополнительные методы, если они уместны, включают анализ типичных ошибок при выполнении обучающимися теста и наблюдение за способами их работы [1, с. 136].

Содержательная валидность, особенно если она подкреплена такими эмпирическими проверками, служит адекватным средством оценивания тестов учебных достижений. Она позволяет ответить на два основных вопроса, касающихся валидности педагогических тестов: во-первых, охватывает ли тест репрезентативную выборку конкретных навыков и знаний и, во-вторых, свободно ли выполнение теста от влияния посторонних факторов?

Завершающим шагом исследовательского этапа, после определения статистических характеристик тестовых заданий и качества теста в целом, является составление окончательного варианта теста.