Опыт создания теста. Проблемы и решения
Попробуем вместе пройти весь тот путь, который был описан в предыдущем разделе и показать процесс создания конкретного теста, который может быть использован для практического применения при оценке знаний по английскому языку.3
Излагая процедуру создания теста, мы будем придерживаться той последовательности этапов создания теста, которая была представлена выше.
Этапы 1-3 (цель, идеология теста, определение умений и навыков, подлежащих проверке).
Тест предназначался для проверки навыков и умений по английскому языку у выпускников средних общеобразовательных школ. Предполагается, что он может быть в принципе использован как основной инструмент ЕГЭ по английскому языку.
Основной вид тестовых измерений – задания с множественным выбором. При этом использовались два типа заданий: вопросы с выбором правильного ответа (на каждый вопрос четыре варианта ответов) и множество фраз, каждая из которых может либо полностью соответствовать содержанию текста, либо ему противоречить, либо быть нейтральной (в тексте нет информации, позволяющей отнести ее к той или другой группе). В этом случае был выбор из трех вариантов.
При определении видов языковой деятельности, подлежащих тестовой оценке, необходимо было принять во внимание два обстоятельства.
Во-первых, надо было определить состав набора языковых навыков и речевых умений, определяющих понятие «владение языком». Рассматривая традиционные виды речевой деятельности (чтение, перевод, аудирование и т.д.), мы не могли не учесть, что многие из них не поддаются объективной оценке в тестовой форме. В этом смысле явно не подходящими для проверки в тесте оказываются, например, спонтанная устная речь или письменное сочинение. В результате для теста были отобраны два речевых умения (аудирование, чтение) и лексико-грамматические навыки.
Во-вторых, надо было установить удельный вес каждого из отобранных аспектов в общем объеме тестовых баллов.
Начнем с того, что при конструировании общей оценки естественно было исходить из шкалы баллов с максимально возможной суммой 100, что делает удобным, в частности, сравнение результатов с данными тестов по другим предметам. Устанавливая удельный вес каждому из трех аспектов, можно было принять решение «в лоб» – попросту уравнять все разделы, приписав каждому из них максимальную оценку в 33 балла. Однако на практике их важность представляется отнюдь не одинаковой. Как именно соотносятся по важности наши аспекты, можно выяснить, например, путем экспертного опроса. Этот вариант и был принят. Было опрошено 50 преподавателей английского языка и студентов-старшекурсников языкового вуза, которых напрямую спрашивали, какую долю итогового тестового балла они отвели бы каждому из трех перечисленных аспектов.
После усреднения мнений было получено следующее соотношение:
аудирование – 30 %;
чтение – 25 %;
лексико-грамматические навыки – 45 %.
Соответственно, из общей суммы в 100 баллов на долю грамматического раздела отведено 45 баллов, на аудирование – 30 и на чтение – 25 баллов.
Отдельную проблему процедуры составляла продолжительность работы с тестом. В литературе нет каких-либо научно обоснованных рекомендаций относительно времени работы над заданиями разных типов. Существует поразительный разнобой мнений на этот счет у разных составителей тестов. Кроме того, не решен пока и вопрос о том, какова должна быть максимально возможная продолжительность теста. Например, «Итоговый тест по английскому языку для выпускников школ», опубликованный в журнале Иностранные языки в школе, рассчитан на 3,5 астрономических часа, что на наш взгляд недопустимо много. Так, известный экзамен TOEFL рассчитан всего на два часа.
В ходе предварительного тестирования (см. ниже, этап 5) было выявлено, что конструируемый нами тест вполне реально сделать за два академических часа.
Этап 4 (подготовка тестовых заданий). Для каждого из трех аспектов необходимо было определить вид и количество тестовых заданий. Обязательным условием включения текста в тестовый набор была его аутентичность: тексты брались из оригинальных англо-американских источников (публицистика, художественная литература, учебные пособия). Только подобные материалы являются мерилом для установления подлинного владения языковыми умениями.
Умение аудирования проверяется на достаточно простом лексико-грамматическом материале. Для успешного выполнения этой части теста достаточно иметь минимальную практику прослушивания аудиокассет хотя бы в объеме тех приложений, которые имеются в ряде учебников. Из устоявшейся практики длина текстов была определена следующим образом: монологические тексты 700 – 800 знаков, а диалогические – порядка 600 знаков. В обоих случаях звучание имеет продолжительность от 40 до 60 секунд. Для более или менее полного представления о степени умения понимать устную речь предъявлялись два монологических текстов и два диалога. Что касается заданий, то они были двух типов: вопросы с выбором правильного ответа (из четырех вариантов) и отнесение фраз к группам («верно», «неверно», «не известно») – выбор из трех вариантов.
Для тестирования навыков чтения подбирались тексты длиной порядка 2 тыс. знаков, включающие до 5-10 % незнакомых слов. Применялись те же типы заданий, что и в случае с аудированием.
Для проверки лексико-грамматических навыков выбрана форма предложений с пропусками, для которых имеется по 4 варианта слов для вставки. Тест включает 40 фраз, охватывающих основные разделы школьного курса грамматики: употребление артикля, степени сравнения прилагательных, образование отрицания и вопросительных предложений, основные времена глагола (группы Indefinite, Continuous и Perfect), Passive Voice, правило согласования времен т т.д. Наряду с этим в тест были включены несколько примеров на словоупотребление (выбор между make-do; still-else; teach-study; work-job; speak-talk-tell и т.п.) и некоторые фразовые глаголы (типа look for, look after).
Для выявления продвинутых учащихся в тест включены несколько заданий повышенной трудности (по грамматике – это Perfect Continuous, Subjunctive Mood; по лексике – Phrasal Verbs типа get on и смысловое различение слов из синонимических рядов типа worry-bother-trouble и др.).
При подборе дистракторов были соблюдены соответствующие правила (не было заведомо бессмысленных ответов или ответов, неправильность которых на момент тестирования не может быть обоснована учащимися; не допускались ситуации, когда ответы на одни задания могли служить подсказкой для ответов на другие и т.д.).
Этап 5 (предварительная проверка тестовых заданий).
Главная цель предварительного тестирования – проверка качества тестовых заданий. Помимо традиционной технической правки (опечатки и т.п.), уточнения формулировок инструкций и окончательного определения времени работы с тестом, необходимо было определить содержательное качество самих заданий. Некоторые требовали уточнения в плане формулировки вопросов и вариантов ответа. А некоторые вообще следовало устранить. Так, исключались задания, которые правильно выполнялись в 90 % случаев и более. Они слишком легкие и не дифференцируют испытуемых должным образом. Так же неудачно задание, выполняемое очень малым числом тестируемых (оно слишком трудное). Обычно «хорошими» считаются те задания, которые правильно выполняются примерно половиной тестируемых. По этому параметру были отбракованы несколько текстов для чтения и аудирования, и скорректированы формулировки некоторых заданий к оставшимся текстам.
Индивидуальная оценка по тесту, естественно, основана на системе баллов, приписываемых отдельным заданиям. К описанию этой системы мы и переходим.
Этап 6 (присвоение тестовых баллов).
Как мы уже говорили выше, варианты ответов на тестовые задания содержат один правильный и несколько неправильных. Отметили мы и неприемлемость подхода, при котором за правильный ответ каждый раз ставится балл «1», а за неправильный – «0». Задания имеют разную степень трудности, а значит, некоторые верные ответы должны быть оценены выше других. Степень сложности задания можно оценить эмпирически, выяснив долю испытуемых, давших правильный ответ. Ясно, что если задание А правильно выполнили 70 % опрошенных, а задание В – только 15%, А значительно легче В и, следовательно, за верный ответ на задание А следует дать меньше баллов, чем за ответ в задании В.
Далее. Не все равно, какой именно из неправильных вариантов выбирается тестируемым. Некоторые дистракторы лишь незначительно отличаются от верного ответа, в то время, как другие вообще не имеют никакого смысла. Выбор бессмысленного варианта (например, в ситуации откровенного «угадывания») должен штрафоваться, и, во всяком случае, оцениваться не так, как выбор ответа, который не лишен определенной (хотя и ошибочной) логики.
Так или иначе, возникает необходимость в дифференцированной балльной оценке каждого из вариантов. Технически этого можно достичь разными способами. Опишем один их них. С этой целью приведем реальный пример выполнения заданий по разделу «Аудирование» (задания 1-4 по одному из текстов, на которые ответили 62 человека) и приведем всю последовательность действий в виде алгоритма.
На входе мы имеем следующие данные:
1. Ответы на каждое задание ранжированы по степени близости к правильному: «верный ответ»; «ответ похуже», «еще хуже», «самый неудачный». Это ранжирование осуществлялось на основе оценок опытных преподавателей-экспертов.
2. Комплект индивидуальных протоколов испытуемых вида:
|
Ученики |
Задания |
|||
1 |
И. |
1 |
2 |
3 |
4 |
2 |
П. |
B |
D |
C |
D |
3 |
С. |
C |
B |
С |
А |
… |
… |
|
|
|
|
62 |
М. |
B |
A |
C |
A |
3. Итоговая матрица ответов по всем 62 испытуемым, где отмечено число выборов каждого варианта ответа. Приведем эту матрицу (табл. 1) и покажем, как она используется.
Сначала решается задача определения тестовых баллов для правильных ответов. Как мы и ожидали, задания оказались отнюдь не равнотрудными. Матрица это хорошо иллюстрирует: задание 3 оказывается значительно сложнее других (всего 18 человек из 62 сумели выбрать верный ответ). Соответственно, будет целесообразно присваивать правильным ответам разные баллы: чем более трудным является задание, тем более высокие баллы надо давать за его правильное решение.
Таблица 1.
Задания
|
Варианты ответов4 |
Именно такой подход имеется в виду, когда говорят о необходимости введения «взвешенных» баллов. Поскольку «вес» оценки, напрямую связан со степенью трудности задания, его естественнее всего определять по итоговой матрице данного текста.
|
|||
A |
B |
C |
D |
||
1 |
17 |
3 |
37 |
5 |
|
2 |
14 |
33 |
6 |
9 |
|
3 |
24 |
14 |
18 |
6 |
|
4 |
3 |
11 |
4 |
44 |
|
Для каждого правильного варианта ответа вычислим долю от общего числа испытуемых (в %). Эта доля, собственно, и отражает степень трудности задания: чем она выше, тем легче оказалось задание для опрошенных учащихся. Для нашего примера эти данные выглядят так.
Задания
|
Доля правильных ответов (в %) |
Теперь преобразуем долю правильных ответов в конкретные «взвешенные» баллы, которые как раз и отразят степень трудности заданий. Здесь без определенного субъективизма не обойтись. Предлагаемая ниже схема перехода (табл. 2) выглядит вполне разумной, но в принципе допустимы, конечно, и иные количественные решения. |
|||
Варианты ответов |
|||||
A |
B |
C |
D |
||
1 |
|
|
60 |
|
|
2 |
|
53 |
|
|
|
3 |
|
|
29 |
|
|
4 |
|
|
|
71 |
|
Таблица 2
