Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
testirovanie_Vasilevich_A_P.docx
Скачиваний:
2
Добавлен:
01.07.2025
Размер:
139.69 Кб
Скачать

Опыт создания теста. Проблемы и решения

Попробуем вместе пройти весь тот путь, который был опи­сан в предыдущем разделе и показать процесс создания кон­кретного теста, который может быть использован для практиче­ского применения при оценке знаний по английскому языку.3

Излагая процедуру создания теста, мы будем придержи­ваться той последовательности этапов создания теста, которая была представлена выше.

Этапы 1-3 (цель, идеология теста, определение умений и навы­ков, подлежащих проверке).

Тест предназначался для проверки навыков и умений по ан­глийскому языку у выпускников средних общеобразовательных школ. Предполагается, что он может быть в принципе использо­ван как основной инструмент ЕГЭ по английскому языку.

Основной вид тестовых измерений – задания с множе­ственным выбором. При этом использовались два типа заданий: вопросы с выбором правильного ответа (на каждый вопрос че­тыре варианта ответов) и множество фраз, каждая из которых может либо полностью соответствовать содержанию текста, либо ему противоречить, либо быть нейтральной (в тексте нет информации, позволяющей отнести ее к той или другой группе). В этом случае был выбор из трех вариантов.

При определении видов языковой деятельности, подлежа­щих тестовой оценке, необходимо было принять во внимание два обстоятельства.

Во-первых, надо было определить состав набора языковых навыков и речевых умений, определяющих понятие «владение языком». Рассматривая традиционные виды речевой деятельно­сти (чтение, перевод, аудирование и т.д.), мы не могли не учесть, что многие из них не поддаются объективной оценке в тестовой форме. В этом смысле явно не подходящими для про­верки в тесте оказываются, например, спонтанная устная речь или письменное сочинение. В результате для теста были ото­браны два речевых умения (аудирование, чтение) и лексико-грамматические навыки.

Во-вторых, надо было установить удельный вес каждого из отобранных аспектов в общем объеме тестовых баллов.

Начнем с того, что при конструировании общей оценки естественно было исходить из шкалы баллов с максимально возможной суммой 100, что делает удобным, в частности, сравнение результатов с данными тестов по другим предметам. Устанавливая удельный вес каждому из трех аспектов, можно было принять решение «в лоб» – попросту уравнять все разделы, приписав каждому из них максимальную оценку в 33 балла. Однако на практике их важность представляется отнюдь не одинаковой. Как именно соотносятся по важности наши ас­пекты, можно выяснить, например, путем экспертного опроса. Этот вариант и был принят. Было опрошено 50 преподавателей английского языка и студентов-старшекурсников языкового вуза, которых напрямую спрашивали, какую долю итогового тестового балла они отвели бы каждому из трех перечисленных аспектов.

После усреднения мнений было получено следующее соот­ношение:

аудирование – 30 %;

чтение – 25 %;

лексико-грамматиче­ские навыки – 45 %.

Соответственно, из общей суммы в 100 баллов на долю грамматического раздела отведено 45 баллов, на аудирование – 30 и на чтение – 25 баллов.

Отдельную проблему процедуры составляла продолжи­тельность работы с тестом. В литературе нет каких-либо научно обоснованных рекомендаций относительно времени работы над заданиями разных типов. Существует поразительный разнобой мнений на этот счет у разных составителей тестов. Кроме того, не решен пока и вопрос о том, какова должна быть максимально возможная продолжительность теста. Например, «Итоговый тест по английскому языку для выпускников школ», опублико­ванный в журнале Иностранные языки в школе, рассчитан на 3,5 астрономических часа, что на наш взгляд недопустимо много. Так, известный экзамен TOEFL рассчитан всего на два часа.

В ходе предварительного тестирования (см. ниже, этап 5) было выявлено, что конструируемый нами тест вполне реально сделать за два академических часа.

Этап 4 (подготовка тестовых заданий). Для каждого из трех аспектов необходимо было определить вид и количество тесто­вых заданий. Обязательным условием включения текста в те­стовый набор была его аутентичность: тексты брались из ориги­нальных англо-американских источников (публицистика, худо­жественная литература, учебные пособия). Только подобные материалы являются мерилом для установления подлинного владения языковыми умениями.

Умение аудирования проверяется на достаточно простом лексико-грамматическом материале. Для успешного выполне­ния этой части теста достаточно иметь минимальную практику прослушивания аудиокассет хотя бы в объеме тех приложений, которые имеются в ряде учебников. Из устоявшейся практики длина текстов была определена следующим образом: монологи­ческие тексты 700 – 800 знаков, а диалогические – порядка 600 знаков. В обоих случаях звучание имеет продолжительность от 40 до 60 секунд. Для более или менее полного представления о степени умения понимать устную речь предъявлялись два моно­логических текстов и два диалога. Что касается заданий, то они были двух типов: вопросы с выбором правильного ответа (из четырех вариантов) и отнесение фраз к группам («верно», «не­верно», «не известно») – выбор из трех вариантов.

Для тестирования навыков чтения подбирались тексты дли­ной порядка 2 тыс. знаков, включающие до 5-10 % незнакомых слов. Применялись те же типы заданий, что и в случае с аудиро­ванием.

Для проверки лексико-грамматических навыков выбрана форма предложений с пропусками, для которых имеется по 4 варианта слов для вставки. Тест включает 40 фраз, охватываю­щих основные разделы школьного курса грамматики: употреб­ление артикля, степени сравнения прилагательных, образование отрицания и вопросительных предложений, основные времена глагола (группы Indefinite, Continuous и Perfect), Passive Voice, правило согласования времен т т.д. Наряду с этим в тест были включены несколько примеров на словоупотребление (выбор между make-do; still-else; teach-study; work-job; speak-talk-tell и т.п.) и некоторые фразовые глаголы (типа look for, look after).

Для выявления продвинутых учащихся в тест включены не­сколько заданий повышенной трудности (по грамматике – это Perfect Continuous, Subjunctive Mood; по лексике – Phrasal Verbs типа get on и смысловое различение слов из синонимических рядов типа worry-bother-trouble и др.).

При подборе дистракторов были соблюдены соответству­ющие правила (не было заведомо бессмысленных ответов или ответов, неправильность которых на момент тестирования не может быть обоснована учащимися; не допускались ситуации, когда ответы на одни задания могли служить подсказкой для ответов на другие и т.д.).

Этап 5 (предварительная проверка тестовых заданий).

Главная цель предварительного тестирования – проверка качества тестовых заданий. Помимо традиционной технической правки (опечатки и т.п.), уточнения формулировок инструкций и окончательного определения времени работы с тестом, необхо­димо было определить содержательное качество самих заданий. Некоторые требовали уточнения в плане формулировки вопро­сов и вариантов ответа. А некоторые вообще следовало устра­нить. Так, исключались задания, которые правильно выполня­лись в 90 % случаев и более. Они слишком легкие и не диффе­ренцируют испытуемых должным образом. Так же неудачно задание, выполняемое очень малым числом тестируемых (оно слишком трудное). Обычно «хорошими» считаются те задания, которые правильно выполняются примерно половиной тестиру­емых. По этому параметру были отбракованы несколько текстов для чтения и аудирования, и скорректированы формулировки некоторых заданий к оставшимся текстам.

Индивидуальная оценка по тесту, естественно, основана на системе баллов, приписываемых отдельным заданиям. К описа­нию этой системы мы и переходим.

Этап 6 (присвоение тестовых баллов).

Как мы уже говорили выше, варианты ответов на тестовые задания содержат один правильный и несколько неправильных. Отметили мы и неприемлемость подхода, при котором за пра­вильный ответ каждый раз ставится балл «1», а за неправильный – «0». Задания имеют разную степень трудности, а значит, неко­торые верные ответы должны быть оценены выше других. Сте­пень сложности задания можно оценить эмпирически, выяснив долю испытуемых, давших правильный ответ. Ясно, что если задание А правильно выполнили 70 % опрошенных, а задание В – только 15%, А значительно легче В и, следовательно, за вер­ный ответ на задание А следует дать меньше баллов, чем за от­вет в задании В.

Далее. Не все равно, какой именно из неправильных вари­антов выбирается тестируемым. Некоторые дистракторы лишь незначительно отличаются от верного ответа, в то время, как другие вообще не имеют никакого смысла. Выбор бессмыслен­ного варианта (например, в ситуации откровенного «угадыва­ния») должен штрафоваться, и, во всяком случае, оцениваться не так, как выбор ответа, который не лишен определенной (хотя и ошибочной) логики.

Так или иначе, возникает необходимость в дифференциро­ванной балльной оценке каждого из вариантов. Технически этого можно достичь разными способами. Опишем один их них. С этой целью приведем реальный пример выполнения заданий по разделу «Аудирование» (задания 1-4 по одному из текстов, на которые ответили 62 человека) и приведем всю последова­тельность действий в виде алгоритма.

На входе мы имеем следующие данные:

1. Ответы на каждое задание ранжированы по степени близо­сти к правильному: «верный ответ»; «ответ похуже», «еще хуже», «самый неудачный». Это ранжирование осуществля­лось на основе оценок опытных преподавателей-экспертов.

2. Комплект индивидуальных протоколов испытуемых вида:

Ученики

Задания

1

И.

1

2

3

4

2

П.

B

D

C

D

3

С.

C

B

С

А

62

М.

B

A

C

A

3. Итоговая матрица ответов по всем 62 испытуемым, где отме­чено число выборов каждого варианта ответа. Приведем эту матрицу (табл. 1) и покажем, как она используется.

Сначала решается задача определения тестовых баллов для правильных ответов. Как мы и ожидали, задания оказались от­нюдь не равнотрудными. Матрица это хорошо иллюстрирует: задание 3 оказывается значительно сложнее других (всего 18 человек из 62 сумели выбрать верный ответ). Соответственно, будет целесообразно присваивать правильным ответам разные баллы: чем более трудным является задание, тем более высокие баллы надо давать за его правильное решение.

Таблица 1.

Задания

Варианты ответов4

Именно такой подход имеется в виду, когда говорят о необходимости введения «взвешенных» баллов. По­скольку «вес» оценки, напря­мую связан со степенью труд­ности задания, его естествен­нее всего определять по ито­говой матрице данного текста.

A

B

C

D

1

17

3

37

5

2

14

33

6

9

3

24

14

18

6

4

3

11

4

44

Для каждого правильного варианта ответа вычислим долю от общего числа испытуемых (в %). Эта доля, собственно, и от­ражает степень трудности задания: чем она выше, тем легче ока­залось задание для опрошенных учащихся. Для нашего примера эти данные выглядят так.

Зада­ния

Доля правильных ответов (в %)

Теперь преобразуем долю правильных ответов в конкретные «взвешенные» баллы, которые как раз и отразят степень труд­ности заданий. Здесь без опреде­ленного субъективизма не обой­тись. Предлагаемая ниже схема перехода (табл. 2) выглядит вполне разумной, но в принципе допустимы, конечно, и иные ко­личественные решения.

Варианты ответов

A

B

C

D

1

60

2

53

3

29

4

71

Таблица 2

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]