Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Белобородов Надежност тестов 2012

.pdf
Скачиваний:
3
Добавлен:
12.11.2022
Размер:
583.9 Кб
Скачать

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ЯДЕРНЫЙ УНИВЕРСИТЕТ «МИФИ»

В.Н. Белобородов

Надежность тестов

Рекомендовано УМО «Ядерные физика и технологии» в качестве учебно-методического пособия

Москва 2012

УДК 519.22(07) ББК 22.172я7 Б 43

Белобородов В.Н. Надежность тестов: Учебно-методическое пособие. М.:

НИЯУ МИФИ, 2012. 36 с.

Рассмотрены вопросы, связанные с методиками оценки точности педагогических измерений. Выведены формулы для вычисления надежности тестов в классической теории тестирования. Получены выражения, определяющие ошибки измерения способностей в современной теории тестирования. Для изучения пособия необходимо первоначальное знакомство с основами теории вероятностей и математической статистики.

Предназначено для преподавателей и аспирантов, разрабатывающих и использующих тестовые материалы для контроля знаний студентов.

Подготовлено в рамках Программы создания и развития НИЯУ МИФИ.

Рецензент канд. техн. наук, доц. О.А. Мирзеабасов (ИАТЭ НИЯУ МИФИ)

ISBN 978-5-7262-1683-6

© Национальный исследовательский

 

ядерный университет «МИФИ», 2012

СОДЕРЖАНИЕ

 

Введение .................................................................................................

4

1. Надежность теста в классической теории тестирования................

6

Расчёт коэффициента корреляции результатов по половинам

 

теста ...............................................................................................

8

Альфа (α) Кронбаха и формулы Кудера–Ричардсона.............

10

Формула Спирмена–Брауна...................................................

14

Надежность теста и истинный балл........................................

15

Формула Фланагана–Рюлона.................................................

17

Пример вычисления надежности теста...................................

18

Критериальная надежность теста...........................................

20

Надежность критериально-ориентированных тестов.............

21

Надежность и валидность теста .............................................

23

Надежность и регрессия.........................................................

25

2. О надежности тестов в современной теории тестирования.........

26

Приложения..................................................................................

31

Литература....................................................................................

35

ВВЕДЕНИЕ

При проведении тестирования в большинстве случаев актуальным является вопрос о точности получаемых результатов. В этом смысле к тестированию применимы общие положения теории измерений. Каждое измерение может быть охарактеризовано несколькими источниками неточностей или погрешностей. Случайные погрешности проявляются в различиях результатов при разных испытаниях. Надежность теста тем выше, чем меньше случайная погрешность результатов тестирования. Надежность теста – функция не только свойств используемых заданий, но и самой процедуры тестирования. Надежность тестирования также определяется свойствами той предметной области, для проверки знаний в которой создается тест. Создавать надежные тесты для проверки знаний

вточных науках и иностранных языках легче, чем в науках гуманитарных. В последних применимость даже понятия измерения зачастую подвергается сомнению, так как нет единого мнения по поводу того, что именно должно проверяться в этих науках. Помимо свойств заданий на результаты тестирования влияют такие параметры самих обучающихся, как прочность знаний, скорость восприятия информации, устойчивость психики, состояние здоровья и др. Сам уровень подготовки является источником случайных ошибок при выполнении тестовых заданий. Ученик первого класса будет в среднем допускать больше случайных ошибок при проверке знания таблицы умножения, чем ученик пятого класса. Надежность теста зависит и от ширины спектра уровня подготовки обучающихся. Чем этот спектр шире, тем надежность выше. Одной из причин случайных погрешностей является использование в тестах заданий,

вкоторых возможно угадывание верного ответа. Как правило, это задания с выбором ответа. Надежность теста повышается, если проверяется уровень знаний в узкой области. В этом случае говорят о гомогенном тесте. Если тест проверяет знания в разных предметных областях, то тест называется гетерогенным. Надежность тестов понижается при расширении предметной области. Это можно

4

легко понять, если учесть что при неизменном суммарном числе заданий теста на отдельный раздел заданий становится меньше, что увеличивает случайную погрешность измерения.

Помимо случайных погрешностей существуют систематические погрешности. Если стрельба из винтовки ведется кучно, но центр попаданий смещен относительно центра мишени, то прицел явно сбит. В случае тестирования задания могут проверять не совсем то или совсем не то, для чего их намеревались использовать. В тестировании соответствие теста и цели тестирования в самом общем понимании называется валидностью теста, т.е. пригодностью теста. Если для проверки знания механики используются тесты, содержащие задания по другим разделам физики, то такое тестирование является содержательно невалидным. То же можно сказать и про тест по механике для россиян, если его использовать без перевода в стране с другим государственным языком. Тест может оказаться невалидным по причине низкого качества отдельных тестовых заданий [1, 2].

Точность определения уровня подготовки обучающихся в некоторых случаях лимитируется «ценой деления» – это, как правило, единица на шкале суммы баллов за отдельные задания. Если максимальный балл за тест 10, то 1 балл определяет относительную погрешность отсчета 1/10 = 10%.

В современной теории тестирования акцент сделан на выполнении не теста в целом, а отдельных его заданий. При этом предполагается реализованным условие независимости результатов выполнения заданий в группе испытуемых с одинаковой подготовкой. Если классическая теория тестирования оперирует вероятностью выполнения заданий Р, то в современной теории тестирования обычно анализируются шансы выполнения заданий Р/(1 – Р) или логарифмы от шансов. Такое логарифмическое преобразование объекта математического исследования растягивает область значений вероятности [0, 1] на всю числовую ось для логарифма шансов.

Отдельной проблемой является технологическая надежность теста. Речь идет о правильности распознавания и оценивания ответов обучающихся. Ошибки распознавания ответов характерны для бумажной формы тестирования. В случае компьютерного тестирования ошибки распознавания, как правило, исключаются. Ошибки оценивания возникают при проверке экспертами выполнения зада-

5

ний с развернутым ответом. Уменьшение влияния случайных ошибок экспертов достигается на этапе проведения экзамена введением нескольких независимых проверок выполнения заданий. В дальнейшем изложении предполагается, что технологически тесты надежны.

1.НАДЕЖНОСТЬ ТЕСТА

ВКЛАССИЧЕСКОЙ ТЕОРИИ ТЕСТИРОВАНИЯ

Надежность в классической теории тестирования – мера воспроизводимости результата тестирования при использовании эквивалентных, или параллельных, форм теста. Параллельная форма теста – другой вариант теста, собранный по тем же правилам из других заданий одного банка заданий, характеризующих проверяемую область знаний. Процедуры, позволяющие оценивать надежность тестов, могут быть пояснены следующими примерами. Пример 1 – оценка у разных преподавателей одного и того же учащегося по одному предмету. Пример 2 – повторное тестирование эквивалентным тестом – ретестовая надежность. Надежность как величина – коэффициент корреляции результатов по параллельным формам теста. В классической теории тестирования по умолчанию применяются методы, основанные на предположении о применимости к результатам тестирования нормальной функции распределения, для которой разработан достаточно обширный математический аппарат. В качестве количественной меры надежности теста используется коэффициент корреляции результатов выполнения параллельных форм тестов Rxx(X и X′ – баллы за параллельные

формы теста). Максимальное значение коэффициента корреляции R = 1 соответствует абсолютно надежному тесту, минимальное значение коэффициента корреляции R = –1 соответствует самому ненадежному тесту, вернее его назвать «антинадежным», если такое значение получается при вычислении корреляции результатов по исследуемому тесту и по всем другим возможным тестам. «Антинадежный» тест, как легко понять, можно сделать надежным простой перекодировкой результатов. Поэтому будем по умолчанию считать, что R ≥ 0. Ненадежный тест имеет коэффициент корреляции, близкий к нулю со всеми остальными тестами. Нулевой коэффициент корреляции означает отсутствие значимой зависимости между результатами выполнения разных форм тестов.

6

Если сложить m эквивалентных тестов в один, то надежность результирующего теста изменяется (увеличивается). Для вычисления надежности результирующего теста используем (пока без вывода) формулу Спирмена–Брауна [1]:

Rm =

mR

,

(1.1)

1+(m 1)R

где R – надежность отдельного компонента. Из формулы (1.1) получаем, что при m → ∞ R→1. Отсюда следует, что надежность теста можно повышать, увеличивая его длину, т.е. количество заданий. Поэтому для получения тестов приемлемой надежности используется, как правило, несколько десятков заданий. Зависимость надежности теста от его длины изображена на рис. 1.1.

Рис.1.1. Надежность теста как функция количества частей m в тесте при надежности одной части R = 0,2

Из рис. 1.1 видно, что при надежности исходного теста 0,2 надежность 0,9 достигается увеличением его длины в 35 раз. Легко проверить, что при исходной надежности теста 0,5 надежность 0,9 достигается увеличением длины теста только в 9 раз. Таким образом, увеличение длины теста является экстенсивным способом повышения надежности теста. Более целесообразно повышать надежность на основе содержательного подхода.

Так как повторное тестирование по эквивалентному тесту в большинстве случаев нереально (за исключением физиологического), интересующий тест разбивают на две эквивалентные части

7

равной длины и применяют частный случай формулы Спирмена– Брауна для m = 2

R =

2r

,

(1.2)

1+r

 

 

 

где r – коэффициент корреляции баллов по половинам одного и того же теста. Разбиение теста на половины должно проводиться так, чтобы они были максимально эквивалентны. Самый простой способ – разделение исходного теста на два, состоящих из четных и нечетных заданий соответственно. Возможно проведение предварительного ранжирования заданий по трудности с последующим разделением на четные и нечетные.

Существуют методы расчета надежности теста, основанные на вычислении дисперсий результатов отдельных частей теста и теста как целого. Используются формулы Кронбаха и Кудера–Ричардсо- на, Рюлона и их модификации [3].

Считается, что тест по надежности пригоден к использованию для диагностических целей, если R 0,7. При проведении аттестационных экзаменов используются тесты, для которых R 0,9 [2].

Расчет коэффициента корреляции результатов по половинам теста

Пусть xij – ответ i-го учащегося на j-е задание. Учащихся – N,

заданий – n. Введем дихотомическую систему оценивания выполнения задания:

 

 

 

1

– задание выполнено правильно;

 

xij =

– задание выполнено неправильно.

 

 

 

0

Балл обучающегося за весь тест

N

 

 

 

 

xi = xij ;

 

j=1

 

 

 

 

 

 

1

N

 

< x >=

 

xi

– средний балл обучающихся за весь тест;

 

 

 

 

N i=1

 

yi =

xij

– балл по нечетным заданиям;

j нечетное

8

zi =

xij

– балл по четным заданиям;

 

j четное

 

 

 

 

 

 

1

N

 

1

 

N

 

< y >=

yi

и < z >=

 

zi – средние значения баллов за не-

 

 

 

N i=1

 

N i=1

 

четные и четные задания.

 

 

 

 

Дисперсия тестовых баллов

 

 

 

 

 

1

N

 

 

 

 

σ2x =

(xi − < x >)2 ,

(1.3)

 

 

 

 

 

 

 

 

N i=1

 

где σx – стандартное отклонение, являющееся мерой разброса значений баллов в группе обучающихся.

Коэффициент корреляции (Пирсона) баллов по четным и нечетным заданиям вычисляется так:

1

N

 

 

( yi − < y >)(zi − < z >)

 

 

r =

N

,

(1.4)

i=1

 

 

zy

σyσz

 

 

 

 

 

 

где стандартные отклонения баллов по четным и нечетным заданиям σy z определяются в соответствии с формулой (1.3):

 

1

N

 

1

N

σ2y =

( yi − < y >)2 , σ2z

=

(zi − < z >)2 .

 

 

 

N i=1

 

N i=1

Будем считать, что смещение оценки дисперсии из-за конечности N несущественно.

Значения коэффициента корреляции (1.4) лежат в интервале от минус единицы до плюс единицы: rzy [1, 1] .

Можно показать, что коэффициент корреляции результатов по четным и нечетным заданиям может быть также вычислен по формуле:

 

 

 

 

N

 

1

N

N

 

 

 

 

 

 

yi zi

yi zi

 

 

 

 

 

ryz

=

 

 

i=1

N i=1

i=1

 

.

 

 

 

(∑yi )2

 

 

 

 

 

2

 

2

(∑zi )2

 

 

 

yi

N

 

 

 

 

 

 

zi

N

 

 

 

 

 

 

 

 

 

9

Альфа (α) Кронбаха и формулы Кудера–Ричардсона

Для вывода формул, позволяющих вычислять надежность тестов, используем метод индукции. Сначала рассмотрим простой пример, а затем построим общие выражения, следуя методике, содержащейся в книге [1].

Рассмотрим результаты выполнения двух форм теста (А и B) из трех заданий небольшой группой студентов из пяти человек

(табл. 1.1 – 1.3).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 1.1

 

 

 

 

 

Баллы по двум формам тестов (A и B)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Число

 

Исходные баллы

 

Отклонения баллов

Произведения

 

 

 

от средних значений

 

отклонений

человек

 

 

 

 

 

 

 

 

 

 

 

А

 

 

B

 

А

 

 

B

А2

B2

 

АB

 

 

 

 

 

 

 

 

 

 

1

 

12

 

15

 

 

3

 

 

6

 

9

 

36

 

18

2

 

13

 

11

 

 

4

 

 

2

 

16

 

4

 

8

 

3

 

11

 

9

 

 

2

 

 

0

 

4

 

0

 

0

 

4

 

5

 

7

 

 

-4

 

 

-2

 

16

 

4

 

8

 

5

 

4

 

3

 

 

-5

 

 

-6

 

25

 

36

 

30

Среднее

 

9

 

9

 

 

0

 

 

0

 

14

 

16

 

12,8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 1.2

 

Исходные баллы за отдельные задания в двух формах тестов

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Число

 

 

 

Форма А

 

 

 

Форма B

 

 

 

 

 

человек

 

1

2

 

3

 

 

Сумма

 

 

Сумма

 

 

 

1

 

 

4

3

 

5

 

 

12

5

5

 

5

 

15

 

 

 

 

2

 

 

5

4

 

4

 

 

13

4

3

 

4

 

11

 

 

 

 

3

 

 

3

5

 

3

 

 

11

3

4

 

2

 

9

 

 

 

 

4

 

 

2

2

 

1

 

 

5

2

2

 

3

 

7

 

 

 

 

5

 

 

1

1

 

2

 

 

4

1

1

 

1

 

3

 

 

 

 

Среднее

 

3

3

 

3

 

 

9

3

3

 

3

 

9

 

 

 

10