Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Белобородов Надежност тестов 2012

.pdf
Скачиваний:
3
Добавлен:
12.11.2022
Размер:
583.9 Кб
Скачать

Таблица 1.3

Отклонения баллов за отдельные задания в двух формах тестов

Число

 

 

Форма А

 

 

 

Форма B

 

человек

1

2

 

3

 

Сумма

 

 

Сумма

1

1

0

 

2

 

3

2

2

 

2

 

6

2

2

1

 

1

 

4

1

0

 

1

 

2

3

0

2

 

0

 

2

0

1

 

-1

 

0

4

-1

-1

 

-2

 

-4

-1

-1

 

0

 

-2

5

-2

-2

 

-1

 

-5

-2

-2

 

-2

 

-6

Дисперсия

2

2

 

2

 

14

2

2

 

2

 

16

При вычислении коэффициента корреляции величин y и z полезно пользоваться понятием ковариации (табл. 1.4)

 

1

N

 

cov( y, z) =

( yi − < y >)(zi − < z >) .

(1.5)

 

 

N i=1

 

Для получения коэффициента корреляции ковариацию нужно поделить на стандартные отклонения баллов y и z:

r = cov( y, z) .

yz

σy

σz

 

Очевидно, что выражения (1.4) и (1.6) одинаковы.

(1.5)

(1.6)

 

 

 

 

Таблица 1.4

 

Ковариации заданий и тестов двух форм

 

 

 

 

 

 

 

 

Форма А

 

Форма B

 

Сумма

 

1

2

3

 

 

4,8

 

1

1,8

1,4

1,6

 

2

1,2

1,4

0,6

3,2

 

3

1,8

1,6

1,4

4,8

 

Сумма

4,8

4,4

3,6

12,8

 

Ковариации имеют полезное свойство аддитивности. Сумма ковариаций задания 1 с заданиями 1, 2и 3равна ковариации задания 1 с суммарным баллом за эти три задания. Сумма девяти ковариаций по отдельным заданиям (12,8) совпадает с ковариацией суммарных баллов по двум формам, занесенной в табл. 1.1. Это свойство позволяет оценить надежность теста, если есть результа-

11

ты только по одной форме теста. Для этих целей рассмотрим ковариации и дисперсии для заданий одного теста (табл. 1.5).

 

 

 

 

 

 

Таблица 1.5

 

Дисперсии и ковариации заданий и теста одной формы

 

 

 

 

 

 

 

 

Форма А

 

 

Форма А

 

 

Сумма

 

1

2

3

 

 

 

 

 

1

 

2

1,4

1,6

 

5,0

2

 

1,4

2

1,0

 

4,4

3

 

1,6

1,0

2

 

4,6

Сумма

 

5,0

4,4

4,6

 

14,0

Нашей задачей является получение хорошей оценки ковариации между заданиями разных форм (12,8 в табл. 1.4) на основе данных табл. 1.5. Предположим, что средние значения ковариаций между заданиями в обеих таблицах (4 и 5) совпадают, так как задания берутся из одного и того же банка. Среднее значение ковариации в табл. 1.5 равно (1,4 + 1,6 + 1,0)/3 = 1,333. Поскольку в табл. 1.4 ко-

вариаций 9, то умножаем 1,333 на 9 и получаем 12,0 в качестве оценки межтестовой ковариации на основе данных по одному тесту. Дисперсия одного теста равна 14,0. Поэтому для оценки надежности теста мы делим 12,0 на произведение квадратных корней из 14 (которое равно, естественно, 14) и получаем для оценки надежности по параллельным формам значение 0,86 на основе одной формы теста. Правильный расчет корреляции получается, если суммарную ковариацию 12,8 из табл. 1.4 поделить на корень из произведения дисперсий 14,0 и 16,0 баллов двух форм, что также дает величину 0,86.

Описанную процедуру можно формализовать. Чтобы вычислить среднюю ковариацию заданий в табл. 1.5 можно из суммарной

дисперсии σ2A = 14,0 вычесть дисперсии отдельных заданий σ2j = 2 + 2 + 2 = 6 и разделить результат на количество ковариа-

ций в табл. 1.5: n2 n = 9 – 3 = 6. Тогда средняя ковариация пары заданий будет равна

σ2А σ2j . n2 n

12

Поскольку в табл. 1.4 количество ковариаций равно n2 (9), то ковариация форм А и В может оцениваться как произведение средней ковариации на количество значений n2 :

cov(A, B) n

2 σ2A σ2j

= n

σ2A σ2j

.

 

n2

n

n 1

 

 

 

 

Чтобы найти надежность теста, нужно ковариацию форм А и В разделить на дисперсию формы А:

r

n

σ2A σ2j

=

n

1

σ2j

.

2

 

AB

 

 

n 1

 

 

2

 

 

 

(n 1)σA

 

 

 

σA

 

Предполагаем, что формы А и В имеют приблизительно одинаковые дисперсии. Окончательно надежность теста (α Кронбаха) записывается так [1, 7]:

α = R =

n

 

1

σ2j

.

(1.7)

 

 

n 1

 

 

σ

2

 

 

 

 

 

 

 

 

Если тест состоит из дихотомических заданий, которые оцениваются баллами 0 и 1, то можно выразить дисперсии баллов за отдельные задания через индексы их трудности:

 

 

σ2

= P (1P ) ,

 

 

j

j

j

 

1

N

 

 

где Pj =

xij – индекс трудности j-го задания.

 

 

N i=1

 

 

Из выражения для α Кронбаха (1.7) с учетом выражения для дисперсии баллов за дихотомические задания получается формула Кудера–Ричардсона_20 (К-Р_20) [3]:

R =

n

 

1

Pj (1Pj )

.

(1.8)

 

 

n 1

 

σ

2

 

 

 

 

 

 

 

Формула Кудера-Ричардсона_20 (1.8) неприменима в случае, когда в тесте есть политомические задания. В этом случае нужно применять исходную формулу Кронбаха для надежности.

13

Формула Кудера-Ричардсона_21 (К-Р_21) получается из формулы К-Р_20 заменой каждой дисперсии задания на дисперсию зада-

ния со средним индексом трудности задания P = 1 n Pj : n j=1

 

n

 

 

 

n

 

(1

 

)

 

 

 

 

P

P

 

R =

 

 

 

1

 

σ2

 

.

(1.9)

n 1

 

 

 

 

 

 

 

 

 

Формула К-Р_21 (1.9) дает значение надежности меньше, чем фор-

мула К-Р_20 (1.8).

Формула Спирмена–Брауна

Пусть у нас есть три коротких теста с известными (одинаковыми) ковариациями Cssи дисперсиями σs2. Подставим эти значения

в табл. 1.4 и 1.5, где номера столбцов и строк теперь соответствуют номерам тестов. Тогда ковариация для длинного теста из m коротких тестов получится суммированием всех значений Css(которых

m2 и которые все одинаковые) в табл. 1.4:

Cmm= m2Css.

А дисперсия баллов длинного теста будет равна сумме величин табл. 1.5, в которой на диагонали стоят одинаковые дисперсии короткого теста σs2 (их m), а недиагональные элементы (которых m(m – 1)) также одинаковые и равны Css:

σ2m = m(m 1)Css+ mσ2s .

Тогда надежность длинного теста будет равна:

 

 

R

=

C

mm

=

m2C

ss

 

=

mR

 

,

 

 

 

 

 

 

ss

 

 

 

 

 

m(m 1)C

 

 

+mσ2

(m 1)R

+1

 

 

mm

 

σ2

ss

 

 

 

 

 

 

 

m

 

s

 

ss

 

 

где R

=

Css

– надежность короткого теста. Полученное соотно-

ss

 

σ2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s

 

 

 

 

 

 

 

 

 

 

 

 

шение является формулой Спирмена–Брауна (1.1).

14

Надежность теста и истинный балл

В классической теории тестирования считается, что уровень обучающегося может быть охарактеризован его «истинным» баллом, а наблюдаемый в результате тестирования балл X включает погрешность. Наблюдаемый балл Xi может быть записан так:

X i =Ti +ei ,

где Ti – так называемый истинный балл i-го обучающегося, а ei – случайная погрешность истинного балла. Если проводится тестирование с использованием параллельной формы, то

X i′ =Ti +ei,

при этом случайные погрешности ei и eiнезависимы и в среднем равны нулю, поэтому <X> = <X > = <T>. Рассмотрим теперь ковариацию баллов за две формы теста

cov(X, X) = 1 (Xi −<T >)(Xi′−<T >) =

N i

=1 (Ti −<T >+ei )(Ti −<T >+ei) =

N i

=

1

( Ti +ei )( Ti +ei) = σT2 + < T (e +e) > + < e e′ > =

N

 

i

 

 

 

 

 

 

 

2

+ <

2

,

 

 

= σT

T > (< e > + < e

>)+ < e > < e

> = σT

так как средние значения ошибок равны нулю, независимы, а истинные баллы от ошибок не зависят. По этой же причине получаем, что

σ2X = σT2 +σe2 .

Отсюда для надежности теста получаем новое выражение:

R = cov(X , X ) =

σT2

=

σ2X σe2

=1

σe2

.

σ2X

 

σ2X

 

σ2X

 

σ2X

Далее легко выражается дисперсия ошибки истинного балла

σe2 = (1R2X .

(1.10)

С помощью понятия «истинного» балла можно дать альтернативное выражение для коэффициента надежности теста. В качестве

15

меры надежности можно понимать коэффициент корреляции между «истинным» баллом T и наблюдаемым баллом X:

RXT = cov(X ,T ) ,

σX σT

cov(X,T) = 1 (Xi −<T >)(Ti −<T >) = 1 (Ti −<T >+ei )(Ti −<T >i ) =

N i N i

=

1

( Ti +ei )( Ti ) = σT2 + < Te >= σT2 + < T ><e > =σT2 .

N

 

i

 

 

 

 

 

 

 

 

 

 

 

Поэтому получаем:

 

 

 

 

 

 

 

 

 

 

 

 

 

R

 

=

σ

2

=

σ

T

=

R

 

,

 

 

XT

 

T

 

XX

 

 

σX σT

σX

 

 

 

 

 

 

 

 

т.е. используемый по умолчанию в качестве меры надежности теста коэффициент корреляции результатов по параллельным формам тестов равен квадрату коэффициента корреляции «истинного» балла T и наблюдаемого балла X:

RXX = (RXT )2 .

Поскольку «истинный» балл – величина ненаблюдаемая, то в качестве меры надежности с практической точки зрения удобнее использовать коэффициент корреляции результатов по параллельным формам тестов. С точки зрения статистики параллельными формами можно считать те, для которых совпадают как «истинные» баллы, так и дисперсии баллов.

Для выявления интервала, в котором находился бы балл учащегося, если бы проводилось повторное тестирование эквивалентным тестом, наблюдаемый балл X может быть записан в виде

X = T ± ,

где X – полученный балл; T –«истинный» балл; – погрешность измерения, которая в соответствии с (1.10) связана с надежностью теста:

=σx 1R t(α) ,

(1.11)

где α – доверительная вероятность. В приближении нормального характера распределения обучающихся по набранным баллам и при большом по сравнению с единицей количестве испытаний

16

можно использовать асимптотические значения обратной функции t нормального распределения, которая зависит от доверительной вероятности:

при

α = 68%

t 1,

при

α = 95%

t 2 ,

при

α = 99,7%

t 3 .

Следовательно, доверительный интервал для истинного балла записывается так:

T = X ±tσx 1R .

Пусть R = 0,75, тогда 1R = 0,5. Если X = 10, t = 2 (α = 95%) и

σx = 3, то доверительный интервал имеет вид, изображенный на рис. 1.2.

7 10 13

Рис. 1.2. Доверительный интервал для истинного балла

Выражение Х = 10 ± 3 означает, что «истинный» тестовый балл c вероятностью 95% лежит в интервале [7, 13]. Если взять более низкую доверительную вероятность, например α = 68%, то тогда можно утверждать, что истинное значение тестового балла с выбранной вероятностью находится в интервале 8,5–11,5.

Формула Фланагана–Рюлона

Эта формула получается разбиением теста на две эквивалентные части. Считается ковариация двух частей (половин) теста, которая равна дисперсии половины истинного тестового балла. Дисперсия истинного балла в 4 раза больше, чем дисперсия половины истинного балла:

σT2 = σ22T

= T2 = 4cov( y, z) ,

1

1

поэтому чтобы получить оценку дисперсии истинного балла, следует ковариацию половин тестов умножить на четыре:

17

R = 4

cov( y, z)

=

4

( yi − < y >)(zi − < z >) .

(1.12)

 

 

 

σ2x

N

σ2x

 

Пример вычисления надежности теста

Рассмотрим результаты выполнения короткого (тематического) теста. Для иллюстрации возьмем небольшое количество обучающихся. Пусть количество обучающихся N = 3, а количество заданий n = 6. Занесем в табл. 1.6 результаты (0 или 1) выполнения отдельных дихотомических заданий:

 

 

 

 

 

 

 

 

 

Таблица 1.6

Результаты выполнения дихотомических заданий

 

 

 

 

 

 

 

 

Задания

 

 

 

Обучающиеся

 

 

 

 

 

 

 

 

1

2

3

4

5

6

Xi

Yi

 

Zi

 

 

 

 

 

 

 

(все)

(нечетные)

 

(четные)

1

1

1

1

1

1

1

6

3

 

3

2

0

1

1

0

1

0

3

2

 

1

3

0

0

0

0

1

0

1

1

 

0

Rj

1

2

2

1

3

1

10

6

 

4

Pj

1/3

2/3

2/3

1/3

1

1/3

10/3

2

 

4/3

 

 

 

 

<X> = 1/3 (6 + 3 + 1) = 10/3,

<Y> = 2,

<Z> = 4/3;

 

 

 

 

 

 

 

 

 

 

σ2y

=

1

[(3 2)2 +

(2 2)2 +(12)2

] =

2 ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

2

 

 

1

 

 

 

4

2

 

 

 

4

 

2

 

 

4

2

 

1 25 +1+16

 

42

 

14

,

σz

=

 

 

3

 

+

1

 

 

 

+ 0

 

 

 

=

 

 

 

 

 

 

=

 

 

=

 

3

3

3

 

9

 

 

3 9

9

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

4

 

 

 

 

 

 

4

 

 

 

 

 

 

4

 

1

5

+

4

 

 

 

 

 

 

 

 

3

(32) 3

 

+(22) 1

 

+(12) 0

3

 

 

3

 

 

 

27

 

 

 

r =

 

 

 

 

 

3

 

 

 

 

 

 

3

 

 

 

 

 

 

 

=

3

 

3

=

 

0,98.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

zy

 

 

 

 

 

 

 

 

 

 

 

 

214

 

 

 

 

 

 

 

 

 

 

 

28

 

28

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

27

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3 9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1. Вычислим коэффициент надежности по формуле Спирмена– Брауна:

18

R = 12+rr = 0,99 .

Рассмотрим доверительный интервал для истинного балла:

2

=

1

 

6

10

2

 

3

10

2

 

10

2

=

1 64 +1

+ 49

=

114

=

38

,

σx

3

 

3

 

+

3

 

+ 1

3

 

 

3

9

 

3

9

9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1R = 0,1 ,

 

 

 

X =3 ±0,1

38t =3 ±

38

t .

30

 

 

9

 

 

 

При α = 0,95 имеем t = 2, откуда

 

 

 

 

X =3 ±

38 2

3,0

±0,4 .

 

30

 

 

 

 

 

 

Какова ценность данного модельного расчета?

Ошибка коэффициента корреляции r вычисляется с помощью преобразования Фишера [5]:

Z = 12 ln 11+rr .

Дисперсия величины Z определяется количеством измерений N:

σ2z = N 13 [3].

При N = 3 получаем σ2z = , поэтому коэффициенту корреляции

r нельзя приписать какого-нибудь определенного значения.

2. Формулы Кудера–Ричардсона (α Кронбаха) (1.8) и (1.9) дают:

К-Р_20:

К-Р_21:

R =

n

 

Pj (1Pj

)

= 0,88 ;

 

1

 

 

 

 

 

 

 

 

 

n 1

 

 

σ

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R =

 

n

 

 

n

Pj (1Pj

)

=

6

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

1

 

n 1

 

 

 

σ

2

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

5 4

 

 

9 9

 

= 0,78

 

 

 

38

 

 

 

 

9

 

 

(0,78 < 0,88). Это подтверждает указанное выше свойство формулы К-Р_21 давать заниженную оценку надежности теста.

3. Из формулы Фланагана–Рюлона (1.12) получаем:

19

 

cov( y, z)

 

4

( y − < y >)(z

− < z >)

0,95 .

R = 4

 

=

 

i

 

i

 

σ2x

N

 

σ2x

 

 

Критериальная надежность теста

В этом разделе под критерием понимается внешняя по отношению к результатам тестирования оценка результатов обучения (табл. 1.7). В качестве меры критериальной надежности используются различные показатели.

1. Тау (τ) Кендалла – корреляция критерия и теста.

 

 

 

 

Таблица 1.7

Результаты по тесту (баллы) и по критерию (оценки)

 

 

 

 

 

 

Обучающийся

Балл

Место 1

Оценка

Место 2

А

6

1

5

1

 

Б

3

2

3

3

 

В

1

3

4

2

 

Здесь место ученика – его рейтинг по соответствующему критерию. Проводим попарные сравнения результатов. Всего имеется

n(n 1) = 3 сравнения:

2

АБ БВ АВ

Совпадение Инверсия Совпадение

(т.е. одна инверсия, два совпадения)

τ= Nnсовп(nN1)инв = 231 = 13 .

2

Тау Кендалла – грубый критерий при такой небольшой статистике.

2. Коэффициент корреляции по Пирсону:

<O> = 1/3·(5 + 4 + 3) = 4;

20