
Белобородов Надежност тестов 2012
.pdf
|
|
|
|
|
|
|
σ02 = |
1 (1 |
+1 |
+0) = |
2 |
; |
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
3 |
|
|
|
|
3 |
|
|
|
|
|
|
|
|
|
6 |
− |
10 |
|
3 |
− |
10 |
(−1) |
|
|
|
|
|
|
|
|
|
||
|
1 |
|
1 |
+ |
3 |
|
|
1 8 |
+1 |
|
27 |
|
|||||||||
r = |
|
|
|
3 |
|
|
|
|
|
|
= |
= |
= 0,596. |
||||||||
3 |
|
|
|
|
38 |
|
2 |
|
|
|
|
3 3 |
|
|
|
76 |
76 |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
9 |
|
3 |
|
|
|
|
|
|
|
|
|
27 |
|
|
|
Надежность критериально-ориентированных тестов
В критериально-ориентированных тестах результат представляется в дихотомической форме: зачет/незачет. Сравниваются две формы (части) теста, по которым принимается решение: прошел или не прошел (зачет-незачет). Заполним таблицу вероятностей прохождения (непрохождения) 1-го и 2-го тестов (табл. 1.8).
Таблица 1.8
Вероятность прохождения (непрохождения) 1-го и 2-го тестов
Решение |
Не прошел 2-й тест |
Прошел 2-й тест |
Не прошел 1-й тест |
Р00 |
Р01 |
Прошел 1-й тест |
Р10 |
Р11 |
Пусть Р = Р00 + Р11 – вероятность согласованных результатов по двум тестам. При полностью согласованном прохождении тестов Р = 1 (при этом Р10 = Р01 = 0). Если есть разные результаты прохождения тестов, то следует учесть отдельно вероятность случайного совпадения результатов по двум тестам:
Рс = (Р00 + Р01)(Р00 + Р10) + (Р10 + Р11)(Р01 + Р11).
После этого можно вычислить коэффициент критериальной надежности (каппа Коэна) [7]:
K = |
P −Pc |
. |
(1.13) |
|
|
||||
|
1 |
−P |
|
|
|
|
c |
|
21
Пример 1 (табл. 1.9).
Таблица 1.9
Пример 1 прохождения (непрохождения) теста
Решение |
Не прошел 2-й тест |
Прошел 2-й тест |
Не прошел 1-й тест |
0,1 |
0 |
Прошел 1-й тест |
0 |
0,9 |
P = 1;
Рс = 0,1·0,1 + 0,9·0,9 = 0,82; K =11−−0,820,82 =1.
Вывод: тесты надежны.
Пример 2 (табл. 1.10).
|
|
|
Таблица 1.10 |
|
Пример 2 |
прохождения (непрохождения) теста |
|||
|
|
|
|
|
Решение |
|
Не прошел 2-й тест |
Прошел 2-й тест |
|
Не прошел 1-й тест |
0,25 |
0,25 |
|
|
Прошел 1-й тест |
|
0,25 |
0,25 |
|
P = 0,5;
Рс = 0, 5·0,5 + 0,5·0,5= 0,5; K = 0,50,5 −−0,50,5 =0 .
Вывод: тесты ненадежны.
Желательно, чтобы K (1.13) и Р были как можно ближе к едини-
це.
В качестве альтернативы можно использовать обычный коэффициент корреляции Пирсона двух тестов. Пусть в клетках таблицы содержатся абсолютные количества получивших соответствующий результат (табл. 1.11).
22

Таблица 11
Пример прохождения (непрохождения) теста при использовании коэффициента корреляции Пирсона
Решение |
Не прошел 2-й тест |
Прошел 2-й тест |
Не прошел 1-й тест |
a |
b |
Прошел 1-й тест |
c |
d |
Тогда коэффициент корреляции двух тестов (Гилфорда), обычно обозначаемый буквой φ, можно записать так:
φ = rxy = |
ad −bc |
. |
(1.14) |
|
(a +b)(c +d )(a +c)(b +d ) |
||||
|
|
|
Нетрудно видеть, что значения коэффициента φ (1.14) в двух описанных предельных случаях совпадают с соответствующими значениями коэффициента K.
Надежность и валидность теста
Под валидностью в широком смысле понимается пригодность теста для тех целей, ради достижения которых тест создавался. У валидности есть множество составляющих. Одна из них – связь результатов тестирования с результатами других испытаний. Если такая связь не прослеживается, то нет смысла применять тест. Тест является невалидным.
Вычисление коэффициента валидности теста при наличии независимого критерия [7]:
Kв = |
rтк |
, |
(1.15) |
|
|||
|
RтRк |
|
где rтк – коэффициент корреляции балла за тест и независимого критерия; Rт , Rк – надежность критерия и теста. Если надежность
независимого критерия неизвестна, то положим ее равной единице, тогда из (1.15) получаем
Kв = rткRт ,
23

rтк вычисляем по формуле (1.4) Пирсона, если в ней стоят величи-
ны одинакового смысла (при росте балла за тест X увеличивается значение K). Можно сделать оценку коэффициента критериальной валидности теста по данным из табл. 1.7:
Kв = |
0,596 |
|
= 0,6 . |
|
0,99 |
1 |
|||
|
|
При сужении предметной области тестирования возрастает корреляция заданий теста, а поэтому растет и надежность всего теста. Поэтому может возникнуть соблазн увеличить надежность теста, сузив его тематическую структуру. В предельном случае можно дойти до гипотетической ситуации, когда тест состоит из одного задания, повторенного n раз. Если это не тест по физической культуре, то следует ожидать стопроцентного воспроизведения одного и того же результатам по «всем» заданиям. Надежность такого «теста» будет в точности равна единице, он будет «абсолютно надежен». При этом ясно, что он абсолютно ни для чего непригоден, он эквивалентен просто одному заданию, т.е. тест невалиден. Поэтому при «механическом» повышении надежности теста может быть утеряна валидность теста. В связи с этим считается, что надежность теста в некотором смысле является антонимом его валидности.
Причиной снижения надежности теста может быть низкая корреляция различных заданий. Такая ситуация возникает, если в тесты включаются компетентностно-ориентированные задания. Эти задания предполагают способность выделять из условия задания значимую для его выполнения информацию. Зачастую избыточная информация в задании снижает его предметную чистоту. Это, в свою очередь, приводит к уменьшению корреляции между результатами выполнения этого задания и других заданий теста. По существу из текста задания испытуемый должен выделить информационный шум и необходимые для получения результата данные. Одновременно с уменьшением корреляции увеличивается и трудность такого задания.
Внесение в задание дополнительной по отношению к достаточной для решения информации часто имеет целью стимулирование интереса к исходному предметно чистому и самодостаточному заданию. Этот педагогический прием должен применяться на этапе
24

обучения. При контрольном тестировании лишняя информация в задании зачастую приводит к ухудшению его качества.
Необходимо также отметить, что понятие валидности, скорее, следует относить к способам использования результатов тестирования, а не к самому тесту. Если по результатам измерения только давления пациента дается общее заключение о состоянии его здоровья, то невалидным является не само измерение давления, а метод использования результата такого тестирования.
Надежность и регрессия
Для поиска истинного балла может использоваться уравнение линейной регрессии [5]:
T = |
X |
± R ( X − |
X |
) . |
(1.16) |
Данное уравнение линейной регрессии показывает, что при нулевой надежности практически ничего нельзя сказать об истинном балле, а при максимальной надежности R = 1 истинный балл Т совпадает с первичным баллом X. Корень квадратный из надежности теста равен коэффициенту корреляции «истинного» и наблюдаемых баллов (формула (1.16) говорит об истинном балле и надежности теста).
Описанные ранее методики разработаны в рамках классической теории тестирования, которая, как правило, используется в предположении справедливости нормального (гауссова) характера анализируемых распределений. Это далеко не всегда так. Более того, если составлять тест из большого числа практически независимых заданий, то распределение результатов в соответствии с центральной предельной теоремой теории вероятностей будет стремиться к нормальному. Однако тест такого типа будет иметь нулевую надежность. С его помощью будет невозможно предсказать результат выполнения другой формы такого теста.
Поэтому имеет смысл помимо классической теории тестирования рассматривать и другие теории, позволяющие оценивать точность результатов тестирования.
25

2.О НАДЕЖНОСТИ ТЕСТОВ
ВСОВРЕМЕННОЙ ТЕОРИИ ТЕСТИРОВАНИЯ
Интуитивно ясно, что если уровень подготовки обучающегося не соответствует уровню требований, предъявляемых в заданиях теста, то определение с помощью такого теста уровня подготовки обучающегося будет проблематичным. Это математически может выражаться как увеличение ошибки полученного результата, что эквивалентно уменьшению надежности «позиционирования» обучающегося на шкале результатов для маргинальных по уровню подготовки групп. Понятно, что если обучающийся выполнил все задания теста, то априори невозможно сказать, насколько сложнее должен быть тест, чтобы обучающийся выполнил его не полностью. И наоборот, если обучающийся показал нулевой результат, то неизвестно, насколько проще должны быть задания, чтобы обучающийся смог выполнить хотя бы одно задание.
В моделях IRT (Item Response Theory) от понятия надежности теста делается переход к понятию ошибки измерения латентной способности θ тестируемого выполнять задания с трудностями β [2, 6, 7]. В логистической модели рассматривается вероятность Р верного выполнения дихотомического задания:
P = |
1 |
|
. |
(2.1) |
|
e(β−θ) +1 |
|||||
|
|
|
Вероятность зависит от трудности задания β и от способности θ испытуемого выполнять задания.
Рис. 2.1.Зависимость вероятности верного выполнения задания от способности испытуемого
26

Формула (2.1) описывает логистическую кривую, изображенную на рис. 2.1 при трудности задания β = 4. В случае заданий с несколькими оцениваемыми шагами формула (2.1) описывает условную вероятность выполнения шага, если предыдущие шаги выполнены верно. В теории IRT такая модель называется Partial Credit Model (PCM) [6]. В данном пособии не рассматриваются вопросы, связанные с вычислением IRT-параметров β и θ заданий и испытуемых. Методы определения этих величин достаточно подробно описаны в [2, 6].
Информационная функция задания [2] в логистической модели равна производной вероятности верного выполнения задания по способности (рис. 2.2):
I = dPdθ = P(1− P) .
Рис. 2.2. Зависимость информационной функции от способности испытуемого
Информационная функция теста равна сумме информационных функций отдельных заданий. Как уже указывалось, дисперсия результата выполнения дихотомического задания ( j-го) равна
σ2j = Pj (1− Pj ) . Видно, что эта дисперсия совпадает с информацион-
ной функцией задания. В IRT предполагается, что при заданном уровне способности θ результаты выполнения отдельных заданий независимы. Поэтому дисперсия суммарного балла S будет равна сумме дисперсий отдельных заданий σ2s = ∑σ2j , а эта величина
27

равна сумме информационных функций заданий, т.е. информационной функции теста σ2s = ∑I j = I . Поэтому разброс набранных
баллов, определяемый как величина стандартного отклонения, равен квадратному корню из информационной функции σs = I . Эта оценка неопределенности балла может быть соотнесена с неопределенностью величины способности θ. Вероятная величина суммарного балла S при данной способности есть сумма вероятных баллов за отдельные задания, т.е. сумме вероятностей выполнения отдельных (дихотомических) заданий:
S = ∑Pj .
Поэтому производная от суммарного вероятного балла равна сумме производных от вероятностей для отдельных заданий, а эта сумма равна сумме информационных функций отдельных заданий, т.е. информационной функции теста:
dSdθ =∑dPdθj = ∑I j = I .
Разброс (стандартное отклонение) суммарного балла при достаточно большом количестве заданий связан с разбросом (стандартным отклонением) способности с помощью этой производной:
σs = dSdθ σθ .
Отсюда легко получаем оценку стандартного отклонения способности:
|
σs |
|
I |
|
1 |
. |
|
σθ = dS = |
I = |
I |
|||||
|
|||||||
|
dθ |
|
|
|
|
Чем больше информационная функция, тем лучше определяется способность. Погрешность определения способности равна обратному корню из информационной функции (рис. 2.3):
σθ =1/ I . (2.2)
Видно, что наибольшая точность измерения достигается в точке плюс 4, т.е. при способности, равной трудности соответствующего задания в модели IRT. Для повышения точности измерения спо-
28

собности нужно увеличивать информационную функцию. Увеличение информационной функции, во-первых, достигается ростом количества заданий в тесте, т.е. величины максимального первичного балла; во-вторых, при данной способности значение информационной функции может быть увеличено подбором заданий с трудностями, близкими к данной величине способности. При этом следует иметь в виду, что в других точках информационная функция уменьшится, а величина ошибки способности возрастет.
Рис. 2.3. Зависимость погрешности измерения от способности испытуемого
Если анализируется точность определения способности в области низких значений информационной функции, нужно иметь в виду, что на шкале первичных баллов S погрешность отсчета равна единице. В этом случае получаем
σθ = |
σs |
= |
1 |
, |
(2.3) |
|
dS |
I |
|||||
|
|
|
|
dθ
т.е. в области низких и высоких способностей при I < 1 погрешность равна информационной функции в минус первой степени, а это может быть больше, чем информационная функция в степени минус одна вторая. В этом случае график зависимости ошибки от способности имеет три участка. На первом и третьем (крайних) –
это гипербола 1/I, а на втором (среднем) – это функция 1 / I . При
29

больших значениях I погрешность, рассчитанная по формуле 1/I, занижает реальную погрешность метода. Соотношение между погрешностью показания (2.2) и отсчета (2.3) зависит от количества заданий в тесте (от максимального балла за тест).
На рис. 2.4–2.6 представлены зависимости величин погрешностей показания и отсчета способностей от количества заданий в тесте. Предполагается, что все задания дихотомические и имеют одинаковые информационные функции.
Рис. 2.4. Зависимость погрешности измерения от способности испытуемого, n = 20
Рис. 2.5. Зависимость погрешности измерения от способности испытуемого, n = 50
30