
- •Московский государственный университет путей сообщения
- •Цели работы.
- •Задачи.
- •Введение
- •Понятие адаптивного тестирования и принципы его реализации
- •Достоинства:
- •Недостатки:
- •Классические шкалы оценки знаний и Item Response Theory.
- •Item Response Theory
- •Основные допущения irt
- •Математические модели irt
- •Обработка результатов теста.
- •Расчет вероятности успеха испытуемого с заданием с определенным уровнем сложности.
- •Построение характеристических кривых для заданий теста (icc)
- •Информационная функция
- •Список используемой литературы
Item Response Theory
В качестве средства обеспечения содержательной корректности метрик качества знаний в 50-е годы была предложена и с начала 80-х годов стала популярной Item Response Theory – IRT.
В IRT предполагается, что получаемые баллы оказываются внешними проявлениями результатов действия неких ненаблюдаемых переменных — латентных параметров, и ставится задача оценить эти параметры по результатам выполненным измерениям.
Первоначальный
вариант IRT
связан с именем Г.Раша. В IRT
результат измерения считается внешним
проявлением латентной переменной, и
ставится задача восстановить оценку
латентной переменной по измерениям
видимых переменных. Для
-го
испытуемого значение латентной переменной
,
обычно интерпретируемой как оценка
готовности, и уровень трудности
-го
задания
расположены на одной шкале, измеримы в
сравнимых единицах, которые в этой
теории называютсялогиты,
и поэтому вычислима разность
.
В
IRT предполагается существование семейства
функций вида
,
где
—
вероятность того, что
-й
испытуемый выполнит
-е
задание. Точный вид зависимости может
меняться, в модели могут также могут
дополнительные параметры. Таким образом,
предполагается, что вероятность успеха
зависит только от разницы между уровнем
готовности и сложностью задания, при
этом уровень готовности отдельных
испытуемых и уровень сложности задания
предполагаются независимыми как минимум
в статистическом смысле.
При
использовании логистической функции,
можно определить вероятность успеха
-го
испытуемого при решении
-го
задания как
,
гдеk
— некий масштабный множитель, который
используется для согласования различных
шкал и моделей, и соответствующие
интегральные характеристики сложности
заданий для
-го
испытуемого и готовности испытуемого
к решению
-го
задания.
Часто
вместо модели Раша используется модель
Фергюссона, в которой вместо логистической
функции используется функция нормального
распределения, тогда для совместимости
этих двух моделей в модели Раша
используется коэффициент
.
Принято считать, что модель Раша позволяет
отделить трудности заданий от готовности
испытуемых, т. е. от субъективной сложности
заданий.
В
однопараметрической модели Раша заложено
предположение о равнозначности всех
заданий. Для коррекции этого предположения
вводится дополнительный параметр
,
характеризующий различительную силу
заданий. Отсюда получается исправленная
модель вида
,
известная под названием двухпараметрическойIRT,
или модели Бирнбаума. Для учёта поправок
на угадывание Бирнбаум предложил
учитывать ещё один дополнительный
параметр
и получил трёхпараметрическую модель
вида
,
где
можно оценить, например, как вероятность
случайного угадывания правильного
ответа на соответствующий вопрос. Иногда
также
называют уровнем или коэффициентом
псевдоуспеха, то есть вероятностью
ответить на задание правильно для
испытуемых с минимальной готовностью.
Очевидно,
что при
получается двухпараметрическая модель
Бирнбаума, а при
и
— логистическая модель Раша.
Оценки
параметров
и
обычно выполняются по известным
статистическим приёмам, например, через
построение подходящей функции
правдоподобия. Известны также быстрые
методы приближённой оценки этих
параметров. При ясности вычислительных
моделейIRT,
однако, отмечены вопросы о содержательной
интерпретации заложенных в них параметров.
В частности, отмечены «краевые эффекты»
этих моделей, это означает, что испытуемые,
ответившие на все вопросы и не ответившие
ни на один вопрос, не должны учитываться
в общей статистике.
IRT считается общепризнанной, и обычно ставится вопрос только о калибровке по отношению к соответствующим параметрам.
Таким образом, центральной проблемой в оценке качества знаний оказывается проблема оценки субъективной когнитивной сложности или, как минимум, калибровка измерительного инструментария по критерию когнитивной сложности.