- •1.1 Педагогические принципы контроля и диагностики
- •1.2 Функции и методы контроля
- •1.3 Классификация педагогических тестов
- •1.4 Методики построения шкалы оценки уровня знаний
- •1.5 Принципы построения шкал в задачах тестового контроля
- •1.6 Формализованные модели классификации обученности
- •1.7 Унифицированная дидактическая классификация
- •1.8 Математическое моделирование процедур тестового контроля
- •1.9 Основные принципы классической теории тестового контроля
- •1.10 Формальные модели irt-теории тестового контроля
- •1.11 Факторный, латентно-структурный и кластерный анализ в системе моделирования процедур тестового контроля
- •Оглавление
1.8 Математическое моделирование процедур тестового контроля
Под тестированием понимается процесс организации такого целенаправленного воздействия на субъект, в результате которого осуществляется оценка знаний, умений и навыков обучаемого. Основными подходами к построению математических моделей тестового контроля можно считать: классическую теорию; IRT-теорию; факторный анализ; латентно структурный анализ; кластерный анализ.
1.9 Основные принципы классической теории тестового контроля
Классическая теория основана на обработке статистических данных по результатам тестовых результатов. В качестве модели применяет простейшая аддитивная модель, в которой на истинный бал накладывается ошибка. В классической теории тестов зарубежные и российские авторы исходили из идеи параллельного измерения интересующего свойства с помощью двух и большего числа тестов, имеющих общее предметное содержание и сходные статистические характеристики [78]. В рамках этой теории приняты следующие постулаты:
Эмпирически получаемый результат измерения (X) представляет собой сумму истинного компонента измерения (T), обычно неизвестного, и ошибочного (E), также неизвестного:
X=T+E. |
(1.1) |
Истинный компонент измерения можно выразить как математическое ожидание E(X). Ошибочный компонент измерения представляет собой результат влияния случайных ошибок. Среднее арифметическое этих ошибок принимается равным нулю. Дисперсии ошибочных компонентов параллельных тестов равны. Корреляция истинных и ошибочных компонентов по множеству испытуемых равна нулю.
Трудность задания определяется эмпирически и в последнее время она соответствует доле неправильных ответов:
|
(1.2) |
Wj - число неправильных ответов
N - число испытуемых
В теории тестов и в практике тестирования традиционно рассматриваются два основных критерия, по которым оценивается качество теста. Первый – это надежность тестов, ассоциируемая обычно с идеей точности измерения. Второй критерий – это валидность теста, определяемая обычно как способность теста измерять то, что он призван, по замыслу авторов, измерить. При измерении надежности предполагается линейная модель, в которой дисперсия балла равна сумме истинного и ошибочного.
Формула Kuder-Rishardson (KR-20) определяет коэффициент надежности при однократном тестировании:
|
(1.3) |
где
- сумма дисперсий заданий теста;
S2X - дисперсия тестовых баллов испытуемых;
K – число заданий в тесте.
Формула D.Armor определяет коэффициент надежности теста как:
|
(1.4) |
1 - наибольшее значение корня характеристического уравнения |R-I|=0
Эффективным называется тест, который лучше других измеряет знания интересующего уровня подготовленности меньшим числом заданий, качественнее, быстрее, дешевле, и все это, по возможности, одновременно; эффективный тест представляет собой не одну какую-либо фиксированную систему заданий, а множество систем заданий, каждая из которых является оптимальной для измерения знаний на требуемом уровне подготовленности.
1.10 Формальные модели irt-теории тестового контроля
Более формальной является Item Response Theory (IRT) [63], в которой предполагается существование аналитических выражений (в общем случае нелинейных) для задания вероятностей правильных ответов тестируемых определенного уровня за задачи определенного уровня сложности. Такой подход при описании модели тестируемого позволяет использовать эту модель во множестве аспектов: для модели регрессионного анализа, где численными методами оценивается неизвестный латентный параметр; для моделей классификации, так как ITR-модель дает возможность вычислить параметры распределений гипотетических групп классификации; для использования в имитационных моделях для генерации результатов ответов тестируемого (метод Монте-Карло).
IRT нацелена на оценивание латентных качеств личности и параметров заданий теста на основе математико-статистических моделей. К наиболее значимым преимуществам IRT обычно относят: устойчивые объективные оценки параметра, характеризующие уровень знаний испытуемых; устойчивые, объективные оценки параметра трудности заданий, не зависящие от свойств выборки испытуемых, выполняющих тест; измерение значений параметров испытуемых и заданий теста в одной и той же шкале, имеющей свойства интервальной шкалы; возможность предсказания вероятности правильного выполнения теста любым испытуемым в выборке до предъявления теста группе; возможность оценить эффективность различных по трудности заданий для измерения данного значения латентного параметра испытуемых.
В IRT рассматривается условная вероятность правильного выполнения i-ым испытуемым с уровнем знаний i различных по трудности заданий теста, считая i параметром i-го обучаемого, а - независимой переменной. В этом случае условная вероятность будет функцией латентной переменной :
Pi{xij=1|i}=f(i - ) i=1..N. |
(1.5) |
Аналогично вводится условная вероятность правильного выполнения j-го задания, трудности j различными испытуемыми группы. Здесь независимой переменной является , а- j – параметр, определяющий трудность j-го задания теста:
Pi{xij=1|i}=f( - j) i=1..n. |
(1.6) |
Число параметров, входящих в аналитическое задание функций, является основанием для подразделения семейства IRT на классы. Среди логистических функций различают однопараметрическая модель G.Rasch, двухпараметрическую модель A.Birnbaum, которые являются частными случаями трехпараметрической модели A.Birnbaum:
|
(1.7) |
В каждой из представленных моделей параметры и выражаются как шкалированные показатели единой для всех моделей шкалы логитов. Введение единой шкалы для элементов двух различных множеств: значений и значения — позволяет решить ряд вопросов как теоретического, так и практического характера: появляется возможность ввести взаимосвязь между переменными в виде разности |-|, корректно сравнить результаты, полученные с помощью различных тестов, оценить трудность заданий теста независимо от уровня подготовленности групп испытуемых. Эти важные преимущества позволяют преодолеть ряд отмеченных выше существенных недостатков классической теории тестов.
По сравнению с классической теории тестирования в IRT теории используется другая мера трудности:
- мера трудности задания (IRT) или логит
трудность задания.
Уровень знаний испытуемого в IRT теории определяется как:
- уровень знания i-го испытуемого.

,