Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Курс лекций ССОРО.doc
Скачиваний:
2
Добавлен:
01.07.2025
Размер:
693.25 Кб
Скачать

Пример упорядоченной матрицы

№ испыту-емого i

№ задания j

Индиви-дуальный балл Xi

1

2

3

4

5

6

7

8

9

10

3

0

0

0

0

0

0

1

0

0

0

1

2

1

1

0

0

0

0

0

0

0

0

2

5

1

0

1

0

1

1

0

0

0

0

4

6

1

1

1

0

0

0

1

0

0

0

4

8

1

1

1

1

0

0

0

0

0

0

4

7

1

1

1

1

0

1

0

0

0

0

5

1

1

1

1

1

1

1

0

0

0

0

6

10

1

1

1

1

1

0

0

1

0

0

6

9

1

1

1

1

1

1

1

1

1

0

9

4

1

1

0

1

1

1

1

1

1

1

9

Число прав. ответов Yj

9

8

7

6

5

5

4

3

2

1

50

Основными показателями качества теста являются надежность и валидность теста.

Надежность – это характеристика теста, отражающая точность педагогического измерения, а также устойчивость результатов тестирования к воздействию посторонних (случайных) факторов.

Тест является надежным, если при повторном тестировании (при условии, что подготовка испытуемого не изменилась) он дает примерно такие же результаты.

Педагогическое измерение не исключает некоторой ошибки измерения. При проведении тестирования могут возникнуть как случайные, так и систематические ошибки. Систематические ошибки могут возникнуть в результате использования некачественного теста (некорректная формулировка заданий, содержание тестового задания не соответствует проверяемому материалу, плохо разработанная инструкция), т.е. это те ошибки, которые чаще всего привносятся самими разработчиками. При повторном тестировании систематическая ошибка, как правило, остается постоянной или закономерно меняется от измерения к измерению. Случайные ошибки возникают по непредвиденным обстоятельствам и зависят не от качества теста, а от поведения и состояния испытуемого (самочувствие, усталость, волнение учащегося, опоздание).

Статистическая оценка надежности теста предполагает учет ошибки измерения.

По классической теории тестов наблюдаемый балл (X) включает в себя истинный балл (T) испытуемого и некоторую ошибку измерения (E). Формула наблюдаемого балла будет выглядеть следующим образом:

X = T + E

Истинный балл определяется как показатель испытуемого в гипотетической генеральной совокупности заданий бесконечного теста.

Ошибка измерения – статистическая величина, отражающая степень отклонения наблюдаемого балла от истинного балла испытуемого. Дисперсия (мера рассеивания, отклонения от среднего) наблюдаемых тестовых баллов будет равна сумме дисперсий истинных и ошибочных составляющих

.

Соответственно, чем ближе показатель дисперсии наблюдаемых баллов к дисперсии баллов истинных, тем выше корреляция между множеством наблюдаемых баллов (Х) и множеством истинных баллов (Т), т.е. тест надежнее. Поэтому надежность теста (коэффициент надежности теста - rн) определяется через отношение дисперсии истинного балла к дисперсии наблюдаемого тестового балла.

.

Стандартная ошибка измерения находится как корень квадратный из дисперсии ошибочной компоненты .

Оценка надежности теста

Для оценки надежности нормативно-ориентированного теста используются две группы методов.

1) Двукратное тестирование:

  1. Ретестовый метод;

  2. Метод параллельных форм.

2) Однократное тестирование (метод расщепления теста).

Оценка надежности чаще всего строится на подсчете корреляции между двумя наборами результатов выполнения одного и того же теста или двух его параллельных форм. Чем выше корреляция, тем надежнее тест.

Какой коэффициент надежности можно считать приемлемым? Нижним пределом принято считать показатель 0,7. Если значение коэффициента надежности ниже, то надежность теста считается неудовлетворительной, так как возникает большая погрешность измерений. Для профессионально созданных тестов, которые используются в массовом тестировании и по их результатам принимаются ответственные решения, нижний предел коэффициента надежности повышается до 0,8. В тестологической практике надежность тестов находится в интервале от 0,8 до 0,95.

Величина надежности

Оценка надежности

0,90 - 0,99

Отличная

0,80 - 0,89

Хорошая

0,70 - 0,79

Удовлетворительная

Менее 0,70

Неудовлетворительная

Оценка надежности критериально-ориентированного теста

Рассмотренные выше методы определения надежности подходят только для оценки нормативно-ориентированных тестов. По мнению многих тестологов, эти методы нежелательно использовать для вычисления надежности критериально-ориентированного теста, так как дисперсия тестовых баллов в критериально-ориентированном тесте небольшая (здесь не нужна большая дифференциация баллов испытуемых), а соответственно и корреляционная оценка надежности будет низкой.

Поэтому предлагается другая методика оценки надежности. Надежность теста, ориентированного на область содержания, может быть измерена как постоянство результатов тестирования для испытуемых, которым предлагается два набора тестовых заданий, которые соответствуют одному и тому же содержанию.

Способы повышения надежности теста

  1. Увеличение количества заданий теста. Согласно классической теории тестов наблюдаемый балл состоит из истинного балла и ошибочной компоненты. Теоретически, чтобы уменьшить ошибку, надо дать как можно больше заданий. Существуют специальные методики определения оптимальной длины теста для достижения необходимой надежности. Но на практике не всегда возможно и целесообразно удлинение теста.

  2. Проанализировать тестовые задания с точки зрения соответствия формы и содержания тестовой теории. Удалить неудачные задания, подкорректировать задания с некоторыми неточностями.

  3. Применение методов, учитывающих вероятность угадывания в заданиях закрытого типа.

Валидность

Валидность еще одна важная характеристика теста, определяющая его качество. Валидность (от англ. Validity – значимость, обоснованность, пригодность) – это способность теста измерять то, для чего он предназначен.

Выделяют несколько видов валидности, которые отражают различные аспекты этого критерия качества теста: содержательную, критериальную и конструктную (концептуальную) валидность.

1. Содержательная валидность (content validity) - соответствие теста как измерительного инструмента той области содержания, знания и умения которую проверяют данным тестом.

Валидность по содержанию закладывается в тест уже на этапе работы со спецификацией теста и отбора его содержания. Для педагогических тестов содержательная валидность очень важна и оценивается она экспертным путем. Независимые эксперты определяют, насколько тест охватывает область содержания проверяемого предмета.

  1. Критериальная валидность – это характеристика теста, отражающая обоснованность, значимость его результатов по сравнению с некоторой внешней переменной (степень соответствия между результатами тестирования и внешним критерием). Практически критериальную валидность определяют как корреляцию результатов тестирования и некоторым внешним критерием. В качестве внешнего критерия могут браться результаты испытуемых по другому тесту, отметки, выставленные по методике традиционного оценивания. Критериальная валидность в зависимости от выбранного критерия может быть текущей (внешний критерий – текущие оценки) или прогностической (критерий – некоторый будущий результат).

  2. Конструктная (концептуальная) валидность. Об этом виде валидности говорится в том случае, если представление об измеряемом феномене существует только в проекте и требует доказательства. Разработчик теста только предполагает о том, как будет проявляться объект измерения. Чаще всего это относится к психологическим тестам. Для педагогических тестов понятие конструктной валидности применимо в процессе разработки теста, когда его качественные и количественные характеристики еще не имеют определенных характеристик.