- •В.И. Звонников, м.Б. Челышкова Контроль качества обучения при аттестации: компетентностный подход Список сокращений
- •Введение
- •1. Качество результатов обучения и его оценка
- •1.1. Современные тенденции развития образования: императив качества
- •1.2. Основные подходы к трактовке качества образования в России и за рубежом
- •1.3. Зарубежный опыт реализации компетентностного подхода к оцениванию качества результатов обучения
- •1.4. Компетентностный подход и оценивание качества результатов обучения с позиций федеральных государственных образовательных стандартов нового поколения
- •1.5. Показатели качества образования
- •1.6. Системы менеджмента и оценки качества образования
- •1.7. Эвалюация в образовании
- •Практические задания и вопросы для обсуждения
- •2. Основы теории педагогических измерений
- •2.1. Понятийный аппарат теории педагогических измерений
- •2.2. Переменные и компоненты измерений в образовании. Надежность и валидность результатов измерения
- •2.3. Объективность педагогических измерений
- •2.4. Размерность пространства измерений
- •2.5. Уровни и шкалы измерений
- •2.6. Бипарадигмальная методология
- •Практические задания и вопросы для обсуждения
- •3. Основные подходы к разработке измерителей
- •3.1. Общие подходы к интерпретации результатов педагогических измерений
- •3.2. Нормативно-ориентированный подход и стандартизация тестов
- •3.3. Критериально-ориентированный подход
- •3.4. Задачи тестирования и виды тестов
- •3.5. Инновационные измерители в контексте компетентностного подхода
- •3.6. Основные этапы разработки аттестационных измерителей
- •Практические задания и вопросы для обсуждения
- •4. Аттестационные тесты. Их содержание, планирование, отбор и экспертиза
- •4.1. Целеполагание при планировании содержания педагогического теста
- •4.2. Планирование содержания теста
- •4.3. Общие принципы отбора содержания аттестационных тестов
- •4.4. Экспертиза качества содержания аттестационных тестов
- •Практические задания и вопросы для обсуждения
- •5. Формы тестовых заданий
- •5.1. Общие требования к заданиям тестов и классификация их форм
- •5.2. Задания с выбором одного или нескольких правильных ответов
- •Примеры заданий
- •5.3. Задания с конструируемым ответом
- •5.4. Задания на установление соответствия
- •5.5. Задания на установление правильной последовательности
- •5.6. Сравнительная характеристика форм тестовых заданий
- •1. Задания с двумя ответами
- •2. Задания с выбором из четырех-пяти ответов
- •3. Задания с конструируемыми регламентированными ответами
- •4. Задания со свободно конструируемыми ответами
- •5. Задания на соответствие
- •Практические задания и вопросы для обсуждения
- •6. Статистический анализ качества тестовых заданий и тестов
- •6.1. Классическая теория и методики конструирования тестов
- •6.2. Математико-статистический анализ качества тестов и тестовых заданий на основе классической теории тестов
- •6.3. Оценивание надежности и валидности педагогических тестов
- •6.4. Метод Кьюдера-Ричардсона для дихотомических оценок
- •6.5. Надежность и стандартная ошибка измерения
- •6.6. Валидность гомогенных тестов
- •Практические задания и вопросы для обсуждения
- •7. Сертификация аттестационных тестов
- •7.1. Общие сведения о системе сертификации педагогических тестов
- •7.2. Требования к качеству педагогических тестов
- •7.3. Требования к содержанию аттестационных тестов
- •7.4. Требования к статистическим характеристикам теста
- •7.5. Требования к характеристикам тестовых заданий компьютеризованного банка
- •7.6. Порядок сертификации тестов
- •Заключение
- •Словарь терминов
- •Список литературы
6.3. Оценивание надежности и валидности педагогических тестов
Общие представления о надежности и валидности были введены ранее. Оценка надежности нормативно-ориентированных тестов проводится различными методами, которые по способу осуществления можно условно разделить на две группы [28, 36]. Первая группа методов базируется на двукратном тестировании, проводимом с помощью одного и того же теста либо с помощью двух параллельных форм теста. Вторая группа предполагает однократное тестирование при оценке надежности теста. На практике стараются использовать вторую группу методов, поскольку организация повторного тестирования, как и разработка параллельных форм, всегда сопряжена с определенными трудностями и дополнительными затратами со стороны создателей тестов. Обычно вне зависимости от метода оценка надежности строится на подсчете корреляции между двумя наборами данных. Логика рассуждений при этом довольно проста: чем выше корреляция, тем надежнее тест.
Для маленькой выборки корреляцию можно оценить визуально, как в приведенном далее примере (табл. 6.8). В рассматриваемом гипотетическом примере три теста А, В и С из 10 заданий дважды выполняла одна и та же выборка из 10 студентов.
Тест А обладает оптимальной надежностью, так как результаты 10 студентов остались прежними: баллы и места учеников не изменились после повторного выполнения теста. Подсчет корреляции результатов первого и второго тестирования даст коэффициент корреляции, равный единице. Тест В абсолютно ненадежен: те, кто имел самые высокие баллы в первом тестировании, получают самые низкие во втором после повторного применения этого же теста. Полное отсутствие воспроизводимости баллов испытуемых указывает на минимальную надежность теста, поэтому (r н)в = –1. Тест С обеспечивает хаотичное изменение результатов, хотя баллы отдельных студентов (3-го и 9-го) будут воспроизведены при повторном выполнении теста. Скорее всего, надежность 3-го теста близка к нулю. Естественно, что рассмотренные гипотетические ситуации не встречаются на практике. Обычно коэффициент надежности принимает положительные значения, но никогда не бывает равен единице даже для существующих десятилетиями, получивших всеобщее признание очень хороших тестов.
Таблица 6.8 Результаты двукратного выполнения трех тестов
Ретестовый метод оценки надежности (test-retest reliability) основан на подсчете корреляции индивидуальных баллов испытуемых, полученных в результате двукратного выполнения ими одного и того же теста. Обычно повторное тестирование проводится через 1–2 недели, когда испытуемые еще не успели забыть учебный материал и незначительно продвинулись в усвоении новых знаний. При таких условиях повторного предъявления теста низкая корреляция между результатами тестирования будет следствием не изменения состояния испытуемых, а применения ненадежного теста.
Для подсчета коэффициента надежности по методу повторного тестирования используется формула
(6.9)
где (r н)рет — коэффициент надежности теста по ретестовому методу, X i — индивидуальный балл i -го испытуемого в первом тестировании, Y i — индивидуальный балл i -го испытуемого во втором тестировании (i = . 1, 2, …, N ).
Для удобства вычисления коэффициента надежности по ретестовому методу данные можно заносить в табл. 6.9.
Пример подсчета по табл. 6.9 можно привести для исходной матрицы. Выбирая ее данные в качестве результатов первого тестирования и добавляя результаты произвольные второго тестирования можно подсчитать коэффициент надежности ретестовым методом (табл. 6.10).
После подстановки чисел из нижней строчки таблицы в формулу (6.9) коэффициент надежности будет
Значение r н =̣ 0,78 указывает на невысокую надежность теста.
Применение ретестового метода может привести к ошибочным оценкам надежности в тех случаях, когда проводится слишком близкое по времени повторное применение теста. Студенты запоминают ответы к заданиям и при повторном тестировании значительно повышают свои результаты, что искажает оценку надежности теста.
Таблица 6.9 Сводная таблица для оценки надежности (ретестовый метод)
Таблица 6.10 Пример подсчета надежности ретестовым методом
Другой метод параллельных форм (parallel-form reliability) основан на однократном применении двух параллельных вариантов теста. Он непригоден в тех случаях, когда при тестировании используется один вариант теста.
В некоторых странах, например в США, благодаря соблюдению всех требований к проведению тестирования, применение единственного варианта не снижает необходимый уровень информационной безопасности, зато обеспечивает высокую сопоставимость результатов выполнения теста. Таким образом, если тест только один, то для оценки надежности методом параллельных форм приходится создавать параллельный вариант теста, затем с затратами сил, средств и времени на апробацию доказывать правомерность гипотезы о параллельности и только потом оценивать надежность исходного теста.
В другой ситуации, когда изначально разрабатываются параллельные варианты теста, как в ЕГЭ, оценка надежности методом параллельных форм также требует значительных трудозатрат. Необходима тщательная ротация вариантов в группе испытуемых для обеспечения сходных выборок учащихся на параллельных вариантах теста. Даже при стратификации выборки испытуемых и ротации вариантов достоверность оценок надежности снижается из-за того, что параллельные формы – это, скорее, теория, чем реальность, поскольку на практике, несмотря на все усилия авторов, как правило, обнаруживаются статистически значимые отличия в характеристиках параллельных вариантов.
Для оценки надежности методом параллельных форм используется формула (6.9). В ней X i (i = 1, 2, …, N ) – индивидуальные баллы испытуемых в первой форме, а Y i (i = 1, 2,…, N ) – во второй. А далее все вычисления с точностью повторяют подробно рассмотренный пример.
Метод оценивания надежности, основанный на расщеплении результатов по тесту на две части (split-half method), наиболее распространен из-за своего удобства. Он позволяет вычислить коэффициент надежности при однократном выполнении испытуемыми теста. Для оценки надежности результаты тестирования делят на две части: в одну включают данные студентов по четным, а в другую – по нечетным заданиям, считая при этом, что получены сходные по содержанию части теста. Правда, деление на две части не единственный способ, возможны и другие варианты, когда выделяют большее число частей при оценке надежности теста.
Для оценивания надежности методом расщепления результаты студентов заносят в табл. 6.11.
Таблица 6.11 Сводная таблица для оценки надежности (метод расщепления)
Далее для таблицы данных используют формулу (6.9), в которой роль результатов в первом тестировании выполняют данные по четным заданиям, а во втором – по нечетным.
Пример подсчета по данным исходной матрицы приведен в табл. 6.2. Результаты испытуемых по четным и нечетным заданиям приводятся в табл. 6.12.
После подстановки чисел из табл. 6.12 в формулу (6.9) получается
По сравнению с прежним значением 0,78 надежность получилась намного меньше, что можно было предвидеть, поскольку тест укоротился в два раза (после расщепления подсчет надежности был по пяти заданиям вместо десяти).
Таблица 6.12 Пример подсчета надежности методом расщепления
Для коррекции оценки надежности в соответствии с длиной исходного теста используется формула Спирмена–Брауна
где в числителе и знаменателе дроби стоит коэффициент надежности для половины заданий теста, а слева скорректированный коэффициент надежности с учетом всех заданий теста.
Тогда для рассматриваемого примера коэффициент надежности теста из десяти заданий будет
После коррекции коэффициент надежности получился приблизительно такой же, как и в предыдущем случае подсчета ретестовым методом (r н = 0,78). Применение формулы Спирмена–Брауна подтверждает высказанное ранее предположение: увеличение длины повышает надежность теста.
Приведенный метод оценивания надежности имеет свои ограничения в применении. Он основан на допущении параллельности двух половин теста, что не всегда и не в полной мере может оказаться верным. Корреляция двух половин возрастает по мере роста гомогенности теста. В этой связи метод расщепления нередко называют методом оценки внутренней состоятельности (согласованности) теста (Internal-Consistency Method).
