
- •Пример упорядоченной матрицы
- •Пример. Анализ правдоподобности дистракторов в заданиях закрытой формы с четырьмя ответами
- •§ 1. Смысл проблемы
- •§ 2. Экспериментальное повторение измерения
- •§ 3. Обработка результатов
- •Однократное тестирование (метод расщепления теста).
- •Ретестовый метод.
- •Метод параллельных форм.
- •1) Содержательная валидность (content validity).
- •Критериальная валидность.
- •Конструктная (концептуальная) валидность.
- •1Классификация [35]
- •2Классификация [40]
§ 2. Экспериментальное повторение измерения
А) При определении сенсорных порогов принято повторять несколько серий предъявлений стимулов одному и тому же испытуемому, причем каждая серия может быть использована для определения «порога в данный момент» (Фресс, 1956, стр. 284).Понятно, что это выражение не следует понимать буквально, оно может обозначать лить результат, полученный после ряда предъявлений, требующего определенного времени, в течение которого значение порога варьировало, в частности вследствие изменений возбудимости периферических рецепторов, изменений в установке испытуемого, влияния ряда измерений.
К этой интросубъективной вариабильности прибавляется интерсубъективная вариабильность, которая может быть весьма значительной.
Наконец, в таких исследованиях, как исследования Фехнера или Стивенса, принимающих за объект общую форму закона, устанавливающего зависимость между физической интенсивностью стимула и интенсивностью ощущения, предполагается, что этот за
кон представляет форму, которая повторяется, по крайней мере в известной степени, не только когда варьируются предъявления и испытуемые, но и тогда, когда изменяется физическая природа стимула.
Б) Что касается тестов, то для повторения измерений с целью определения их надежности обычно применяются три метода.
Первый из них состоит в последовательном двухкратном или многократном применении после некоторого временного интервала того же самого теста к тем же самым испытуемым. Можно проводить обучение, результаты которого контролируются в момент обработки данных, или экспериментально ограничивать его влияние, удлиняя интервал, отделяющий повторное применение теста, или используя «параллельные» тесты.
Метод параллельных тестов предполагает, что пользуются по крайней мере двумя различными заданиями, которые, по мнению исследователей, Moryi быть заменены друг другом. Если теоретическое определение подобных заданий и не вызывает затруднений, то их создание весьма сложно (Гулликсен, 1950, гл. 14). Одних и тех же испытуемых последовательно подвергают двум параллельным испытаниям и считают при этом, что таким образом производится повторное измерение.
Два предыдущих метода предполагают некоторый промежуток времени между повторениями. При первой из двух различаемых нами концепций надежности можно опасаться, что в течение этого периода произойдут вариации истинного измерения, которые будут в таком случае трактоваться как вариации ошибки. Поэтому предлагают рассматривать тест, составленный из ряда вопросов, как два совмещенных параллельных теста: вопросы четного ранга дают одно измерение, вопросы нечетного ранга — другое. Это метод «чета — нечета» или, в более общем плане, метод «расщепления».
§ 3. Обработка результатов
Дисперсия «порогов в данный момент» служит простым средством определения надежности измерения порога, произведенного на одном испытуемом. Подобно тому, как величина порога является медианой порогов в данный момент, его вариабильность часто выражается посредством соответствующего квартильного отклонения. Если в опыте участвовало несколько испытуемых, пользуются дисперсией распределения порогов. Когда для общего определения зависимости между физической величиной стимула и величиной ощущения предлагается один-единственный закон, следует сначала рассмотреть в специальных экспериментах, приводящих к установлению закона для каждой сенсорной модальности, иытра- и интериндивидуальную дисперсию, о которой мы только что говорили. В том случае, когда предлагаемый закон
содержит параметр, переменный от одной сенсорной модальности к другой, дисперсия значений этого параметра требует особых комментариев.
В области тестов долгое время ограничивались вычислением корреляции между двумя измерениями, получаемыми посредством одного из трех экспериментальных методов повторения, причем этот коэффициент корреляции получил название «коэффициента надежности» и рассматривается как свойство теста. Введение в психологию статистического метода дисперсионного анализа, которым мы обязаны Фишеру, привело к изменению самой постановки проблемы. Этот метод позволил определить относительное значение той части дисперсии, которая выражается в «истинных» различиях между испытуемыми, и той части, которую следует отнести только к случайным флюктуациям. Однако вскоре оказалось, чта нельзя говорить об «истинной» дисперсии и дисперсии «ошибок» в абсолютном смысле и что эти два выражения представляют собой лишь рубрики, в которые каждая из экспериментальных процедур повторения классифицирует различные факторы вариации (Кронбах, 1947). Понятно, что это техническое достижение скорее способствует принятию второй концепции надежности, нежели первой.
Интерпретация и использование оценок надежности зависит, очевидно, прежде всего от той из этих двух концепций, которая эксплицитно или имплицитно принимается. Помимо этого, они зависят от выбираемого метода экспериментального повторения.
Надежность - это характеристика теста, отражающая точность педагогического измерения, а также устойчивость результатов тестирования к воздействию посторонних (случайных) факторов.
Т.е. надежность теста определяется тем, насколько получаемые показатели являются стабильными и насколько они не зависят от случайных факторов.
Тест является надежным, если при повторном тестировании (при условии, что подготовка испытуемого не изменилась) он дает примерно такие же результаты. Разумеется, речь идет о сравнении показателей одних и тех же испытуемых. Это значит, что надежному тесту должна быть свойственна согласованность показателей тестирования, полученных при повторном тестировании, и можно быть уверенным в том, что тест выявляет одно и то же свойство.
Применяются разные способы проверки надежности тестов.
1. Один способ — это только что упомянутое повторное тестирование: если результаты первого и через определенное время проводимого повторного тестирования покажут наличие достаточного уровня корреляции, то это будет свидетельствовать о надежности теста.
2. Второй способ связан с применением другой эквивалентной формы теста и наличием высокой корреляции между ними (некоторые тесты предлагаются пользователям в двух формах; например, тест-опросник Айзенка EPI — по определению темперамента — имеет равнозначные формы А и Б).
3. Возможно и применение третьего способа оценки надежности, когда тест допускает его расщепление на две части и одна и та же группа испытуемых обследуется с применением обеих частей теста.
Надежность теста показывает, насколько результаты тестирования могут быть устойчивы, насколько точно измеряются психологические параметры и насколько высокой может быть мера доверия исследователя к полученным результатам.
(Загвязинский В.И., Атаханов Р. Методология и методы психолого-педагогического исследования. – М.: 2003. – С. 104-105.
Педагогическое измерение не исключает некоторой ошибки измерения. При проведении тестирования могут возникнуть как случайные, так и систематические ошибки.
Систематические ошибки могут возникнуть в результате использования некачественного теста (некорректная формулировка заданий, содержание тестового задания не соответствует проверяемому материалу, плохо разработанная инструкция), т.е. это те ошибки, которые чаще всего привносятся самими разработчиками. При повторном тестировании систематическая ошибка как правило остается постоянной или закономерно меняется от измерения к измерению.
Случайные ошибки возникают по непредвиденным обстоятельствам и зависят не от качества теста, а от поведения и состояния испытуемого (самочувствие, усталость, волнение учащегося, опоздание).
Статистическая оценка надежности теста предполагает учет ошибки измерения.
По классической теории тестов наблюдаемый балл (X) включает в себя истинный балл (T) испытуемого и некоторую ошибку измерения (E). Формула наблюдаемого балла будет выглядеть следующим образом:
X = T + E
Истинный балл определяется как показатель испытуемого в гипотетической генеральной совокупности заданий бесконечного теста.
Ошибка измерения - статистическая величина, отражающая степень отклонения наблюдаемого балла от истинного балла испытуемого. Дисперсия наблюдаемых тестовых баллов будет равна сумме дисперсий истинных и ошибочных составляющих.
Соответственно, чем ближе показатель дисперсии наблюдаемых баллов к дисперсии баллов истинных, тем выше корреляция между множеством наблюдаемых баллов (Х) и множеством истинных баллов (Т), т.е. тест надежнее. Поэтому надежность теста (коэффициент надежности теста - rн) определяется через отношение дисперсии истинного балла к дисперсии наблюдаемого тестового балла.
Стандартная ошибка измерения находится как корень квадратный из дисперсии ошибочной компоненты
Оценка надежности теста.
Для оценки надежности нормативно-ориентированного теста используются 2-е группы методов:
Двукратное тестирование:
ретестовый метод;
метод параллельных форм.