- •Дискриминативность заданий теста.
- •Метод контрастных групп:
- •Результаты эксперимента
- •2.Трудность заданий теста.
- •Субъективно – психологическая;
- •Вычисление индекса трудности
- •Расчет индекса трудности.
- •Связь между трудностью задания и назначением теста.
- •3.Проблема надежности и достоверности результатов теста. Виды надежности
- •4.Виды надёжности.
- •1. Оценка однородности (гомогенности) или внутренней согласованности теста.
- •Ретестовая надежность.
- •Выводы в форме таблицы: Факторы, учитываемые различными коэффициентами надежности
- •5. Валидность и способы ее вычисления
- •Виды валидности и способы её оценки.
- •1. Содержательная валидность (логическая).
- •2 Критериальная валидность (эмпирическая валидность или валидность по критерию)
- •3. Конструктная (концептуальная) валидность.
- •Характеристика видов валидности
Ретестовая надежность.
Под ретестовой надежностью понимается согласованность результатов теста, получаемых при повторном его применении к тем же обследуемым в различные моменты времени, с использованием разных наборов эквивалентных заданий или при изменении других условий обследования.
Результаты выполнения обследуемым конкретного теста могут зависеть от того, "с какой ноги он сегодня встал". Если человек не выспался, болен, в плохом эмоциональном состоянии, то его результаты при выполнении, например, теста, исследующего моторику руки, могут оказаться существенно ниже "истинных". При благоприятных обстоятельствах обследуемый может наоборот показать более высокий результат.
Если тест очень подвержен таким колебаниям, то его результаты практически невозможно интерпретировать, потому что остается неясным, или это его "истинный" показатель, или это случайность. Поэтому при разработке теста стараются максимально снять эту проблему, подбирая такие задания (иногда их называют "пунктами теста"), которые в наименьшей степени были бы подвержены влиянию временных колебаний состояния обследуемого. Но идеала достигнуть все равно нельзя.
Результат этих усилий отражается в коэффициенте ретестовой надежности, который является ничем иным, как коэффициентом корреляции между двумя выполнениями теста с временным промежутком между ними. На одной и той выборке испытуемых ( не менее 30 человек, участвующих в пилотажном психометрическом исследовании) проводят первое тестирование Х, а затем повторное тестирование У. Интервал, как правило не менее двух недель, что гарантирует забывание вопросов теста. Как правило, этот интервал колеблется от 2 недель до 6 месяцев. Затем для двух рядов значений Х и У рассчитывается коэффициент корреляции.
Например, коэффициент ретестовой надежности 0.93 позволяет сделать вывод, что 93% различий в результатах выполнения теста действительно вызваны реальными различиями между обследуемыми, а 7% необходимо отнести на счет случайных временных колебаний в их состоянии.
Как правило, коэффициенты ретестовой надежности весьма высоки у большинства тестов. Например, для теста САТВ, используемого Службой занятости США, они колеблются в пределах от 0.80 до 0.90.
Несколько ниже они у личностных опросников, поскольку измеряемые ими психологические реальности значительно менее стабильны, чем, скажем, интеллект, поэтому на надежности теста сказываются не только погрешности в самом инструменте, но и колебания измеряемого параметра.
Ретестовая надёжность - характеристика надёжности путём повторного обследования испытуемых с помощью одного и того же теста. В этом случае надёжность понимается как степень согласованности результатов теста, полученных при первичном и вторичном тестировании, по отношению к тем же самым испытуемым, в разные моменты времени, в разных условиях тестирования: 1- 2 недели, в другом помещении, до или после уроков и т. п. Распределение оценок испытуемых при выполнении теста, измеряющее одно качество, будет совпадать с нормальным распределением. Каждый испытуемый занимает определённое место по оценкам теста и теоретически это место будет постоянным.
Следовательно, повторное выполнение теста теми же лицами должно давать распределение значений шкалы оценок идентичное первому. Тогда методика как измерительный инструмент точна и надёжна.
Надёжность параллельных форм (надежность взаимозаменяемых форм).
В этом случае используются две формы (например, А и В) одного и того же теста, с использованием единых принципов отбора заданий. Результаты по двум формам сопоставляются друг с другом. Коэффициент надежности есть не что иное, как коэффициент корреляции между двумя формами теста. Если тест надежен, то обследуемый, лучше всех справившийся с одной формой, должен лучше всех справиться со второй и наоборот. Если же этого не происходит, значит результаты каждой формы зависят лишь от конкретного набора заданий, а не от того, что у одного обследуемого измеряемый показатель действительно выше, чем у другого.
Характеристика надёжности с помощью взаимозаменяемых форм теста (вариант А, вариант В) происходит следующим образом: испытуемые обследуются вначале с использованием основного набора заданий, а затем с применением аналогичных дополнительных заданий. Или есть другой способ, испытуемые делятся на две равные части, одной группе предлагается форма А, другой форма В, Через некоторое время (обычно две недели) повторное тестирование в обратном порядке. Эта процедура снимает недостатки ретестовой надёжности, так как уменьшается возможность тренировки и запоминания заданий теста.
Показателем надёжности является коэффициент корреляции между первым и вторым обследованием, который оценивает как надёжность, так и степень соответствия результатов обеим форм теста. Если они применяются одна за другой, то корреляция отражает их взаимозаменяемость.
Отношения между параллельными формами имеет сложный характер. Оба набора должны отвечать одним и тем же требованиям, измерять идентичные показатели и давать сходные результаты; и вместе с тем они должны быть независимы друг от друга. На практике это не всегда осуществимо (скажем у личностных опросников), что снижает диапазон применения надёжности параллельных форм.
4. Надежность субъективных оценок. Этот коэффициент надежности показывает, насколько получаемые обследуемым результаты зависят от субъективного влияния лица, который их оценивает. Известно, что за одно и то же, а мнение два учителя могут поставить ученику различные оценки. Степень согласованности этих оценок и является показателем надежности самого способа оценивания. Таким образом, коэффициент надежности субъективных оценок есть на что иное, как коэффициент корреляции между оценками результатов выполнения теста двумя экспертами.
