Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Семинар № 4.doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
302.08 Кб
Скачать

§ 2. Экспериментальное повторение измерения

А) При определении сенсорных порогов принято повторять несколько серий предъявлений стимулов одному и тому же испы­туемому, причем каждая серия может быть использована для опре­деления «порога в данный момент» (Фресс, 1956, стр. 284).Понятно, что это выражение не следует понимать буквально, оно может обо­значать лить результат, полученный после ряда предъявлений, требующего определенного времени, в течение которого значение порога варьировало, в частности вследствие изменений возбуди­мости периферических рецепторов, изменений в установке испытуе­мого, влияния ряда измерений.

К этой интросубъективной вариабильности прибавляется интерсубъективная вариабильность, которая может быть весьма значительной.

Наконец, в таких исследованиях, как исследования Фехнера или Стивенса, принимающих за объект общую форму закона, устанавливающего зависимость между физической интенсивностью стимула и интенсивностью ощущения, предполагается, что этот за

кон представляет форму, которая повторяется, по крайней мере в известной степени, не только когда варьируются предъявления и испытуемые, но и тогда, когда изменяется физическая приро­да стимула.

Б) Что касается тестов, то для повторения измерений с целью определения их надежности обычно применяются три метода.

Первый из них состоит в последовательном двухкратном или многократном применении после некоторого временного интер­вала того же самого теста к тем же самым испытуемым. Можно про­водить обучение, результаты которого контролируются в момент обработки данных, или экспериментально ограничивать его влияние, удлиняя интервал, отделяющий повторное примене­ние теста, или используя «параллельные» тесты.

Метод параллельных тестов предполагает, что пользуются по крайней мере двумя различными заданиями, которые, по мнению исследователей, Moryi быть заменены друг другом. Если теоретиче­ское определение подобных заданий и не вызывает затруднений, то их создание весьма сложно (Гулликсен, 1950, гл. 14). Одних и тех же испытуемых последовательно подвергают двум параллельным испытаниям и считают при этом, что таким образом производится повторное измерение.

Два предыдущих метода предполагают некоторый промежуток времени между повторениями. При первой из двух различаемых нами концепций надежности можно опасаться, что в течение этого периода произойдут вариации истинного измерения, которые будут в таком случае трактоваться как вариации ошибки. Поэтому предлагают рассматривать тест, составленный из ряда вопросов, как два совмещенных параллельных теста: вопросы четного ран­га дают одно измерение, вопросы нечетного ранга — другое. Это метод «чета — нечета» или, в более общем плане, метод «рас­щепления».

§ 3. Обработка результатов

Дисперсия «порогов в данный момент» служит простым сред­ством определения надежности измерения порога, произведенного на одном испытуемом. Подобно тому, как величина порога являет­ся медианой порогов в данный момент, его вариабильность часто выражается посредством соответствующего квартильного отклоне­ния. Если в опыте участвовало несколько испытуемых, поль­зуются дисперсией распределения порогов. Когда для общего определения зависимости между физической величиной стимула и величиной ощущения предлагается один-единственный закон, следует сначала рассмотреть в специальных экспериментах, при­водящих к установлению закона для каждой сенсорной модаль­ности, иытра- и интериндивидуальную дисперсию, о которой мы только что говорили. В том случае, когда предлагаемый закон

содержит параметр, переменный от одной сенсорной модальности к другой, дисперсия значений этого параметра требует особых комментариев.

В области тестов долгое время ограничивались вычислением корреляции между двумя измерениями, получаемыми посредством одного из трех экспериментальных методов повторения, причем этот коэффициент корреляции получил название «коэффициента надежности» и рассматривается как свойство теста. Введение в пси­хологию статистического метода дисперсионного анализа, которым мы обязаны Фишеру, привело к изменению самой постановки проблемы. Этот метод позволил определить относительное значе­ние той части дисперсии, которая выражается в «истинных» разли­чиях между испытуемыми, и той части, которую следует отнести только к случайным флюктуациям. Однако вскоре оказалось, чта нельзя говорить об «истинной» дисперсии и дисперсии «ошибок» в абсолютном смысле и что эти два выражения представляют собой лишь рубрики, в которые каждая из экспериментальных проце­дур повторения классифицирует различные факторы вариации (Кронбах, 1947). Понятно, что это техническое достижение ско­рее способствует принятию второй концепции надежности, нежели первой.

Интерпретация и использование оценок надежности зависит, очевидно, прежде всего от той из этих двух концепций, которая эксплицитно или имплицитно принимается. Помимо этого, они за­висят от выбираемого метода экспериментального повторения.

Надежность - это характеристика теста, отражающая точность педагогического измерения, а также устойчивость результатов тестирования к воздействию посторонних (случайных) факторов.

Т.е. надежность теста определяется тем, насколько получаемые показатели являются стабильными и насколько они не зависят от случайных факторов.

Тест является надежным, если при повторном тестировании (при условии, что подготовка испытуемого не изменилась) он дает примерно такие же результаты. Разумеется, речь идет о сравнении показателей одних и тех же испытуемых. Это значит, что надежному тесту должна быть свойственна согласованность показателей тестирования, полученных при повторном тестировании, и можно быть уверенным в том, что тест выявляет одно и то же свойство.

При­меняются разные способы проверки надежности тестов.

1. Один спо­соб — это только что упомянутое повторное тестирование: если результаты первого и через определенное время проводимого по­вторного тестирования покажут наличие достаточного уровня кор­реляции, то это будет свидетельствовать о надежности теста.

2. Вто­рой способ связан с применением другой эквивалентной формы теста и наличием высокой корреляции между ними (некоторые тесты предлагаются пользователям в двух формах; например, тест-опрос­ник Айзенка EPI — по определению темперамента — имеет равно­значные формы А и Б).

3. Возможно и применение третьего способа оценки надежности, когда тест допускает его расщепление на две части и одна и та же группа испытуемых обследуется с применени­ем обеих частей теста.

Надежность теста показывает, насколько ре­зультаты тестирования могут быть устойчивы, насколько точно измеряются психологические параметры и насколько высокой мо­жет быть мера доверия исследователя к полученным результатам.

(Загвязинский В.И., Атаханов Р. Методология и методы психолого-педагогического исследования. – М.: 2003. – С. 104-105.

Педагогическое измерение не исключает некоторой ошибки измерения. При проведении тестирования могут возникнуть как случайные, так и систематические ошибки.

Систематические ошибки могут возникнуть в результате использования некачественного теста (некорректная формулировка заданий, содержание тестового задания не соответствует проверяемому материалу, плохо разработанная инструкция), т.е. это те ошибки, которые чаще всего привносятся самими разработчиками. При повторном тестировании систематическая ошибка как правило остается постоянной или закономерно меняется от измерения к измерению.

Случайные ошибки возникают по непредвиденным обстоятельствам и зависят не от качества теста, а от поведения и состояния испытуемого (самочувствие, усталость, волнение учащегося, опоздание).

Статистическая оценка надежности теста предполагает учет ошибки измерения.

По классической теории тестов наблюдаемый балл (X) включает в себя истинный балл (T) испытуемого и некоторую ошибку измерения (E). Формула наблюдаемого балла будет выглядеть следующим образом:

X = T + E

Истинный балл определяется как показатель испытуемого в гипотетической генеральной совокупности заданий бесконечного теста.

Ошибка измерения - статистическая величина, отражающая степень отклонения наблюдаемого балла от истинного балла испытуемого. Дисперсия наблюдаемых тестовых баллов будет равна сумме дисперсий истинных и ошибочных составляющих.

Соответственно, чем ближе показатель дисперсии наблюдаемых баллов к дисперсии баллов истинных, тем выше корреляция между множеством наблюдаемых баллов (Х) и множеством истинных баллов (Т), т.е. тест надежнее. Поэтому надежность теста (коэффициент надежности теста - rн) определяется через отношение дисперсии истинного балла к дисперсии наблюдаемого тестового балла.

Стандартная ошибка измерения находится как корень квадратный из дисперсии ошибочной компоненты

Оценка надежности теста.

Для оценки надежности нормативно-ориентированного теста используются 2-е группы методов:

  1. Двукратное тестирование:

  1. ретестовый метод;

  2. метод параллельных форм.