Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Семинар № 4.doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
302.08 Кб
Скачать

24

Семинарское занятие № 4 по дисциплине ССОРО

ПРОВЕДЕНИЕ ПРОБНОГО ТЕСТИРОВАНИЯ.

ПОКАЗАТЕЛИ КАЧЕСТВА ТЕСТОВ:

трудность и дискриминативность;

надежность и валидность.

Следующий этап в создании теста - это проведение апробации теста (пробное тестирование, предварительное тестирование).

Слово «апробация» латинского происхождения и дословно означает «одобрение, утверждение, установление качеств».

(не пу­тать с опробованием, т.е. проверкой на практике).

В современном понимании это установление истинности, компетентная оценка и конструктивная критика оснований, методики и результатов работы.

В роли ценителей, судей, критиков, оппонентов выступа­ют отдельные компетентные в области исследования ученые и практики, а также научные и педагогические коллективы и аудитории (Загвязинский В.И., Атаханов Р. Методология и методы психолого-педагогического исследования. – М.: 2003. – С.165).

Пробное тестирование преследует несколько целей:

  1. выявление заданий, в которых есть недостатки (несоответствие трудности заданий уровню подготовленности испытуемых; непонятные или двусмысленные формулировки заданий, выявление неработающих дистракторов в заданиях закрытой формы и др.);

  2. определение статистических характеристик тестовых заданий и теста в целом.

Для пробного тестирования готовятся следующие инструкции:

1) инструкция для учащихся, как выполнять тест,

2) инструкция для проводящих тестирование (наблюдателей),

3) инструкция по апробации (какие эмпирические данные необходимо собрать).

Апробация проводится на репрезентативной выборке испытуемых с четким соблюдением правил проведения тестирования.

Репрезентативная выборка испытуемых – это испытуемые, представляющие всю часть населения (популяции), о которых идет речь в теме исследования.

ВЫБОРКА – это те люди, которые участвуют в эксперименте как испытуемые.

Критерии выборки:

1.СОДЕРЖАТЕЛЬНЫЙ – эти люди должны подходить ТЕМЕ исследования.

Н-р, бессмысленно проверять степень развития произвольного запоминания у годовалых или 2-хлетних детей или выяснять, в какой мере уровень интеллекта группы московских бомжей влияет на выбор того или иного кандидата в Государственную думу (т.к. они голосовать не имеют права).

2. ЭКВИВАЛЕНТНОСТЬ испытуемых – т.е. похожесть людей по побочным характеристикам, которые могут существенно влиять на зависимые переменные. Результаты, полученные при исследовании экспериментальной выборки, должны распространяться на каждого ее члена.

Процедура подбора эквивалентных групп и эквивалентных испытуемых называется РАНДОМИЗАЦИЕЙ.

3. РЕПРЕЗЕНТАТИВНОСТЬ – испытуемые должны представлять всю часть населения (популяции), о которых идет речь в теме исследования.

Экспериментальная группа испытуемых – испытуемые, которые подвергаются экспериментальному воздействию.

Контрольная группа испытуемых – те испытуемые, которые выполняют аналогичную деятельность, что и в экспериментальной группе, но экспериментальному воздействию не подвергаются. Эта группа существует для сравнения с экспериментальной.

Сбор и статистическая обработка результатов тестирования.

Статистическая обработка полученных данных тестирования (результатов испытуемых) позволяет определить количественные характеристики тестовых заданий и всего теста, что позволяет использовать тест как научно обоснованный, объективный инструмент педагогических измерений. Статистическая обработка результатов тестирования проводится с помощью программного обеспечения.

Для удобства обработки тестовых данных результаты заносятся в специальную таблицу - матрицу тестовых результатов.

Пример такой матрицы при дихотомической системе оценивания: один балл за правильный ответ, нуль баллов - за неправильный ответ или пропуск задания.

Пусть x - результат выполнения i-тым испытуемым j-того задания, тогда x=1, если ответ на задание правильный и x=0, если ответ неправильный.

№ испытуемого i

№ задания j

Индивидуальный балл Xi

1

2

3

4

5

6

7

8

9

10

1

1

1

1

1

1

1

0

0

0

0

6

2

1

1

0

0

0

0

0

0

0

0

2

3

0

0

0

0

0

0

0

1

0

0

1

4

1

1

0

1

1

1

1

1

1

1

9

5

1

0

1

0

1

1

0

0

0

0

4

6

1

1

1

0

0

0

0

1

0

0

4

7

1

1

1

1

0

1

0

0

0

0

5

8

1

1

1

1

0

0

0

0

0

0

4

9

1

1

1

1

1

1

1

1

1

0

9

10

1

1

1

1

1

0

1

0

0

0

6

Число правильных ответов Yj

9

8

7

6

5

5

3

4

2

1

50

В таблице в каждой строке даны результаты конкретного испытуемого, которые называются профилем ответов. В столбце занесены результаты испытуемых на каждое конкретное задание (профиль задания). В последнем столбце представлены индивидуальные баллы каждого испытуемого (индивидуальный балл - это сумма 1, которые получены за правильный ответ). В последней строке дано количество правильных ответов по каждому заданию теста.

Из матрицы удаляются строки и столбцы, содержащие только единицы или только нули. Если возникает ситуация, когда в строке ответов только единицы/нули, то это значит, что данный тест не пригоден для измерения учебных достижений данных испытуемых, потому, что он будет слишком легким (все 1) для сильного учащегося или слишком трудным (все 0) для слабого учащегося. Если же мы видим, что в столбце только единицы/ нули, то значит, данное задание является слишком легким (все 1) или слишком трудным (все 0), а соответственно не может использоваться для оценки уровня достижений испытуемых данной выборки.

Для большей наглядности и удобства дальнейшего использования необходимо упорядочить матрицу тестовых результатов. Для этого строки таблицы располагают таким образом, чтобы индивидуальные баллы располагались в порядке возрастания. Затем столбцы матрицы располагают в порядке убывания.

Пример упорядоченной матрицы

№ испытуемого i

№ задания j

Индивидуальный балл Xi

1

2

3

4

5

6

7

8

9

10

3

0

0

0

0

0

0

1

0

0

0

1

2

1

1

0

0

0

0

0

0

0

0

2

5

1

0

1

0

1

1

0

0

0

0

4

6

1

1

1

0

0

0

1

0

0

0

4

8

1

1

1

1

0

0

0

0

0

0

4

7

1

1

1

1

0

1

0

0

0

0

5

1

1

1

1

1

1

1

0

0

0

0

6

10

1

1

1

1

1

0

0

1

0

0

6

9

1

1

1

1

1

1

1

1

1

0

9

4

1

1

0

1

1

1

1

1

1

1

9

Число правильных ответов Yj

9

8

7

6

5

5

4

3

2

1

50

Характеристика тестовых заданий.

По результатам апробационного тестирования определяются характеристики тестовых заданий - трудность и дискриминативность.

Трудность тестовых заданий.

Трудность задания в классической теории тестов определяется через соотношение количества испытуемых, справившихся с данным заданием, и общего количества испытуемых, т.е. трудность задания - это доля учащихся, которые справились с заданием.

Т рудность задания вычисляется по формуле

где pj - доля правильных ответов на j-ое задание; Yj - количество испытуемых, выполнивших j - ое задание верно, N - число испытуемых в группе, j - номер задания. Или в процентах, Pj – трудность j – ого задания в процентах:

Из формулы видно, что чем выше показатель трудности, тем задание легче, и соответственно, чем меньше показатель трудности задания, тем задание сложнее. Например, если p = 30 %, то это значит, что только 30% испытуемых справились с этим заданием, а если p = 70 %, то 70 % справилось с заданием, и получается, что первое задание сложнее, чем второе.

Иногда вводится доля неправильных ответов - q, которая определяется по формуле

q = 1 - p

Но по сложившейся традиции в рамках классической теории тестов трудность задания определяется как доля правильных ответов (p).

Показатель трудности очень важен для определения характеристики тестового задания и помогает проранжировать задания, входящие в тест по степени сложности. Благодаря этому можно определить место задания в тесте. Напомним, что в правильно сконструированном тесте задания должны располагаться по нарастанию сложности, т.е. сначала даются самые легкие, далее все сложнее и сложнее. В хорошо сбалансированном по трудности тесте есть несколько самых трудных заданий со значением . Есть несколько самых легких с . Остальные задания по значениям p занимают промежуточное положение между крайними ситуациями и имеют в основном трудность 60 - 70 % в критериально-ориентированном тесте и 40-60 % в нормативно-ориентированном.

В рамках нормативно-ориентированного подхода наиболее удачными считаются задания средней трудности p=q=0,5, которые обеспечивают максимальную дисперсию теста

дисперсия .

Это произведение достигает максимального значения (0,5 х 0,5 = 0,25) при р = 0,5.

Анализ качества дистракторов в заданиях закрытой формы.

Одно из важнейших требований, которое предъявляется к заданиям закрытой формы, - это правдоподобность дистракторов (равноценная вероятность выбора дистрактора при неправильном ответе). Оценка качества дистрактора называется дистракторным анализом. Дистракторный анализ предполагает подсчет долей испытуемых, выбравших каждый дистрактор. В идеальном варианте каждый дистрактор должен выбираться в равной доле от всех неправильных ответов. В таблице показано идеальное распределение долей.

Таблица

№ задания

1 ответ

2 ответ*

3 ответ

4 ответ

j

0,1

0,7

0,1

0,1

В таблице показано, что правильно выполнили задание (выбрали 2-й ответ) 70 % испытуемых. Остальные 30 %, которые дали неправильные ответы, равномерно выбрали 1, 3, 4 ответы, т.е. в задании были даны равновероятные дистракторы.

Но такая идеальная картина распределения выбора неправильных ответов в реальной практике встречается редко.