Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Требования к тестам.doc
Скачиваний:
5
Добавлен:
15.07.2019
Размер:
73.73 Кб
Скачать

Б. Сведения о процедуре разработки теста

Б.1. В руководстве к тесту должна быть полностью описана процедура создания теста: его концептуальная основа, детали разработки заданий теста и их отбора, психометрическая проверка надежности и валидности и другие исследования. (Существенно.)

Б.2. В руководстве к тесту должны быть ясно отражены теоретические положения, на которых основан тест, и подробно раскрыта природа характеристик, для измерения которых тест предназначен. (Существенно.)

Комментарий. Ясное описание диагностируемых переменных, а также характер измерения позволяют пользователю судить, насколько тест соответствует его собственному пониманию, а также насколько статистические данные характеризуют его действенность.

Б.З. Руководство теста должно указать диагностические цели и сферы приложения, для которых тест рекомендован. (Существенно.)

Комментарий. Ясное указание целей теста содействует предупреждению ошибочного истолкования тестовых оценок. Надо обратить внимание пользователя на содержание в руководстве доказательства предложений, принятых автором. Например, если тест достижений рекомендован как тест обследования знаний учащихся, важно точное описание его содержания. Если, с другой стороны, он рекомендован как диагностический тест или тест для выбора вида деятельности, требуются данные о его связи с одним или несколькими критериями.

Б.4. Руководство к тесту должно отразить репрезентативность выборки заданий, процедуру их отбора и психометрические характеристики заданий. (Существенно.)

Комментарий. Для тестов, представляющих собой гомогенную, дискриминативную шкалу или набор таких шкал, процедура отбора заданий проводится следующим образом: каждое задание проходит проверку на трудность и дискриминативность, на соответствие заданий нормальному распределению и их степень отношения к одному фактору. Выборка для анализа должна отражать популяцию и в общем случае для проверки одной формы теста состоять как минимум из 100 человек.

Стандартные требования к надежности и валидности.

Составитель теста должен привести в руководстве сведения о надежности и валидности теста. Многие пользователи тестов также выполняют подобные исследования, опираясь на собственное применение тестов. Их научные сообщения часто отличаются от приведенных в руководстве к тесту как более детальные и более специфические, описывающие более узкие сферы использования теста. Несмотря на эти различия, в обоих случаях стандартные требования для исследований и сообщений по ним должны быть в общем сходными.

В. Надежность и ошибка измерения

Надежность — характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов.

В основе анализа надежности теста лежит представление об истинных оценках и ошибках измерения. Распределение оценок, полученных на генеральной совокупности при выполнении теста, измеряющего одну характеристику, теоретически должно подчиняться нормальному закону. Поэтому при разработке теста исследователю необходимо отбирать задания таким образом, чтобы распределение реальных тестовых оценок было по возможности близко к нормальному.

Для определения ошибки измерения используются на практике корреляционные методы, позволяющие определить надежность через устойчивость и согласованность результатов. Классические методы оценки коэффициентов надежности требуют корреляции по меньшей мере двух совокупностей сходных измерений.

Один из методов получения двух совокупностей измерений — это ретестирова-ние (повторное обследование одной и той же выборки испытуемых). Несмотря на простоту и возможность определения устойчивости результатов теста в течение времени, дефект метода в том, что субъект помнит свои ответы и в случае тестов способностей это может существенно влиять на повторные ответы.

Если мы желаем исключить влияние запоминания на результаты ответов как систематический источник ошибки и учесть влияние временного интервала на ответы, то можем использовать две совокупности заданий, разработанных или отобранных по одной системе. Это — параллельные тесты. Недостатком в данном случае является то, что очень трудно построить на практике параллельные формы одного и того же теста.

Если желательно изучить только влияние содержания выборки без влияния запоминания или вариативности ответов во времени или если практически нецелесообразно проводить две параллельные формы в разное время, надежность может быть оценена проведением одного теста без ограничения во времени. В данном случае тест может быть разделен на две равные части. Полученные показатели по двум частям теста коррелируются обычным методом. Но эта корреляция отражает лишь надежность половины теста. Для вычисления надежности всего теста по методу расщепления используют формулу Спирмена-Брауна.

Оценка надежности на основе однократного тестирования может быть получена путем использования формулы, известной как коэффициент альфа.

Рекомендуется также оценить надежность теста относительно экспериментатора как оценщика и как экспериментатора.

Из предыдущего видно, что различные методы оценивания надежности исходят из различных источников ошибок. Так, на результаты ретестирования влияет не только случайная вариативность ответов или изменение субъектов во времени, но также различия в поведении (особенно если ретестирует другое лицо). Коэффициенты надежности, основанные на однократном тестировании, исключают вариативность ответов во времени, т. е. влияние ответов на баллы не проявляется как ошибка измерения. Следовательно, «коэффициент надежности» — обобщенный термин. Он может основываться на разных типах свидетельств — каждый тип предполагает иной смысл. Очень важно, чтобы метод, использованный для получения коэффициента надежности, был четко описан.

Автору теста рекомендуется в руководстве описать значение любого коэффициента насколько возможно точно. Например, высказывание «Этот коэффициент показывает стабильность измерения эквивалентных баллов, основанных на параллельных формах тестов, проведенных с промежутком в 7 дней, при этом научение испытуемых исключается» хотя и длинное, но свободно от двусмысленности.

Коэффициенты надежности имеют ограниченную практическую ценность для пользователей теста. Стандартная ошибка измерения обычно более полезна, так как обладает относительной независимостью и может быть использована для установления пределов определенной вероятности балла. Пользователи теста могут употребить коэффициент надежности для сравнения тестов, но для интерпретации тестовых баллов используется стандартная ошибка измерения.