Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ответы к ГОСам 2011г.doc
Скачиваний:
40
Добавлен:
05.11.2018
Размер:
1.16 Mб
Скачать

6. Психометрические требования к построению и проверке диагностических методик

План:

1)понятие психометрии

2) определение и характеристика психометрических параметров: Дискриминативность, Трудность, которые возможно реализовать только для объективных тестов (IQ, тесты способностей и достижений) и Надежность, Валидность, которые применимы для любой методики.

Понятие Психометрия было впервые введено Вольфом (1734), указавшим на возможность измерения в психологии. Сейчас к психометрии относят всё то, что связано с количественным определением психических явлений (Л.Ф. Бурлачук). Психометрия рассм-ся как способ обоснования методик. Любой тест д.б. психометрически обоснован для того, чтобы его можно было применять. В психодиагн-ке существует 4 психометрических параметра, по которым обосновывается тест.

Дискриминативность заданий теста – это способность отдельных пунктов (заданий теста) дифференцировать испытуемых относительно “минимального” или максимального результата теста; это различительная способ-ть теста. Понятие дискр-ти измерит. процедуры или какого-то теста вводится для хар-ки его способ-ти дифференцировать объекты по измеряемым показателям. Любой ответ испытуемого на конкретное задание можно представить по 2-х бальной шкале – верно (1 балл), неверно (0 баллов). Сумма баллов по всем пунктам представляет первичную (“сырую”) оценку.

Мера соответствия успешности выполнения одной задачи всему тесту является показателем дискриминативности заданий теста для данной выборки и называется коэффициентом дискриминации (индексом дискриминации). Он может принимать значение от –1 до +1. Высокий положительный коэффициент говорит об эффективности деления испытуемых. Высокое отрицательное значение говорит о непригодности данной задачи для теста.

Индекс дискриминации можно вычислить с помощью метода контрастных групп. В выборке испытуемых выделяют группы по успешности: высокопродуктивная и низкопродуктивная.

Индекс дискриминации вычисляется как разность между процентной долей лиц, правильно решивших задачу и неуспешных и обозначается D. Наиболее значимым является D = 50+-25. Все подходящие вопросы с низкой дискриминативностью исключаются.

При анализе Д. з. т. особое внимание уделяется определению статистической значимости коэффициентов корреляции. Когда коэффициент дискриминации к 0 и уровень значимости невысок, проверяемый пункт теста должен быть пересмотрен в связи с некорректностью формулировки задания или ответа на него.

Показателем диск-ти явл-ся коэф-т диск-ти, который применяется, когда есть различия в группах, когда рассчит-ся диск-ть для теста, который оценивает нарушение психики, когда выборка имеет в 27% макс. и мин. результаты.

Другим способом оценки диск-ти явл-ся дельта Фергиосона , где диск-ть рассм-ся как отношение между индивид-ми значениями измеряемого показателя любых 2-х испыт-х (в случаях, когда нет правильного ответа, есть только возможность сравнить ответы с ключом). Эти показатели либо совпадут, либо будут различны.Нужно сравнить все пары в выборке. Наибольшее кол-во различий бывает, когда все значения показателей имеют одинаковую частоту встречаемости. При максимально возможной вариативности индивид-х значений измеряемого показателя показатель дискр-ти (дельта Ф)=1. Если большинство показателей совпали, то дельта Ф=0 и они не дискриминируют.

Понятие дикр-ти м.б. рассмотрено через понятие чувств-ти измерительной процедуры. Она должна соответствовать вариативности измеряемого показателя: чем выше вариативность признака, тем выше дискр-ть теста. НО: чем выше вариативность, тем ниже надёжность измерит. процедуры (психометрический парадокс).

Дискр-ть измерит. процедуры в целом зависит от след. факторов: 1)индивид-е различия между испыт-ми в степени выражен-ти измеряемого показателя 2)индивид-е различия в понимании задания или вопроса 3)индивид-е разиличия в степени трудности или лёгкости принятия решения при ответе.

Трудность заданий теста – это характеристика заданий теста, отражающая статистический уровень решаемости заданий в данной выборке стандартизации. Выделяют 2 вида трудностей:

1. Субъективно-психологическая. В основе лежат индивид-е различия конкретного испыт-го (зуны, способы действий, особ-ти хар-ра и др.) Сюда входят и условия тестирования: как воспринимается задание теста самим испытуемым)реакция на условия тестирования и т.д. Контролировать эти факторы невозможно, это промежуточная переменная. Воздействие этих факторов на результат выполнения теста снижает надежность и достоверность данных. Выравнивание этих воздействий призводится с помощью направленного комплектования выборки и стандартной процедуры проведения. Требования к проведению тестирования: строгое соблюдение процедуры тестирования, создание мотивации.

2. Статистическая (объективная трудность). Показатель – доля лиц в выборке решивших или не решивших задание. 20% решили, 80% не решили – тест трудный, наоборот – легкий. Слишком легкие и трудные задания убираются. Трудность соответствует % содержанию выполнения заданий. Расположение заданий по индексу трудности позволяет: 1)повысить мотивацию испыт-го 2)даёт ориентиры психологу (где возникают затруднения) 3)использовать 1 и тот же перечень заданий для разных возрастных групп. Каждый вопрос должен быть в допустимом интервале трудности от 16 до 84%. Всё, что выше или ниже исключается из заданий теста или переформулируется.

Индекс труд-ти рассчит-ся к каждому заданию теста, позволяет подобрать задания, соответствующие по труд-ти данной выборке. В тесте для каждого задания имеется свой уровень труд-ти, кот будет выявлять возможности испыт-го на этом уровне.

Распределение рез-тов теста зависит от тех заданий, из кот он состоит. Полная проверка труд-ти всего теста осущ-ся с помощью распределения суммарных рез-тов. Тест обосновывается на репрезентативной выборке, рез-ты распред-ся в соответствии с нормальной кривой (симметричная). Часто кривая может иметь скошенный вид: 1)рез-ты сосредотач-ся в верхних частях шкалы-вопросы слишком лёгкие для данной выборки, мало трудных зпдпний. 2)рез-ты сосредоточены в левой стороне-тест трудный, не различает испыт-х с низким уровнем (нужна корректировка заданий) 3)скошенный вид иногда придаётся намеренно, когда тест предназначен для специфических групп.

Факторы выбора параметров труд-ти: 1)цель обследования 2)необходимый тип различения испыт-х 3)назначение теста.

Для каждого уровня труд-ти учтанавл-ся показатель дискр-ти. Поэтому константный показатель дискр-ти вырьирует в соответствии с трудностью.

Надежность – устойчивость результатов теста к действию посторонних факторов, степень согласованности результатов между двумя тестированиями. Надежность методики - это критерий, который говорит о точности психологических измерений. Надёж-ть (по А. Анастази и Л.Ф. Бурлачуку)-согласованность рез-тов теста, получаемых при повторном его применении к той же выборке в различные моменты времени с использованием эквивалентных наборов заданий или при использовании др условий обследования. Точность измерений составляет 75-85% по известным тестам, 25%-ошибка.

Надёжность можно измерить 2-мя способами: 1)сравнение рез-тов, полученных по данному тесту по сравнению с др тестами, кот предъявляли разные психологи (фактор-смена психологов) 2)путём сравнения рез-тов, полученных данным тестом в идентичных условиях.

Чтобы установить коэф-т надёж-ти, рассчит-ся коэ-т корреляции, кот и явл-ся показателем надёж- ти (r=0,75). Одной из хар-к надёж-ти явля-ся разброс рез-тов (дисперсия), кот обусловлена: 1)изменчивостью, присущей самому св-ву, параметру популяции 2)факторами неставильности измеряемой процедуры. Разброс рез-тов позволяет в самом начале оценить величину ошибки и если разброс достаточно большой, то велика величина ошибки и тест ненадёжен.

Гуревич предложил толковать надежность в трех смыслах: 1. Надежность самого измерительного инструмента. Коэффициенты надежности зависят от правильности подбора заданий и от социально- психологической однородности выборки, на которой проверялась надежность. 2. Стабильность изучаемого признака (прием “тест – ретест”). Показатель, характеризующий стабильность измеряемого свойства - это коэффициент стабильности. При определении стабильности признака большое значение имеет: промежуток времени между обследованиями; если исследуемое свойство находится в процессе развития; если измеряемое свойство уже сформировано и устойчиво. 3. Константность (т.е. относительная независимость результатов от личности экспериментатора).

Факторы, влияющие на надёж-ть: 1)временные колебания состояния обследования 2)неоднородность содержания теста 3)различия между психологами, кот оценивают тесты. Виды надёж-ти: 1)ретестовая –степень согласованности рез-тов, полученных при первичном и вторичном тестировании. Бурлачук уазывает временный промежуток 2недели-6 месяцев. Если тест надёжен, то коэф-т корреляции д.б. значимым (r=0,7).

2)надёж-ть как согласованность рез-тов (однородность, гомогенность)- рез-т теситрования должен соотв-ть всем. Существует несколько вариантов коэф-та надёжности по однородности: а)надёж-ть частей теста- оценив-ся устойчив-ть рез-тов путём анализа совокупности тестовых заданий или единичных пунктов теста. В основе лежит принцип расщепления-путём процедуры разделения образ-ся несколько равноценных частей теста. Это можно сделать несколькими способами: разделить тест пополам (опросники), по чётным и нечётным вопросам (тест «Домино»), по индексам трудности и дискр-ти (тесты достижений). Б)распределение теста на равноценные половины, на отдельные субтесты и т.д. При этом высчитыв-ся коэф-т корреляции Кьюдера-Ричардсона, с помощью кот мы можем сравнить меру связи всех вопросов др с др.

3)надёж-ть параллельных форм (только для тестов, имеющих параллельные формы)-сопоставление рез-тов тестов разных форм одномоментно. Если испыт-й справился с формой А, то он на том же уровне справится с формой Б. Если этого не происходит, то тест ненадёжен. Когда создаются параллельные формы r=0,99.

4)надёж-ть субъективных оценок-это оценка уоэф-та надёж-ти, кот будет показывать насколько рез-ты теста будут зависеть от субъективных оценок самого психолога. Подбир-ся несколько психологов-экспертов теста, каждый из них выполняет работу по оценке (рисуночные тесты и др.). Полученные оценки от разных авторов сравниваются (количественно и качественно).

Валидность – это способность теста измерять ту психологическую характеристику, для которой он предназначен. Бурлачук: «это комплексная хар-ка теста, включающая сведения об области измеряемых явлений и репрезентативности диагностич процедуры по отношению к ним». А.Анастази: “Валидность теста - понятие, указывающее, что тест измеряет и насколько хорошо он это делает”. Процедура валидизации теста происходит путём сравнения получен-х рез-тов с независимыми показателями, кот наход-ся за пределами диагностическ процедуры.

Большинство видов валидности сводится к основным 3м: 1)содержательная (логическая)-валид-ть по мнению специалистов, кот оценивают содержание теста. Её нужно отличать от внешней валид-ти, кот явл-ся валид-тью по мнению испыт-го (определяет отношение его к тесту). Иногда они совпадают, если не совпадают, то испыт-й не будет знать о цели теста. Валид-ть по содерж-ю предполагает, что в тест д.б. включены все вопросы, кот отражают все проявления изучаемого признака во всех аспектах. Поэтому работа по созданию теста начин-ся с анализа измеряемой обл-ти поведения и выделения её ключевых аспектов (анализ работ авторов по этому вопросу). Эта инфо вносится в матрицу-спецификацию, в ней запис-ся какого типа и сколько д.б. вопросов в тесте, кол-во заданий в тесте. Эту матрицу предлагают экспертам, кот оценивают кажд задание, пункт теста на их соотв-е измеряемому психич св-ву, заявленному в тесте содержанию. Ответы экспертов обобщаются по всем пунктам. Если все эксперты высказ-сь, что к-то вопрос не соотв-т, то задание искл-ся. Эти данные вкл-ся в описание теста.

2)Критериальная (эмпирическая)-валидн-ть, кот по рез-там теста или данным позволяет дать прогноз поведения индивида в наст или буд времени. Чтобы её определить, нужно соотнести рез-ты выполнения теста с к-то независимой мерой того, что должен предсказывать тест. Коэф-т критер валид-ти вычисл-ся как коэф-т корреляции между рез-тами теста и теми параметрами, кот мы собираемся объяснить, оценить или предсказать и интерпретир-ся как 80%ная зависимость.Чем выше коэф-т корреляции, тем прогностичнее тест (r=0,4-0,6).

Существует несколько вариантов вычисления коэф-та критер валид-ти: 1. Все рез-ты участвующих в исслед-и испыт-х сопоставл-ся по выбранному критерию и вычисл-ся коэф-т корреляции между ними. Все критерии сводятся к 3м группам: 1)экспертный критерий-предполагает использ-ть экспертные оценки. Рассчит-ся коэф-т корреляции между оценками по тесту и оценками экспертов. Если рез-ты совпадают-тест валиден (0,6;0,7;0,8). 2)экспериментальный критерий-использ-ся рез-ты одновремен-го тестиров-я 2мя тестами, предположительно измеряющими то же психич св-во ( 1 из тестов, валид-ть кот сомнений не вызывает и 2-й, валидизацию кот нужно провести). Рассчит-ся коэф-т корреляции между ними (эмпирическ валид-ть).Максимально тесты имеют коэф-т корреляции 0,99. 3) жизненный критерий-использ-ся,когда подходящего др теста нет. В кач-ве критерия использ-ся хар-ки реального поведения, кот как-то связвны с измеряемым св-вом (практическ валид-ть).

2.Метод контрастных групп-создание групп верхних и нижних (наход-ся на противоположных полюсах шкалы). Если тест валиден, то рез-ты групп должнвы различаться. Способы определения ваоид-ти: 1)вычислить коэф-т корреляции (чем меньше, тем лучше) 2)критерий Манна-Уитни (д.б. высокие уровни различий)

3)Конструктная (концептуальная)-показывает насколько рез-ты теста могут рассм-ся в кач-ве меры некотрого теоретич конструкта. Проверка на эту валид-ть происходит след образом: 1)опред-ся теоретич концепция, в рамках кот построен тест 2)из теоретич концепции выдел-ся несколько гипотез, связан-х с тестом 3)выдвинутые гипотезы подвергаются эмпирическ проверке.

Связь с др параметрами: 1)возрастные изменения-возрастная дифференциация измеряемого признака 2)корреляция с др тестами-позволяет получить представл-е о том, что данный тест измеряет то же св-во, что и др тест. 3)Кэмпбэл Д и Д.В. Фиске предложили использ-ть для определения констр валид-ти батарею тестов-набор тестов, измеряющих что-то в одном направлении. 4)использ-е внутр согласованности-через оценку контрастных групп. 5)показатели конвергентной (показывает, что рез-ты теста тесно коррелируют с теми параметрами, с кот д.б. связаны исходя из теории) и дискриминатичной (показ, что тест не д.б. связан с к-то параметрами, кот опред-ся теорией) валидности.

Выбор вида валид-ти при обосновании теста зависит от: цели применения теста и последующего применения рез-тов теста.

Т.о, психометрически обоснованные тесты позволяют получить надёжные, достоверные рез-ты. Именно такие тесты д.б. использованы в проф д-ти психолога.