Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
объединенные вопросы.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
3.82 Mб
Скачать

12. Основные положения теории irt. Модель Раша. Двух- и трехпараметрическая модели.

Не знаю, нужны ли все формулы, решила не вставлять

IRTItem response Theory. Основана на теории латентно-структурного анализа (один из формальных методов, с помощью которого выявляется латентный признак (скрытый), связанный с регистрируемыми явными (эмпирическими) признаками.) Больше всего применимо к оценке интеллекта и тестам способностей.

-Т.о. Латентный параметр – свойство личности (знание, способность, личностная черта), недоступная для прямого наблюдения.

-Индикатор – некоторое средство воздействия (вопрос теста), связанное с латентным параметром, реакция на который доступна для непосредственного наблюдения.

-Конструкт – система индикаторов, позволяющих оценить латентный параметр.

-Существуют индикаторные переменные, связанные с латентными параметрами, доступные для непосредственного наблюдения. По их значениям можно судить о латентном параметре.

-Оцениваемый латентный параметр должен быть одномерным (один тест – один фактор – тест на интеллект), на многофакторных тестах IRT не работает.

-Есть два класса латентных параметров:

1. Уровень подготовленности респондента

2. Уровень сложности заданий

-Предполагается, что и индивидов, и задания можно расположить на одной оси «интенсивность свойства-сила пункта», например. Каждому индивиду ставится в соответствие только одно значение латентного параметра (интенсивности свойства).

(Более научно)

-Существует одномерный континуум свойства – латентной переменной (x), на этом континууме происходит вероятностное распределение индивидов с определенной плотностью f(x).

-Существует вероятностная зависимость ответа испытуемого на задачу (пункт теста) от уровня его психического свойства, которая называется характеристикой пункта. Если тест имеет два ответа (да-нет), то эта функция есть вероятность ответа, зависящая от места, занимаемая индивидом на континууме (х).

-Ответы испытуемого не зависят друг от друга, а связаны только через латентную черту. Вероятность того, что выполняя тест, испытуемый даст определенную последовательность ответов, равна произведению вероятностей ответов на отдельные задания.

-Главное отличие от классической теории теста в том, что в IRT не ставятся и не решаются фундаментальные проблемы эмпирической валидности и надежности теста: задача априорно соотносится лишь с одним свойством, т.е. тест заранее считается валидным. Кроме того, в классической теории теста индивидуальный балл (уровень свойства) считается некоторым постоянным значением, а в irt латентный параметр трактуется как непрерывная переменная.

-Кроме «свойства» и «силы пункта» в аналитическую модель IRT могут включаться и другие переменные. Все варианты IRT классифицируются по числу используемых в них переменных. Самые известные: однопараметрическая модель Раша, двухпараметрическая и трехпараметрическая модели Бирнбаума.

Для желающих глубоко погрузиться в теорию ссылки на статью и учебник: http://testolog.narod.ru/Theory59.html

http://www.uspi.ru/struct/ui/kim/monograph/src/glava_5_1.html

Модель Раша. Раш предложил однопараметрическую модель латентной дистанции: разность уровня способности и трудности теста (х-i – B-j), где х-итое – положение итого испытуемого на шкале, а В-житая – положение житого задания на той же шкале. Разница эта (расстояние) характеризует отставание способности испытуемого от уровня сложности задания. Если разница велика и отрицательна, то задание не может быть выполнено, т.к. для данного испытуемого оно слишком сложно. Если же разница велика и положительно, то задание также не информативно, ибо испытуемый заведомо легко и правильно его решит.

-Предполагается, что ответ испытуемого обусловлен только индивидуальной величиной измеряемого свойства и «силой» тестового задания (однопараметричность модели именно в этом). Чем выше уровень свойства (способности), тем вероятнее получить правильный ответ.

-В графическом изображении кривая (имеет вид волны, называется Характеристической кривой) имеет точку перегиба, в ней «способность» равна «трудности задания», а значит, «вероятность его решения» равна 0,5. (оси кривой имеют вероятность правильного ответа на оси у и на оси х либо задание, либо испытуемый; но лучше один раз увидеть…)

-Шкала Раша (в теории) является шкалой отношений.

-Логит – единица измерения, которая позволяет измерить и «силу пункта», и «величину свойства» (способность) в одной шкале. Это делается так: предполагается нормальность распределения данных тестирования и значения свойства, им присваивается значение в диапазоне от -6 до 6 (рекомендуется, правда, рассматривать интервал от -3 до 3), где -6 – практически каждый испытуемый дает правильный ответ, а 6 – с заданием не может справиться ни один испытуемый (вероятность дать правильный ответ ничтожна). Далее шкалы преобразуются в единую шкалу «уничтожением» влияния трудности задания на результат индивидов, элиминируется влияние индивидуальных способностей на решение заданий различной трудности. Там все в формулах, которые можно посмотреть самим, но вряд ли их можно вот так запомнить. В общем, после применения этих формул мы получаем окончательные характеристики измеряемого инструмента.

-Если перед исследователем стоит задача конструирования теста, он приступает к получению характеристических кривых заданий. Х-кривые должны быть распределены в диапазоне от -6 до 6, причем в седине их должно быть побольше, чем на краях распределения, чтобы тест обладал необходимой дифференцирующей (различающей) силой. Иногда Х-кривые могут накладываться друг на друга –тогда избыточные задания убираются, а иногда на некоторых участках оси х Способность могут отсутствовать Х-кривые. Тогда надо добавить задания недостающей трудности, чтобы равномерно заполнить интервал шкалы логитов (-6 до 6).

-Вся процедура повторяется несколько раз, пока разработчик не удовлетворится.

-Главные недостаток модели Раша считают пренебрежение «крутизной» Х-кривых, их крутизна полагается одинаковой (задания с более крутыми Х-кривыми позволяют лучше «различать» испытуемых, чем задания с более пологими кривыми). Параметр, определяющий крутизну Х-кривых называют дифференцирующей силой задания, которая используется в двухпараметрической модели Бирнбаума.

Двухпараметрическая модель Бирнбаума.

-В формулу (имеется в виду основная формула модели Раша) вводится параметр а-j, который определяет «крутизну» кривой в точке ее перегиба. Это а - item discrimination parameter.

-Интервал изменения параметра а-j (а – это альфа) от –бесконечность до +бесконечность. Если значения а близки к 0 (для заданий разной трудности), то испытуемые, различающиеся по уровню выраженности свойства, равновероятно дают правильный ответ на это задание теста. При выполнении такого задания у испытуемых не обнаруживается различий.

-Парадокс при а<0, тогда более способные отвечают правильно с меньшей вероятностью, а менее способные – с большей вероятностью. В практике это встречается весьма часто.

-Практики рекомендуют использовать задания, характеризующие значение а в интервале от 0,5 до 3. Кстати, при значении а-j=1 задание соответствует однопараметрической модели Раша.

(на этом Бирнбаум2 заканчивается, для более детальной информации обращайтесь, пожалуйста, к интернету и книгам, хотя и там ее не ахти как много).

Трехпараметрическая модель Бирнбаума. Но при решении закрытых вопросов показатели отклоняются от предсказанных вероятностей двухпараметрической модели. Бирнбаум не опустил руки и ввел еще и третий параметр – угадывание (С-j).

-Чем ниже уровень способностей испытуемого, тем чаще он прибегает к стратегии угадывания, а также чем труднее задание, тем больше вероятность того, что испытуемый будет пытаться угадать правильный ответ, а не решать задачу.

-Итак, С-j характеризует вероятность правильного ответа на задание j в том случае, если испытуемый угадал ответ, а не решал задание.

-Для заданий с пятью вариантами ответов С-j становится более пологой (кривая), т.к. 0<C<1, но при всех С=0 кривая поднимается над осью х Способность на величину С-j. Тем самым даже самый неспособный испытуемый не может показать нулевой результат.

-Дифференцирующая сила тестового задания при введении параметра С-j снижается. Из этого следует, что тесты с закрытыми заданиями хуже дифференцируют испытуемых по уровням свойства, чем тесты с открытыми заданиями.

(вот так коротко, учитывая, что в книгах еще куча формул. Было придумано еще две теории, но о них в вопросе не упоминалось, поэтому не буду о них говорить)

-Параметр С применим только в случае вопросов с множественным выбором (у Орел в лекции)

Достоверность психодиагностических данных (шкалы лжи, достоверность на уровне методики и на уровне протокола). Компьютерный контроль достоверности.

Достоверность– устойчивость результатов тестирования по отношению к фальсификации - сознательным или бессознательным мотивационным искажениям результатов со стороны испытуемого

Факторы достоверности

-Фактор знания – видимо, имеется ввиду очевидная валидность – степень очевидности заданий для испытуемого.

Но, возможно, здесь говорят о том, насколько испытуемый знает материал теста.

-Фактор социальной желательности

  • может быть минимизирована с помощью исключения из опросника тех заданий, ответы на которые оцениваются обследуемым с точки зрения их социальной желательности—нежелательности

  • Достаточно эффективной мерой в борьбе с этой установкой будет адресованное испытуемому требование отвечать на каждый вопрос, не слишком долго задумываясь, не пытаясь анализировать каждое задание.

  • конструирование заданий, состоящих из двух утверждений, подобранных по социальной желательности, одно из которых и должен выбрать обследуемый. Однако этот прием не получил распространения по трем причинам: 1) сложность создания согласованных утверждений; 2) тенденция к увеличению любых незна- чительных различий в социальной желательности между частями заданий, когда они предъявляются вместе; 3) используемая при разработке таких опросников экспертная оценка социальной желательности значительно упрощает это явление.

  • Использование шкалы лжи: состоят из вопросов, касающихся незначительных проступков, совершаемых фактически всеми людьми(«Я ни- когда не лгу» или «Я всегда прихожу своевременно на встречи и свидания»). Лица, набравшие достаточно большое количество баллов по такой шкале, рассматриваются как дающие социально одобряемые ответы, и их результаты не рассматриваются как достоверные

-Фактор индивидуальной тактики (влияние Я-концепции):

  1. Установка на согласие

  • (response set of acquiescence) — это тенденция согла- шаться с утверждениями или отвечать на вопросы только «да», независимо от их содержания. Чаще всего установка на согласие проявляется в тех случаях, когда вопросы неоднозначны, неопределенны. Влияние этой установки минимизирует- ся тем, что при составлении опросника добиваются того, чтобы число вопросов, для которых ключевой ответ «да», было равно (примерно равно) числу вопросов с ключевым ответом «нет». Другими словами, конструируется сбалансированная шкала.

  1. Установка на неопределенные ответы – ответы средней категории - Обследуемый склоняется к преимущественному выбору ответов типа «не знаю», «не уверен» или «затрудняюсь ответить».

  • в известной мере преодолевается инструкцией («Старайтесь не давать крайних ответов»),

  • количество вопросов должно быть таким, чтоб не приводить к рассеиванию внимания и выбору легкого ответа (испытуемому лень и он тыкает в середину)

  • или же оба крайних значения безразличны для испытуемых - тогда задания должны быть сформулированы таким образом, чтобы выбор ответа средней категории не был притягателен

  1. Установка на крайние ответы проявляется в заданиях с рейтинговыми шкалами. Установка сводит на нет все преимущества рейтинговых шкал(например – широту выбора ответа)

  • нужно избегать неопределенных формулировок заданий или иметь банк заданий с примерно одинаковым смыслом.

Виды достоверности

Достоверность методики – защита на уровне методики (шкалы лжи, аггравации, коррекции);

Пример из СМИЛ(также известный как ММПО, MMPI)

  • Шкала «лжи» (L) — предназначена для оценки искренности обследуемого;

  • Шкала достоверности (F) — создана для выявления недостоверных результатов (связанных с небрежностью обследуемого), а также аггравации и симуляции;

  • Шкала коррекции (K) — введена для того, чтобы сгладить искажения, вносимые чрезмерной недоступностью и осторожностью обследуемого.

Достоверность на уровне протокола – защита на уровне индивидуального протокола ответов (контроль нейтральных или социально-желательных ответов). – как достигается описано выше.

Про компьютерную диагностику не знаю.