Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Тема_6_н.doc
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
1.35 Mб
Скачать

Вычисление показателя внутренней согласованности для всей шкалы

Когда вопрос о сильно и слабо коррелирующих с итоговой шкалой пунктах уже решен, т.е. стало понятно, какие пункты работают на шкалу, а какие нет, рассчитывается показатель внутренней согласованности всего опросника, из которого удалены все «неработающие» пункты.

При этом наиболее эффективным средством измерения надежности на основе согласованности всех его пунктов - применительно к классической модели погрешности измерения - является коэффициент α (альфа) Л.Кронбаха (1916 - 1994), американского психолога и психометрика. Процедура расчета «коэффициента альфа» является более универсальной, чем метод Кьюдера-Ричардсона, который предназначен для определения надежности лишь тестов с дихотомическими ответами на задания (типа: да-нет)

Ретестовая надежность.

Ретестовая надежность представляет собой согласованность результатов, полученных одним и тем же индивидом при повторном тестировании тем же самым тестом (или его эквивалентной формой).

В силу того, что ретестовая надежность снижается с течением времени, существует множество возможных ретестовых коэффициентов. В руководстве к тесту всегда надо указывать, в каком промежутке времени проводилось двойное тестирование. Обычно интервал для повторного тестирования не должен превышать 6 мес.

При высокой ретестовой надежности при повторном тестировании будут получены одни и те же показатели для каждого испытуемого. Но лишь при условии, что сам испытуемый не изменился, т.е. ретестовая надежность может быть низкой из-за того, что произошли изменения самого измеряемого свойства, но тест при этом будет оставаться валидным.

Расчет ретестовой надежности. При расчете ретестовой надежности определяется коэффициент корреляции между результатами по всему опроснику, полученными на одних и тех же испытуемых, но в разное время (r1I). Т.е. вычисляется корреляция итоговых баллов по каждой из шкал опросника для выборки испытуемых, протестированных в двух случаях.

Также могут вычисляться корреляции ответов на конкретные пункты шкалы.

Т.к. надежность должна показать ошибку измерения, т.е. предсказать, какая часть изменчивости показателей ошибочна, минимально достаточным значением для ретестовой надежности является 0,7-0,8. Значения 0,80-0,89 интерпретируются как хороший показатель надежности, надежность с коэффициентом выше 0,90 считается отличной.

Надежность параллельных форм. Подвидом ретестовой надежности является надежность параллельных форм. При этом предполагается тестирование с определенным временным интервалом одной и той же выборки с помощью двух равноценных блоков аналогичных заданий (форма А и форма Б). Для этого специально конструируются эквивалентные, или параллельные, формы. Кроме того, необходимо контролировать, чтобы испытуемым давались эти два теста при аналогичных условиях.

У этого метода есть ограничения. Обычно трудно доказать, что обе формы действительно являются эквивалентными.

Кроме того, если изучаемые функции подвержены тренировке, то использование параллельных форм не сможет его устранить.

6.3.9. Валидность психологического опросника

Валидность тестирования

Валидность (происходит от англ. valid - имеющий силу) теста - психометрическая характеристика, представляющая собой действительную способность теста измерять тот психологический конструкт, для диагностики которого он заявлен [Гильбух Ю.З., 1978, № 5. С.108-117; Гильбух Ю.З., 1982, № 1. С. 29-39; Гильбух Ю.З., № 4, т. 8. С. 117-125]. Валидность теста определяет, что должен измерять тест по предположению разработчиков и в какой степени хорошо он это делает.

Чаще всего для определения валидности личностного опросника требуется внешний критерий, использующийся независимо от самого опросника, для оценки того психологического качества, которое должно измеряться. Среди них выделяют объективные и субъективные критерии.

В качестве объективных критериев валидизации обычно используются:

  • объективные социально-демографические и биографические данные (стаж, образование, профессия, прием или увольнение с работы);

  • показатели успеваемости, чаще всего являющиеся внешним критерием для тестов способностей к обучению, достижений в отдельных дисциплинах, тестов интеллекта;

  • производственные показатели эффективности отдельных видов профессиональной деятельности, выступающие внешним критерием при валидизации методик, используемых в профотборе и профориентации;

  • результаты реальной деятельности (рисование, моделирование, музыка, составление рассказа и т.д.), используемые обычно при конструировании тестов общих и специальных способностей, личностных тестов;

  • врачебный диагноз или другие заключения специалиста;

  • контрольные испытания знаний и умений;

  • данные других методик и тестов, валидность которых считается установленной.

К субъективным критериям относятся оценки, суждения, заключения об объекте исследования, сделанные экспертом (специалистом, педагогом, руководителем, психологом). При этом эксперт дает заключение по стандартизированной оценочной шкале, предложенной ему разработчиками теста. Объективность достигается за счет увеличения числа экспертов и соблюдения единообразия ситуаций оценивания.

При использовании экспертной оценки используют:

  • метод коллективной оценки, когда достигается единство во мнениях всех экспертов относительно испытуемого, подвергаемого исследованию;

  • метод средневзвешенной оценки, когда усредняются оценки, данные испытуемому независимыми экспертами;

  • метод ранжирования, когда испытуемые распределяются по степени выраженности у них того или иного свойства;

  • метод парного сравнения, когда испытуемые попарно сравниваются по степени выраженности свойства.

В качестве средства определения меры валидности чаще всего используют корреляционный анализ связи между индивидуальными оценками по тесту и оценками по критерию валидизации.

Надо иметь в виду, что сама процедура валидизации имеет принципиальные ограничения:

  • условия валидности теста невозможно определить полностью, всегда остается множество неучтенных факторов;

  • трудно обеспечить репрезентативность выборки;

  • логика валидизации предполагает валидность самого критерия, но проверка этого оказывается достаточно сложной и часто осуществляется по наиболее доступному критерию.

Кроме того, критериальная валидность определяется, как правило, по внешним для психолога критериям, прежде всего социально-прагматическим (производительность, успеваемость, состояние здоровья, преступность и пр.). Всегда есть вероятность, что причиной отсутствия связи между методикой и критерием оказывается не низкая валидность методики (тестовый балл не отражает, например, стрессоустойчивость оператора), а исходное предположение, что должна быть подобная связь (например, предположение, что есть связь между стрессоустойчивостью оператора и процентом аварийных ситуаций).

Виды валидности. Выделяют следующие виды валидности:

  • очевидную валидность;

  • содержательную валидность;

  • валидность по критерию (или эмпирическую, критериальную валидность);

  • понятийную валидность (конструктивную, или конструктную валидность);

  • прогностическую валидность и др.

Очевидная валидность. Очевидная валидность не является в собственном смысле психометрическим показателем теста, она характеризует лишь впечатление о тесте, как о чем-то понятном, «прозрачном». Это - способность теста не провоцировать со стороны испытуемого отвержения из-за непонятности процедуры тестирования. Если о тесте складывается впечатление (особенно с точки зрения испытуемого), что он измеряет именно то, что заявлено в инструкции и это действительно соответствует его содержанию, то такой тест обладает очевидной валидностью. Так, многие личностные опросники имеют в своем заголовке указание именно на те психологические особенности, которые они измеряют («Опросник переработки стресса», «Опросник психосоматических установок», «Опросник социальной компетентности» и т.д.).

Содержательная валидность. Содержательная валидность свойственна тестам, которые полноценно моделируют ту или иную деятельность, прежде всего в ее предметном аспекте. Т.е. в самом содержании теста отражены ключевые стороны изучаемого психологического явления. Если это явление сложно, то в тесте должны быть представлены все его составляющие элементы. Валидность по содержанию, определяемая путем систематического контроля содержания, должна показывать, насколько полно охватывает тест представленную выборку по совокупности измеряемых параметров. Поэтому необходима эмпирическая проверка теста в соответствии с заложенными в него гипотезами.

Содержательная валидность относится прежде всего к тестам достижения, а для тестов способностей и тестов личности этот тип валидности неадекватен и не применяется. Так, личностные опросники не имеют внутреннего сходства с исследуемыми областями поведения (т.е. ситуация самого ответа на пункт опросника обычно не есть ситуация, о которой идет речь в опроснике).

Критериальная валидность. Критериальная валидность определяется с единственной, крайне важной для практики, целью: оценить индивидуальную прогностичность теста. Для этого результаты выполнения теста сопоставляются с непосредственными и независимыми оценками (критериальными ключевыми признаками) того, что должен предсказывать тест.

Процедура обеспечения критериальной валидности заключается в том, что задания для шкал отбираются только тогда, когда они могут отделить релевантные, т.е. собственно критериальные, группы от контрольных. Для тестов такого типа основную роль играет их дискриминативность: важен сам факт, что тест или отдельное его задание является дискриминативным, а не причина, по которой это происходит.

Правда, в случае, когда группы отличаются друг от друга только по одной переменной, причина такой дифференциации более видна. Но, как правило, критериальная валидность используется в случае множества содержательно мало учитываемых признаков.

Часто задания, отобранные на основании того, что они могут разделять группы, вполне могут измерять и целый набор разных других переменных. Любая шкала, построенная таким образом, не будет однородной, т.е. показатели внутренней согласованности могут быть низкими.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]