Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Nasledov 7-13.doc
Скачиваний:
14
Добавлен:
01.05.2025
Размер:
2.67 Mб
Скачать

Часть II. Методы статистического вывода: проверка гипотез

получив, скажем, 15 «статистически достоверных» коэффициентов корреляции, сможем ли мы сказать, какие из них получены случайно, а какие — отражают ре­альную связь?

Строго говоря, для принятия статистического решения необходимо умень­шить уровень а во столько раз, сколько гипотез проверяется. Но вряд ли это целесообразно, так как непредсказуемым образом увеличивается вероятность проигнорировать реально существующую связь (допустить ошибку II рода).

Одна только корреляционная матрица не является достаточным основанием для статистических выводов относительно входящих в нее отдельных коэффи­циентов корреляций!

Можно указать лишь один действительно убедительный способ решения этой проблемы: разделить выборку случайным образом на две части и прини­мать во внимание только те корреляции, которые статистически значимы в обеих частях выборки. Альтернативой может являться использование много­мерных методов (факторного, кластерного или множественного регрессион­ного анализа) — для выделения и последующей интерпретации групп статис­тически значимо связанных переменных.

Проблема пропущенных значений. Если в данных есть пропущенные значе­ния, то возможны два варианта расчета корреляционной матрицы: а) построч­ное удаление значений (Exclude cases listwise); б) попарное удаление значений (Exclude cases pairwise). При построчном удалении наблюдений с пропусками удаляется вся строка для объекта (испытуемого), который имеет хотя бы одно пропущенное значение по одной из переменных. Этот способ приводит к «пра­вильной» корреляционной матрице в том смысле, что все коэффициенты вы­числены по одному и тому же множеству объектов. Однако если пропущенные значения распределены случайным образом в переменных, то данный метод может привести к тому, что в рассматриваемом множестве данных не останется ни одного объекта (в каждой строке встретится, по крайней мере, одно пропу­щенное значение). Чтобы избежать подобной ситуации, используют другой способ, называемый попарным удалением. В этом способе учитываются только пропуски в каждой выбранной паре столбцов-переменных и игнорируются пропуски в других переменных. Корреляция для пары переменных вычисляет­ся по тем объектам, где нет пропусков. Во многих ситуациях, особенно когда число пропусков относительно мало, скажем 10%, и пропуски распределены достаточно хаотично, этот метод не приводит к серьезным ошибкам. Однако иногда это не так. Например, в систематическом смещении (сдвиге) оценки может «скрываться» систематическое расположение пропусков, являющееся причиной различия коэффициентов корреляции, построенных по разным под­множествам (например — для разных подгрупп объектов). Другая проблема, связанная с корреляционной матрицей, вычисленной при попарном удалении пропусков, возникает при использовании этой матрицы в других видах анали­за (например, в множественном регрессионном или факторном анализе). В них предполагается, что используется «правильная» корреляционная матрица с определенным уровнем состоятельности и «соответствия» различных коэффи­циентов. Использование матрицы с «плохими» (смещенными) оценками при-

158

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]