
ГОСЫ / 25. Ponyatie_statisticheskogo_kriteria_Moshnost_krit
.docx-
Понятие статистического критерия. Мощность критерия. Уровень статистической значимости
Статистический критерий – решающее правило, обеспечивающее надежное поведение, то есть принятие истинной и отклонение ложной гипотезы с высокой вероятностью (Суходольский Г.В.) статистические критерии обозначают также метод расчета определенного числа и само это число. В большинстве случаев, когда мы хотим, чтобы наши результаты были признаны значимыми, необходимо что бы эмпирическое значение критерия превышало критическое, хотя есть критерии (напр Манна-Уитни или критерий знаков), в которых мы должны придерживаться противоположного правила. В некотором случае расчетная формула критерия включает в себя количество наблюдений в исследуемой выборке, обозначаемое как n. В этом случае эмпирическое значение критерия одновременно является тестом для проверки статистических гипотез. По специальной таблице мы определяем, какому уровню статистической значимости различий соответствует данная эмпирическая величина. Примером такого критерия является угловое преобразование Фишера. В большинстве случаев, однако, одно и то же эмпирическое значение критерия может оказаться значимым или незначимым, в зависимости от количества наблюдений в исследуемой выборке или от так называемого количества степеней свободы, которое обозначается как v или как df. Число степеней свободы равно числу классов вариационного ряда минус число условий, при которых он был сформирован (Ивантер, Э.В., Коросов А.В.). к числу таких условий относятся объем выборки, средние и дисперсии.
Если мы расклассифицировали наблюдения по классам какой-либо номинативной шкалы и подсчитали количество наблюдений в каждой ячейке классификации, то мы получаем так называемый частотный вариационный ряд. Единственное условие, которое соблюдается при его формировании – объем выборки n. Допустим, у нас три класса: «Умеет работать на компьютере – выполняет лишь определенные операции – не умеет работать на компьютере». Если в первый класс отнесены 20 испытуемых, во второй – также 20, то в третий только остальные 10. Мы ограничены объемом выборки. Поэтому даже если мы потеряли данные о том, сколько человек не умеет работать на компьютере, мы можем определить это, зная, что в первом и во втором классе – по 20 испытуемых. Мы не свободны в определении количества испытуемых в третьем разряде, «свобода» простирается только на 2 ячейки классификации. Зная n и/или число степеней свободы, мы по специальным таблицам можем определить критические значения и сопоставить с ними полученные эмпирические значения. Обычно это записывается так: «при n = 22 критические значения критерия составляют…».
Критерии делятся на параметрические и непараметрические.
Параметрические критерии – критерии, включающие в формулу расчета параметры распределения, то есть средние и дисперсии (критерий стьюдента, критерий f и т.д.).
Непараметрические критерии – критерии, не включающие в формулу расчета параметров распределения о основанные на оперировании частотами или рангами (критерий Розенбаума, Вилкоксона и т.д.).
И те, и другие критерии имеют преимущества и недостатки.
Возможности и ограничения параметрических и непараметрических критериев – см приложение 1.
Как видно, параметрические критерии могут оказаться более мощными, но только в том случае, если признак измерен по интервальной шкале и нормально распределен. Лишь с некоторой натяжкой мы можем назвать данные нестандартизированных методик интервальными. Кроме того, что определить нормальность распределения, нужно применить большое количество сложных расчетов с заранее неизвестными результатами. Непараметрические критерии лишены этих ограничений. По сравнению с параметрическими критериями у них есть лишь одно ограничение – с их помощью невозможно оценить взаимодействие двух или более условий или факторов, влияющих на изменение признака. Эту задачу может решить только двухфакторный дисперсионный анализ.
Уровни статистической значимости.
Уровень значимости – это вероятность того, что мы сочти различия существенными, а они на самом деле случайны. Когда мы указываем, что различия находятся на 5 % уровне значимости, то мы имеем в виду, что вероятность того, что они все-таки недостоверны, составляет ) 0,05. Когда мы указываем на 1 % уровень значимости, то вероятность того, что они недостоверны, составляет 0,01.
Если перевести все это на формализованный язык, то уровень значимости – это вероятность отклонения нулевой гипотезы, в то время как она верна.
Ошибка, состоящая в том, что мы отклонили нулевую гипотезу, в то время, как она верна, называется ошибкой первого рода. Вероятность такой ошибки обычно обозначается как α. В сущности мы должны указывать ρ ≤ 0,05 и ρ ≤ 0,01, а α≤0,05 и α≤0,01. В некоторых руководствах так и делается (Рунион Р, Захаров В.П. и др).
Если вероятность ошибки это α, то вероятность правильного решения: 1 – α. Чем меньше α, тем меньше вероятность ошибки, тем больше вероятность правильного решения.
Исторически сложилось так, что в психологии принято низшим уровнем значимости 0,05 уровень, достаточной значимости – 0,01, высшим – 0,001.
Ось значимости.
Практически исследователь может считать достоверными уже те различия, которые не попадают в зону незначимости, заявив, что они достоверны при ρ ≤ 0,05.
Уровень статистической значимости или критических значений критерия определяется по-разному при проверке направленных и ненаправленных статистических гипотез.
При направленной статистической гипотезе используется односторонний критерий, при ненаправленной – двусторонний. Последний считается более строгим, так как проверяет различия в обе стороны и поэтому эмпирическое значение критерия, которое раньше было 0,05, теперь только 0,10.
Мощность критерия.
- это его способность выявлять различия, если они есть. Иными словами, это его способность отклонить нулевую гипотезу об отсутствии различий, если она неверна.
Ошибка, состоящая в том, что мы приняли нулевую гипотезу, в то время как она неверна, называется ошибкой второго рода. Вероятность такой ошибки обозначается как β. Мощность критерия – это его способность не допустить ошибку второго рода, поэтому: мощность = 1 – β. Мощность критерия определяется эмпирическим путем. Одни и те же задачи могут быть решены разными критериями, при этом обнаруживается, что некоторые критерии могут показать различия там, где другие неспособны это сделать или выявляют более высокий уровень различий. Таким образом, основанием для выбора критерия может служить не только мощность, но и:
- простота
- более широкий диапазон использования
- применимость по отношению к неравным объемам выборки
- большая информативность результатов.