- •. Основные понятия и определения математической статистики
- •Основными этапами статистического анализа данных являются:
- •Данные и их разновидности
- •Измерительные шкалы
- •Основные характеристики и примеры измерительных шкал
- •Генеральная совокупность и выборка
- •Статистическое распределение выборки
- •Описательный (дескриптивный) анализ
- •Структурирование, ввод и проверка данных.
- •Меры центральной тенденции
- •Выбор меры центральной тенденции в зависимости от типа измерительной шкалы
- •Меры изменчивости
- •Меры связи между признаками
- •Корреляция метрических переменных
- •Корреляция ранговых переменных
- •Статистические гипотезы
- •Статистические критерии
- •Процедура проверки статистических гипотез
- •Основные законы распределения
- •Нормальное распределение.
- •-Распределение
- •Распределение Стьюдента
- •Распределение Фишера,
- •Проверка гипотез о законе распределения
- •Критерий Колмогорова
-Распределение
Наиболее важную роль в математической статистике играет распределение Пирсона, иначе называемое -распределением. Этому распределению подчинена сумма квадратов k независимых случайных величин:
|
(0.11) |
каждая из которых, в свою очередь, распределена по стандартному нормальному закону. Плотность -распределения
|
(0.12) |
где
– гамма-функция:
|
(0.13) |
Графики плотности -распределения приведены на рис. 0 .1.
Рис. 0.1. Плотность -распределения для различного числа степеней свободы
С увеличением числа степеней свободы плотность ( 0 .12) приближается к плотности нормального закона. Справедлива асимптотическая формула
|
(0.14) |
где
– функция стандартного нормального
распределения.
Распределение Стьюдента
Распределением Стьюдента с k степенями свободы называется распределение случайной величины:
|
(0.15) |
где
U
– случайная величина, подчиненная
стандартному нормальному закону, Y
– случайная величина, подчиненная
‑распределению с
k
степенями свободы.
Плотность распределения Стьюдента
|
(0.16) |
Графики функции ( 0 .16) для различного числа степеней свободы изображены на рис. 0 .2.
Рис. 0.2. Плотность распределения Стьюдента
Распределение Фишера,
Распределением Фишера, или F-распределением с m и n степенями свободы называется распределение случайной величины
|
(0.17) |
где
,
– случайные величины, подчиненные
‑распределениям
со степенями свободы m
и n,
соответственно.
Плотность F-распределения:
|
(0.18) |
где
|
|
– бета-функция.
Графики ( 0 .18) изображены на рис. 0 .3.
Рис. 0.3. Плотность F-распределения
Проверка гипотез о законе распределения
Во
многих случаях закон распределения
изучаемой случайной величины
неизвестен, но есть основания предположить,
что он имеет вполне определенный вид:
нормальный, экспоненциальный или
какой-либо другой.
Пусть
выдвинута гипотеза
о каком-либо законе распределения.
Для проверки этой гипотезы требуется по выборке сделать заключение, согласуются ли результаты наблюдений с высказанным предположением.
Статистический критерий проверки гипотезы о предполагаемом законе неизвестного распределения называется критерием согласия.
Он используется для проверки согласия предполагаемого вида распределения с опытными данными на основании выборки.
t-критерий Стьюдента используется для:
1) установления сходства-различия средних арифметических значений в двух выборках (M1↔M2 ) или в более общем виде, для установления сходства-различия двух эмпирических распределений;
2) установления отличия от нуля некоторых мер связи: коэффициента линейной корреляции Пирсона,
3) установления сходства-различия двух дисперсий в двух зависимых выборках.
Ограничения:
1) это параметрический критерий, поэтому необходимо, чтобы распределение признака, по крайней мере, не отличалось от нормального распределения;
2) для независимых и зависимых выборок разные формулы расчета;
Гипотезы
1) независимые выборки:
Н0: средние значения признака в обоих выборках не различаются,
Н1: средние значения признака в обоих выборках статистически значимо различаются.
2) зависимые выборки:
Н0: разности оценок испытуемых в двух состояниях не отличаются от нуля,
Н1: разности оценок испытуемых в двух состояниях статистически значимо отличаются от
нуля.
F-критерий Фишера (для сравнения дисперсий)
F-критерий Фишера используется для:
1) установления сходства-различия дисперсий в двух независимых выборках (D1↔D2);
2) установления отличия от нуля коэффициента детерминации (η2 ↔"О");
3) установления наличия-отсутствия влияния фактора в дисперсионном анализе.
Случай 1
Случай 1
Эмпирическое значение F-критерия для сравнения двух дисперсий в независимых выборках находят по очень простой формуле:
где
–
большая
дисперсия,
–
меньшая
дисперсия. [Подстановка в числитель
большей дисперсии необходима для
использования таблиц критических
значений, в которых приводится только
правое критическое значение (больше
единицы). Статистические программы
рассчитывают и левое критическое
значение (меньше единицы)].
Количество степеней свободы определяется отдельно для числителя и отдельно для знаменателя:
dfчисл= nчисл-1
dfзнам =nзнам -1
Сформулируем
задачу. Пусть имеются две нормально
распределенные совокупности, дисперсии
которых равны
и
.
Необходимо проверить нулевую гипотезу
о равенстве дисперсий, т.е.
:
относительно конкурирующей
или
.
Для
проверки гипотезы
из этих совокупностей взяты две
независимые выборки объемом
и
.
Так как оценки дисперсий
и
нам неизвестны, воспользуемся несмещенными
выборочными оценками дисперсий
и
.
Очевидно,
что при равенстве дисперсий величина
критерия будет равна единице. В остальных
случаях она будет больше (меньше) единицы.
При формировании критерия отклонения
(принятия) гипотезы
следует учесть, что распределение
статистики
(в отличие от нормального или распределения
Стьюдента является несимметричным.)
Критерий
Фишера
– двусторонний критерий, и нулевая
гипотеза
принимается (отвергается альтернативная
гипотеза
)
если
.
Случай 2
В случае определения отличия от нуля коэффициента детерминации эмпирическое значение F-критерия рассчитывается так:
где: N – общее число испытуемых, r-число интервалов квантования, исходя из которых рассчитывалось η2.
При определении критического значения число степеней свободы для числителя:
dfчисл=r–1,
для знаменателя:
dfзнам=N–r.
(Коэффициент детерминации – η2, определяет общую меру связи – корреляционное отношение. Он определяется по формуле:
Здесь:
– сумма
квадратов отклонений от внутригруппового
(условного) среднего;
–
сумма
квадратов отклонений от общего для всех
измерений среднего (безусловного
среднего);
Следует отметить, что в отличие от линейной корреляции коэффициент детерминации устанавливает два типа связей: зависимость х от у и зависимость у от х (η2 х/у, η2у/х). То есть сначала одна переменная рассматривается как зависимая, другая – как независимая, затем наоборот).
χ2-критерий Пирсона
Критерий χ2 применяется в двух целях:
1) для сопоставления эмпирического распределения признака с теоретическим – равномерным, нормальным или каким-то иным;
2) для сопоставления двух трех или более эмпирических распределений одного и того же признака На самом деле области применения критерия χ2 многообразны ,
Описание критерия.
Критерий χ2 отвечает на вопрос о том, с одинаковой ли частотой встречаются разные значения признака в эмпирическом и теоретическом распределениях или в двух и более эмпирических распределениях.
Преимущество метода состоит в том, что он позволяет сопоставлять распределения признаков, представленных в любой шкале, начиная от шкалы наименований. В самом простом случае альтернативного распределения "да – нет", "допустил брак – не допустил брака", "решил задачу – не решил задачу".
При сопоставлении эмпирического распределения с теоретическим мы определяем степень расхождения между эмпирическими и теоретическими частотами.
При сопоставлении двух эмпирических распределений мы определяем степень расхождения между эмпирическими частотами и теоретическими частотами, которые наблюдались бы в случае совпадения двух этих эмпирических распределений. Формулы расчета теоретических частот будут специально даны для каждого варианта сопоставлений.
Чем больше расхождение между двумя сопоставляемыми распределениями, тем больше эмпирическое значение χ2.
Гипотезы.
Возможны несколько вариантов гипотез, в зависимости от задач, которые мы перед собой ставим.
Первый вариант:
H0: Полученное эмпирическое распределение признака не отличается от теоретического (например, равномерного) распределения.
H1: Полученное эмпирическое распределение признака отличается от теоретического распределения.
Второй вариант:
H0: Эмпирическое распределение 1 не отличается от эмпирического распределения 2.
H1: Эмпирическое распределение 1 отличается от эмпирического распределения 2.
Третий вариант:
H0: Эмпирические распределения 1, 2, 3,... не различаются между собой.
Н1: Эмпирические распределения 1, 2, 3, ... различаются между собой.
Критерий χ2 позволяет проверить все три варианта гипотез.
Ограничения критерия.
1) Объем выборки должен быть достаточно большим: n>.30. При n<30 критерий χ2 дает весьма приближенные значения. Точность критерия повышается при больших п.
2) Теоретическая частота для каждой ячейки таблицы не должна быть меньше 5: ƒ≥5. Это означает, что если число разрядов задано заранее и не может быть изменено, то мы не можем применять метод, χ2 не накопив определенного минимального числа наблюдений. Если, например, мы хотим проверить наши предположения о том, что частота обращений в телефонную службу Доверия неравномерно распределяются по 7 дням недели, то нам потребуется 5*7=35 обращений. Таким образом, если количество разрядов (k) задано заранее, как в данном случае, минимальное число наблюдений (nmin) определяется по формуле:
nmin=k*5.
3) Выбранные разряды должны "вычерпывать" все распределение, то есть охватывать весь диапазон вариативности признаков. При этом группировка на разряды должна быть одинаковой во всех сопоставляемых распределениях.
4) Необходимо вносить "поправку на непрерывность" при сопоставлении распределений признаков, которые принимают всего 2 значения. При внесении поправки значение χ2 уменьшается.
5) Разряды должны быть неперекрещивающимися: если наблюдение отнесено к одному разряду, то оно уже не может быть отнесено ни к какому другому разряду. Сумма наблюдений по разрядам всегда должна быть равна общему количеству наблюдений.

,
,
.
,
,
.
,
,