- •Эконометрика Практическое занятие 1. Оценивание вероятностных характеристик. Проверка статистических гипотез. Знакомство с Gretl.
- •8) Для X и y рассчитать ранговый коэффициент корреляции Спирмена и проверить его значимость.
- •I. Оценивание вероятностных характеристик
- •6. Ранговый коэффициент корреляции Спирмена.
- •II. Проверка статистических гипотез
- •1. Проверка равенства математического ожидания нормально распределенной случайной величины некоторому значению µ:
- •3. Проверка равенства вероятности некоторому значению δ:
- •4. Проверка значимости коэффициента корреляции Пирсона.
- •5. Проверка значимости рангового коэффициента корреляции Спирмена.
- •III. Знакомство с Gretl
- •1. Гистограмма.
- •2. Описательная статистика.
- •3. Проверка гипотезы о нормальном распределении.
- •5. Проверка равенства математического ожидания нормально распределенной случайной величины некоторому значению µ.
- •6. Проверка равенства вероятности некоторому значению δ
- •7. Проверка значимости коэффициента корреляции Пирсона.
- •7. Проверка значимости рангового коэффициента корреляции Спирмена.
6. Ранговый коэффициент корреляции Спирмена.
Рассмотренный ранее коэффициент корреляции Пирсона неустойчив к выбросам (одна-единственная ошибка в данных может изменить вывод о характере связи). Также он не позволяет выявить связь в том случае, если зависимость между X и Y является монотонной, но нелинейной. Наконец, коэффициент корреляции Пирсона нельзя применять, если хотя бы один из признаков измерен в ранговой шкале (т.е. является неколичественным). От этих недостатков свободен коэффициент корреляции Спирмена.
Расположим n пар наблюдений (xi, yi) по убыванию xi. Тогда первой будет пара с наибольшим значением фактора х, а n-й – с наименьшим. Припишем паре, стоящей на j-м месте число R(xj) = j, называемое рангом по X. В том случае, когда для j-го, j+1-го, …, j+k-го мест значение x одинаково, ранг соответствующих пар полагается равным:
Аналогичным образом определяется R(yj) - ранг по Y.
Коэффициент ранговой корреляции Спирмена определяется формулой:
По сути это обычный коэффициент корреляции Пирсона, но рассчитанный не по значениям xj и yj, а по их рангам R(xj) и R(yj).
№ |
x |
y |
R(x) |
R(y) |
R(x)-R(y) |
(R(x)-R(y))2 |
1 |
x1 |
y1 |
R(x1) |
R(y1) |
R(x1)-R(y1) |
(R(x1)-R(y1))2 |
… |
… |
… |
… |
… |
… |
… |
n |
xn |
yn |
R(xn) |
R(yn) |
R(xn)-R(yn) |
(R(xn)-R(yn))2 |
Размер выборки |
n |
Сумма |
|
Ранговый коэффициент корреляции Спирмена |
|
Для нахождения рангов в MS Excel используется функция
=РАНГ(значение X; массив значений X)
После нахождения рангов по X и по Y можно рассчитать коэффициент корреляции Спирмена с помощью функции:
=КОРРЕЛ(массив рангов по X; массив рангов по Y)
Описательную статистику можно выполнить автоматически, используя пакет анализа MS Excel. Предварительно потребуется установить надстройку "Анализ данных".
Инструкция установке:
https://support.office.com/ru-ru/article/Загрузка-пакета-анализа-в-excel-6a63e598-cd6d-42e3-9317-6b40ba1a66b4
После установки следует перейти на вкладку Данные и выбрать пункт Анализ данных. В открывшемся окне выбрать инструмент Описательная статистика:
В открывшемся окне устанавливается флажок «Метки в первой строке», затем выделяется столбец со выборкой значений X вместе с заголовком. Затем следует установить флажок «Описательная статистика» и нажать OK.
II. Проверка статистических гипотез
Статистическая гипотеза – это утверждение относительно значений параметров распределения случайной величины, случайная выборка реализаций которой нам доступна.
Проверка статистических гипотез включает 4 этапа.
1. Выбирается уровень значимости α.
Уровень значимости – это вероятность ошибки первого рода (вероятность отвергнуть нулевую гипотезу тогда, когда она является истинной). В качестве α стараются выбрать какое-либо небольшое число (т.к. это вероятность ошибки, она не должна быть высокой; вместе с тем она не должна быть и слишком низкой, т.к. иначе нулевую гипотезу будет почти невозможно отвергнуть). Обычно в качестве α выбирают 0,1, 0,05 или 0,01, но можно выбрать и любое другое число.
2. Формулируются нулевая H0 и альтернативная H1 гипотезы.
Гипотеза, которую мы первоначально считаем истинной и проверяем, называется нулевой и обозначается H0. Гипотеза, в пользу которой мы можем отвергнуть нулевую, называется альтернативной и обозначается H1.
3. Рассчитывается наблюдаемое значение tнабл тестовой статистики T.
Тестовая статистика T – это случайная величина, представляющая собой функцию случайной выборки. Тестовая статистика строится таким образом, чтобы ее распределение в том случае, когда верна нулевая гипотеза H0, было известным. При подстановке в функцию известных выборочных значений мы получим реализацию данной с.в. T – ее наблюдаемое значение tнабл.
4. Строится критическая область значений с.в. T и проверяется принадлежность наблюдаемого значения критической области.
Если наблюдаемое значение T принадлежит критической области, то нулевая гипотеза H0 отвергается в пользу альтернативной H1. Если же не принадлежит, то у исследователя нет оснований отвергнуть нулевую гипотезу.
4.1. Проверка с помощью границы критической области – критического значения tα.
Критические области обычно односторонние (правосторонние или левосторонние) или двусторонние (обычно симметричные относительно 0).
В случае правосторонней критической области:
Наблюдаемое значение tнабл принадлежит критической области, если выполняется неравенство:
По аналогии, для левосторонней критической области:
наблюдаемое значение tнабл принадлежит ей, если выполняется неравенство:
Для симметричной относительно нуля двусторонней критической области:
наблюдаемое значение tнабл принадлежит ей, если выполняется неравенство:
4.2. Проверка с помощью наблюдаемого уровня значимости (p-value).
Наблюдаемый уровень значимости (p-value) – это такой уровень значимости, при котором Tнабл оказывается на границе критической области и области принятия H0. Например, для правосторонней критической области:
Независимо от вида критической области наблюдаемое значение tнабл принадлежит ей, если выполняется неравенство:
