
- •11. Анализ парных наблюдений в политологии: постановка задачи, применение критерия знаков. (Бочарова а)
- •12. «Задача о двух выборках»: постановка задачи. Критерий Стьюдента: алгоритм решения, ограничения метода. Пример использования в политологии.(Бочарова а)
- •X (демократии): 3, 6, 2, 11, 7, 5, 15.
- •13. Коэффициент корреляции Пирсона: содержательный смысл, формула расчета. Проблема устойчивости. Примеры применения в политологии (прошлый год)
- •Общие положения
- •Алгоритм действий
- •Vs h1: модель лучше константы.
- •Vs h1: β1 мнк с крышкой ≠ 0.
13. Коэффициент корреляции Пирсона: содержательный смысл, формула расчета. Проблема устойчивости. Примеры применения в политологии (прошлый год)
Общие положения
Коэффициент корреляции:
; причем ковариация случайных величин
и
равна
(разность математического ожидания произведения случайных величин и произведения математических ожиданий каждой величины)
Смысл: коэффициент корреляции показывает меру связи случайных величин;
Область значений коэффициента (допустимые значения): [-1;1];
отрицательные значения – отрицательная связь (монотонно убывающая);
если коэффициент корреляции равен -1 или 1, то тогда величины и линейно связаны, то есть таким
и
, что
для независимых случайных величин коэффициент корреляции (если он существует), равен нулю.
Коэффициент корреляции Пирсона
Расчетная формула:
Проверка равенства коэффициента нулю: есть ли основания полагать, что посчитанное нами число значимо отличается от 0.
надо посчитать граничные точки
и - , между которыми будет меняться нулевой коэффициент корреляции.
(n – размер одной из выборок);
смотрим по таблицам Стьюдента
и считаем , потом смотрим, куда попал коэффициент Пирсона;
Проблема: чувствительность к выбросам – нетипичным, резко выделяющимся наблюдениям.
Пример в политологии: связь политических предпочтений с чем угодно – пол, возраст, вес. Например, за Путина голосовали толстые
15. Изучение связи качественных признаков: анализ таблиц сопряженности. Внешний вид таблицы сопряженности. Статистические средства анализа таблицы сопряженности: критерий χ2 К.Пирсона. Примеры применения в политологии. (прошлый год)
Анализ таблиц сопряженности используется для выявления связи между двумя качественными признаками. У каждого из них есть конечное число «значений». (Например, для признака «пол» значения «мужской» и «женский»).
Таблица сопряженности:
A\B |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Величины n в правом крайнем столбце – суммы значений n по строкам,
Величины n нижней строки таблицы – суммы по столбцам
В правом нижнем углу - общая сумма всех наблюдений, необходимая для подсчета вероятностей.
Смысл всего анализа - сопоставить ожидаемые (теоретические) вероятности и наблюдаемые (практические).
Алгоритм действий
Выдвигаем гипотезу о независимости признаков:
2. Вычисляем ожидаемые частоты по формуле
(произведение сумм по строкам и сумм по столбцам; ожидаемые потому что при условии выполнения гипотезы)
3. Вычисляем наблюдаемую вероятность
по формуле:
4. Мерой согласия опытных данных с теорией
будет критерий хи-квадрат. Число степеней
свободы считается по формуле
,
то есть для матрицы два на два, будет
одна степень свободы
5. Считаем величину, по следующей формуле:
6. Полученную сумму (получается, что для
каждой клеточки считаем мегадробь, а
потом их суммируем) сравниваем с верхней
процентной точкой
(есть специальные таблицы). Если полученное
значение больше, то гипотеза отвергается
и у наших признаков есть связь, они
зависимы.
Пример использования: есть ли связь между полом и голосованием за какого-то кандидата (в столбцы загоняем пол – мужской/женский, а кандидатов в строки – Путин, Медведев, Зюганов; в столбики забиваться будет количество людей, проголосовавших за одного из этих парней)
Вопрос №16.
Простая линейная регрессия: постановка задачи, графическая интерпретация. Метод наименьших квадратов и МНК-оценки коэффициентов модели. Коэффициент детерминации. Проверка гипотез о коэффициентах при предикторах и качестве модели. (Бочарова А)
Регрессия. 1862 г. Sir Francis Galton “Regression towards Mediocrity hereditary stature”.
Психометрика, биология, коэффициент корреляции.
i |
yi |
xi |
1 |
y1 |
x1 |
2 |
y2 |
x2 |
3 |
y3 |
x3 |
… |
… |
… |
n |
yn |
xn |
Задача парной регрессии – описание изменчивости y с помощью изменчивости x.
Y – отклик, эндогенная переменная.
X – предиктор, регрессор, ковариата, фактор, экзогенная переменная.
Линейная регрессия:
yi = β0 + β1 * xi + εi – уравнение парной линейной регрессии (простой линейной регрессии).
[Например, x – уровень урбанизации, y – поддержка партии КПРФ] по регионам РФ.
Точки – регионы РФ.
Описать взаимосвязь x и y в среднем.
Понять, чему в среднем будет равен y, если x равен конкретному числу.
Задача – построить прямую, которая будет лежать максимально близко к точке, т.е. наименьшие отклонения.
yi = β0 + β1 * xi + εi
|________|
yi с крышкой= β0 + β1 * xi – все лежат на прямой, т.к. это уравнение прямой.
|
Это прогнозный отклик.
Мат. ожидание отклика при должном значении предиктора.
yi с крышкой = E (y|xi)
yi = yi с крышкой + ei
ei – ошибка, остаточный член, случайный член (графически это вертикальная палочка до прямой регрессии).
Наша цель – подобрать такие β0 и β1, чтобыпрямаялежала наиболее близко к точкам.
1821 – 1822гг. – МНК.
yi = β0 + β1 * (xi – x ср.) + εi
Для того чтобы перенести ось в точку среднего значения x из точки (0;0).
Лаплас предложил использовать модули, чтобы отрицательные значения не гасили положительные.
НО: этот метод тогда не стал востребованным, поскольку не умели дифференцировать в точке минимуму = |x|.
Тогда К. Гаусс предложил брать квадраты.
Ψ = ∑ ei2 → min
Ψ = ∑ (yi – β0 – β1 (xi – x ср.))2 → min
β0, β1
Ищем производную и приравниваемее к нулю, т.к. производная это тангенс угла наклона касательной к графику.
Решаем систему уравнений:
Ψβ0 = ∑ (– 2 (yi – β0 – β1 (xi – x ср.))) = 0
Ψβ1 = ∑ (– 2 (yi – β0 – β1 (xi – x ср.))) (xi – x ср.) = 0
Решаем уравнения по отдельности. Сначала первое.
Ψβ0 = ∑ (– 2 (yi – β0 – β1(xi – x ср.))) = 0
Сокращаем на минус два.
∑ yi – nβ0 – β1∑ (xi – x ср.) = 0
Учитываем, что β1∑ (xi – x ср.) = 0,
т.к. x ср. = ∑ xi /n,
∑ xi = nx ср.
∑ (xi – x ср.) = ∑ xi – x ср.n = x ср.n – x ср.n = 0
Тогда
∑ yi – nβ0 = 0
β0 мнк с крышкой = ∑ yi / n = уср.
|
МНК-оценка β0 – наша оценка значения β0 с помощью МНК, МНК-оценка первого коэффициента модели.
МНК-оценка β1
Решаем второе уравнение из системы.
Ψβ1 = ∑ (– 2 (yi – β0 – β1 (xi – x ср.))) (xi – x ср.) = 0
Сокращаем на минус два.
∑ ((yi – y ср.) *(xi – x ср.) – β1 (xi – x ср.)2) = 0
∑ ((yi – y ср.) *(xi – x ср.)) – β1 ∑ (xi – x ср.)2 = 0
β1 мнк с крышкой = ∑ ((yi – y ср.) *(xi – x ср.)) / ∑ (xi – x ср.)2
|
β1 мнк с крышкой = R * (∑ (yi – y ср.)2 )0,5 / (∑ (xi – x ср.)2)0,5,
где R – коэффициент корреляции Пирсона.
Рассмотрим на примере.
Допустим,
β0 мнк с крышкой = 25
β1 мнк с крышкой = 0,7
yi = 25 + 0,7xi + exi
yi с крышкой = 25 + 0,7xi
Интерпретации МНК-оценок коэффициентов модели
Интерпретация β1 мнк с крышкой.
С ростом x на единицу y в среднем при прочих равных условиях увеличивается на 0,7.
Интерпретация β0 мнк с крышкой.
Если x = 0, то в среднем при прочих равных условиях y = 25.
Позволяет нам прогнозировать. И показать, насколько у зависим от x.
В классическом подходе мы рассматриваем xi как неслучайную, детерминированную величину, а yi как случайную.
За счет чего? За счет случайности ei.
Предположения Гаусса – Маркова на ei.
ei – случайная величина, у которой E(ei) = 0.
yi = β0 + β1xi + ei,
где β0 + β1xi – условное мат. ожидание. И для этого среднее ei должно быть равно 0!
ei – случайная величина, у которой D(ei) = ς12 = ς22
Предположение о гомоскедастичности остатков.
Гетероскедастичность – с ростом (убыванием) x, разброс остатков растет (убывает).
– с уменьшением x, уменьшается разброс. Есть зависимость остатков от предиктора, это значит, что мы в модели учли не все.
Гомоскедастичность – нет зависимости.
Corr (ei; ej) = 0 для любого i≠j. Предположение об отсутствии АК.
Corr (ei; xi) = 0.
Нет корреляции остатка и предиктора (т.е. с ростом x растет сам остаток или с уменьшением – уменьшается).
И еще одно предположение отдельное (не входит в набор Гаусса-Маркова):
5*. Ei ~ N (0; ς2). Это значит, что все значимое в модели мы учли.
Теорема Гаусса – Маркова.
Если выполняются четыре предположения, то МНК-оценки – наилучшие линейные несмещенные оценки.
Если мы предполагаем случайность величин оценок β0 мнк с крышкой и β1 мнк с крышкой, то они распределены нормально.
β0 мнк с крышкой ~ N (β0; ς2/n)
β1 мнк с крышкой ~ N (β1; ς2/∑ (xi – x ср.)2)
А β0 мнк и β1 мнк сами по себе константы и никакого распределения не имеют.
Насколько хороша модель?
Показателем качества модели является коэффициент детерминации.
[Может, сам x был неверно выбран? Т.е. не уровень урбанизации объясняет голосование за КПРФ, а что-то другое надо было брать].
Коэффициент детерминации – R2 = квадрат коэффициента корреляции Пирсона между x и y.
F – критерий.
H0: достаточно константы (модель плоха).