
- •2. Дайте определение теоретическому коэффициенту корреляции. Что он показывает? в каком диапазоне меняется?
- •3. Почему на практике исследователь не может вычислить сам теоретический коэффициент корреляции?
- •24. В каком случае применение евклидова расстояния не имеет под собой теоретического основания (хотя может давать разумные результаты)?
- •25. Назовите известные Вам алгоритмы агломерации.
- •26. Даны 4 трехмерных наблюдения. Реализуйте их кластеризацию на основе метода ближнего соседа (дальнего соседа, средней связи) и расстояния Евклида (Манхеттен, Чебышев). Постройте дендрограмму
- •27. Дана дендрограмма. Укажите получившиеся кластеры.
- •29. Объясните, почему при кластеризации необходимо приводить все показатели к единой шкале измерения?
- •34. Кто и почему впервые назвал регрессию регрессией?
- •35. В чем суть метода наименьших квадратов?
- •36. Формализуйте идею метода наименьших квадратов в ситуации парной линейной регрессии (в случае центрированных иксов).
- •37. Выведите мнк-оценки коэффициентов парной линейной регрессии (в случае центрированных иксов).
- •38. Как получить мнк-оценки коэффициентов парной линейной регрессии в обычном случае центрированных иксов?
- •39. Покажите связь между коэффициентом корреляции к.Пирсона и коэффициентом β1 парной линейной регрессии. (См рисунок в контакте)
- •Вопрос 40. Сформулируйте 4 условия Гаусса – Маркова.
- •Вопрос 41. Сформулируйте теорему Гаусса – Маркова
- •1. Несмещенность
- •2. Эффективность
- •47.Что такое автокорреляция остатков? Когда она может возникать в регрессионной модели?
- •48. К каким последствиям для свойств мнк-оценок ведет нарушение каждого из условий Гаусса – Маркова?
- •51.Укажите распределение (и его параметры) мнк-оценок коэффициентов регрессии при выполнении условий Гаусса – Маркова и условия нормальности. (смотри оисунок в контакте)
- •52. Дано значение мнк-оценок коэффициентов парной регрессии. Известно число наблю-дений. Проверьте, значимы ли коэффициенты регрессии.
- •53. Дана таблица результатов регрессионного анализа из некоторой статьи англоязычного политологического журнала. Укажите статистически значимые коэффициенты регрессии.
- •54. Даны несколько пар наблюдений над случайными величинами X и y. Постройте уравне-ние регрессии y на X и проверьте значимость коэффициентов.
- •55. Что такое коэффициент детерминации? Что он показывает?
- •56. Даны значения rss и ess. Найти r(квадрат)
- •57. Дано значение коэффициента корреляции между X и y. Найти r(квадрат)
- •60. Даны значения rss и ess, число наблюдений и число предикторов в регрессии. Проверить гипотезу о качестве модели на основе статистики Фишера.
- •61. Дано значение r2, число наблюдений и число предикторов в регрессии. Проверить гипотезу о качестве модели на основе статистики Фишера.
- •63. Дана таблица дисперсионного анализа. Заполнить пропуски в таблице.
- •64. Дана таблица выдачи регрессионного анализа. Запишите полученное уравнение регрес-сии
- •67. Какова природа проблемы мультиколлинеарности в задачах множественной регрессии?
- •68.К чему ведет мультиколлинеарность?
- •73. Каковы методы выявления автокорреляции в задаче регрессионного анализа?
- •74. В чем состоит проблема эндогенности в задаче регрессии? Каковы последствия эндогенности для мнк-регрессии?
- •75.В чем состоит проблема гетероскедастичности? Из-за чего она возникает и каковы ее по-следствия для мнк-оценок коэффициентов регрессии?
- •76.Опишите не менее 2 методов выявления гетероскедастичности остатков в задаче множе-ственной регрессии.
- •77. Опишите известные Вам методы борьбы с гетероскедастичностью остатков в задаче множественной регрессии.
- •78. Назовите задачи, которые решает метод главных компонент.
- •79. Приведите примеры использования мгк в политологических задачах.
- •90. Назовите оптимальные свойства главных компонент.
- •91. Объясните смысл характеристического уравнения для ковариационной матрицы:
- •94. Чему равен коэффициент корреляции между главными компонентами?
74. В чем состоит проблема эндогенности в задаче регрессии? Каковы последствия эндогенности для мнк-регрессии?
Если в регрессионной модели У=Хb+е регрессоры Х коррелируют с ошибкой е, то они называются эндогенными
Проблема
• Обычные оценки МНК в этом случае
– смещены и
– несостоятельны
• Содержательная интерпретация ошибочна
• Рекомендации, выработанные на основе модели неверны
Причины эндогенности
1. Пропуск существенных переменных
2. Ошибки измерения регрессоров
3. Самоотбор
4. Одновременность
5. Автокорреляция ошибок при наличии в уравнении лага зависимой переменной в роли регрессора
Инструменты
Некие переменные Z, удовлетворяющие требованиям:
• сильной коррелированности с
инструментируемыми эндогенными Х
• некоррелированности с ошибкой
Проблема выбора инструментов
• Инструменты должны браться вне модели
• Требования к инструментам противоречивы:
-Если Z должны сильно коррелировать с Х, а Х должны сильно коррелировать с У, то Z будут сильно коррелировать с У, а, следовательно, коррелировать с ошибкой
Следствия противоречивости требований к инструментам
• Либо инструменты экзогенные (нет корреляции с ошибкой), но слабые (слабо коррелируют с Х)
• Либо инструменты сильные, но эндогенные (сильно коррелируют с ошибкой)
75.В чем состоит проблема гетероскедастичности? Из-за чего она возникает и каковы ее по-следствия для мнк-оценок коэффициентов регрессии?
Гетероскедастичность – это, когда дисперсия ошибок не является постоянной (не выполняется условие) D(e|X)=сигма2.
Это приводит к тому, что:
оценки регрессионных коэффициентов являются несмещенными и состоятельными, но не являются наиболее эффективными среди всех МНК-оценок
не получается правильно оценить значимость регрессионных коэффициентов, потому что мы неверно оцениваем дисперсию b^. В итоге мы не можем проверять гипотезы на основе такой регрессионной модели, т.к., возможно, будем признавать значимыми незначимые коэффициенты.
Причины гетероскедастичности:
есть неучтенный фактор (omitted variable)
зависимость между y и предикторами нелинейная (называется неверная функциональная форма регрессии)
используются данные, полученные по разной методике
среди наблюдений есть «выбросы»
76.Опишите не менее 2 методов выявления гетероскедастичности остатков в задаче множе-ственной регрессии.
Способы диагностики гетероскедастичности:
Построить график распределения, где по оси Y будут отмечены значение ошибки (e) или e2, а по оси X – y^ (предсказанные значения y). Если значения ошибок (e) будут примерно одинаковыми для разных y^, гетероскедастичности нет.
Посчитать коэффициент корреляции между e2 и y^ (есть связь – есть гетероскедастичность)
Проверить с помощью критерия Бреуша-Пагана (Breusch-Pagan test): нулевая гипотеза будет о гомоскедастичности
Проверка с помощью критерия Goldfeld-Quandt: нужно разбить диапазон прогнозных y на три части, и сравнить значения суммы квадратов ошибок (RSS) для первой и третьей части. Если RSS(1) ~ RSS (2), то гетероскедастичности нет. Можно использовать критерий Фишера: у нас нулевая гипотеза о равенстве RSS (т.е. о гомоскедастичности), считаем RSS(2)/RSS(1) и проверяем, попадает ли полученное значение в область доверительных значений статистики Фишера, если да – то нет гетероскедастичности, все ок.