
- •2. Дайте определение теоретическому коэффициенту корреляции. Что он показывает? в каком диапазоне меняется?
- •3. Почему на практике исследователь не может вычислить сам теоретический коэффициент корреляции?
- •24. В каком случае применение евклидова расстояния не имеет под собой теоретического основания (хотя может давать разумные результаты)?
- •25. Назовите известные Вам алгоритмы агломерации.
- •26. Даны 4 трехмерных наблюдения. Реализуйте их кластеризацию на основе метода ближнего соседа (дальнего соседа, средней связи) и расстояния Евклида (Манхеттен, Чебышев). Постройте дендрограмму
- •27. Дана дендрограмма. Укажите получившиеся кластеры.
- •29. Объясните, почему при кластеризации необходимо приводить все показатели к единой шкале измерения?
- •34. Кто и почему впервые назвал регрессию регрессией?
- •35. В чем суть метода наименьших квадратов?
- •36. Формализуйте идею метода наименьших квадратов в ситуации парной линейной регрессии (в случае центрированных иксов).
- •37. Выведите мнк-оценки коэффициентов парной линейной регрессии (в случае центрированных иксов).
- •38. Как получить мнк-оценки коэффициентов парной линейной регрессии в обычном случае центрированных иксов?
- •39. Покажите связь между коэффициентом корреляции к.Пирсона и коэффициентом β1 парной линейной регрессии. (См рисунок в контакте)
- •Вопрос 40. Сформулируйте 4 условия Гаусса – Маркова.
- •Вопрос 41. Сформулируйте теорему Гаусса – Маркова
- •1. Несмещенность
- •2. Эффективность
- •47.Что такое автокорреляция остатков? Когда она может возникать в регрессионной модели?
- •48. К каким последствиям для свойств мнк-оценок ведет нарушение каждого из условий Гаусса – Маркова?
- •51.Укажите распределение (и его параметры) мнк-оценок коэффициентов регрессии при выполнении условий Гаусса – Маркова и условия нормальности. (смотри оисунок в контакте)
- •52. Дано значение мнк-оценок коэффициентов парной регрессии. Известно число наблю-дений. Проверьте, значимы ли коэффициенты регрессии.
- •53. Дана таблица результатов регрессионного анализа из некоторой статьи англоязычного политологического журнала. Укажите статистически значимые коэффициенты регрессии.
- •54. Даны несколько пар наблюдений над случайными величинами X и y. Постройте уравне-ние регрессии y на X и проверьте значимость коэффициентов.
- •55. Что такое коэффициент детерминации? Что он показывает?
- •56. Даны значения rss и ess. Найти r(квадрат)
- •57. Дано значение коэффициента корреляции между X и y. Найти r(квадрат)
- •60. Даны значения rss и ess, число наблюдений и число предикторов в регрессии. Проверить гипотезу о качестве модели на основе статистики Фишера.
- •61. Дано значение r2, число наблюдений и число предикторов в регрессии. Проверить гипотезу о качестве модели на основе статистики Фишера.
- •63. Дана таблица дисперсионного анализа. Заполнить пропуски в таблице.
- •64. Дана таблица выдачи регрессионного анализа. Запишите полученное уравнение регрес-сии
- •67. Какова природа проблемы мультиколлинеарности в задачах множественной регрессии?
- •68.К чему ведет мультиколлинеарность?
- •73. Каковы методы выявления автокорреляции в задаче регрессионного анализа?
- •74. В чем состоит проблема эндогенности в задаче регрессии? Каковы последствия эндогенности для мнк-регрессии?
- •75.В чем состоит проблема гетероскедастичности? Из-за чего она возникает и каковы ее по-следствия для мнк-оценок коэффициентов регрессии?
- •76.Опишите не менее 2 методов выявления гетероскедастичности остатков в задаче множе-ственной регрессии.
- •77. Опишите известные Вам методы борьбы с гетероскедастичностью остатков в задаче множественной регрессии.
- •78. Назовите задачи, которые решает метод главных компонент.
- •79. Приведите примеры использования мгк в политологических задачах.
- •90. Назовите оптимальные свойства главных компонент.
- •91. Объясните смысл характеристического уравнения для ковариационной матрицы:
- •94. Чему равен коэффициент корреляции между главными компонентами?
1. Несмещенность
Поскольку оценки являются случайными переменными, их значения лишь по случайному
совпадению могут в точности равняться характеристикам генеральной совокупности. Обыч-
но будет присутствовать определенная ошибка, которая может быть большой или малой, по-
ложительной или отрицательной, в зависимости от чисто случайных составляющих величин
х в выборке.
Желательно, чтобы математическое ожидание оценки равнялось бы соответствующей харак-
теристике генеральной совокупности. Если это так, то оценка называется несмещенной. Если
это не так, то оценка называется смещенной, и разница между ее математическим ожиданием
и соответствующей теоретической характеристикой генеральной совокупности называется
смещением.
Формальное определение:
Определение. Оценка qˆn параметра q называется несмещенной, если ее математическое
ожидание равно оцениваемому параметру при любом объеме выборки, т.е.
E(qˆn ) = q .
В противном случае оценка называется смещенной.
2. Эффективность
Несмещенность — желательное свойство оценок, но это не единственное такое свойство.
Еще одна важная их сторона— это надежность. Мы хотели бы, чтобы наша оценка с макси-
мально возможной вероятностью давала бы близкое значение к теоретической характеристи-
ке, что означает желание получить функцию плотности вероятности, как можно более «сжа-
тую» вокруг истинного значения. Другими словами, оценка должна иметь малую дисперсию. Предположим, что мы имеем две оценки теоретического среднего, рассчитанные на основе
одной и той же информации, что обе они являются несмещенными и что их функции плот-
ности вероятности показаны на рис. 1. Поскольку функция плотности вероятности для оцен-
ки В более «сжата», чем для оценки А, с ее помощью мы скорее получим более точное значе-
ние. Эта оценка более эффективна.
Важно заметить, что мы использовали здесь слово «скорее». Даже хотя оценка В более эф-
фективна, это не означает, что она всегда дает более точное значение. При определенном
стечении обстоятельств значение оценки А может быть ближе к истине. Однако вероятность
того, что оценка А окажется более точной, чем В, невелика.
Мы говорили о желании получить оценку как можно с меньшей дисперсией, и эффективная
оценка — это та, у которой дисперсия минимальна. Таким образом, можно дать следующее
определение:
Определение. Несмещенная оценка qˆn параметра q называется эффективной, если она
имеет наименьшую дисперсию среди всех возможных несмещенных оценок параметра q
при заданном объеме выборки n.
3. Состоятельность
Состоятельной называется такая оценка, которая дает точное значение для
большой выборки независимо от входящих в нее конкретных наблюдений.
В большинстве конкретных случаев несмещенная оценка является и состоятельной. Можно
построить контрпримеры, но они, как правило, будут носить искусственный характер.
43. Приведите пример (например, в форме картинки), иллюстрирующий утверждение о том, что иногда несмещенные оценки хуже смещенных. (фото в контакте)
44. Почему требование состоятельности оценки очень важно и разумно?
Согласно определению, оценка является состоятельной, если она сходится по вероятности к истинному значению параметра. Требование состоятельности важно, потому что лишь состоятельная оценка дает истинное значение при достаточно большом объеме выборки вне зависимости от значений входящих в нее конкретных наблюдений.
45. Что такое гомоскедастичности остатков? Дайте формальное определение понятию. Нарисуйте картинки, отражающие ситуацию гомоскедастичности и гетероскедастичности.
Гомоскедастичность остатков - остатков означает, что для каждого значения фактора xj остатки имеют одинаковую дисперсию. Если у нас есть гомоскедастичность, т. е. дисперсия остатков постоянна, то наша модель верно специфицирована.
Фомула: D(E\X)=const=б^2
1) график гомоскедастичности (не должно быть никакой зависимости между остатками и xj)
г рафик гетероскедастичности
46.О чем может свидетельствовать гетероскедастичность регрессионных остатков?
О
том, что модель херовая, вот о чём! И что
теперь надо по-новой всё переделывать
Гетероскедастичность возникает если:
пропущены какие-то переменные — мы построили модель, в которой что-то упустили;
неверная функциональная форму (не обзяательно у нас должна быть линейная функциональная форма)
мы используем данные, полученные по разным методикам
существуют наблюдения-выбросы (какое-то наблюдение сильно отличается, (например, везде показатель в пределах тысячи, а у этого миллиард) влияет на нашу модель)
Последствия гетероскедастичности для модели:
МНК-оценки не являются наиболее эффективными, но они по-прежнему состоятельные, т. е. не будет верным уравнение E-c крышкой по b-с крышкой=(s^2)*((X^T)*X)^(-1), где s^2=(сумма е^2)/(n-k)
Использование такой формулы стандартной ошибки (s^2) может привести либо к недо-, либо к переоцениванию стандартных ошибок.
Если мы недооценили стандартные ошибки, то мы считаем, чем он есть на самом деле b^с крышкой/standard error(b^с крышкой)=t(большой)=> будет попадать в критическую область, т. е. будем называть значимыми те регрессоры, которые не значимы.
Главная проблема гетероскедастичности — мы не можем проверять гипотезу, т. к. не знаем стандартные ошибки, если мы сохраняем верность МНК