
- •2. Дайте определение теоретическому коэффициенту корреляции. Что он показывает? в каком диапазоне меняется?
- •3. Почему на практике исследователь не может вычислить сам теоретический коэффициент корреляции?
- •24. В каком случае применение евклидова расстояния не имеет под собой теоретического основания (хотя может давать разумные результаты)?
- •25. Назовите известные Вам алгоритмы агломерации.
- •26. Даны 4 трехмерных наблюдения. Реализуйте их кластеризацию на основе метода ближнего соседа (дальнего соседа, средней связи) и расстояния Евклида (Манхеттен, Чебышев). Постройте дендрограмму
- •27. Дана дендрограмма. Укажите получившиеся кластеры.
- •29. Объясните, почему при кластеризации необходимо приводить все показатели к единой шкале измерения?
- •34. Кто и почему впервые назвал регрессию регрессией?
- •35. В чем суть метода наименьших квадратов?
- •36. Формализуйте идею метода наименьших квадратов в ситуации парной линейной регрессии (в случае центрированных иксов).
- •37. Выведите мнк-оценки коэффициентов парной линейной регрессии (в случае центрированных иксов).
- •38. Как получить мнк-оценки коэффициентов парной линейной регрессии в обычном случае центрированных иксов?
- •39. Покажите связь между коэффициентом корреляции к.Пирсона и коэффициентом β1 парной линейной регрессии. (См рисунок в контакте)
- •Вопрос 40. Сформулируйте 4 условия Гаусса – Маркова.
- •Вопрос 41. Сформулируйте теорему Гаусса – Маркова
- •1. Несмещенность
- •2. Эффективность
- •47.Что такое автокорреляция остатков? Когда она может возникать в регрессионной модели?
- •48. К каким последствиям для свойств мнк-оценок ведет нарушение каждого из условий Гаусса – Маркова?
- •51.Укажите распределение (и его параметры) мнк-оценок коэффициентов регрессии при выполнении условий Гаусса – Маркова и условия нормальности. (смотри оисунок в контакте)
- •52. Дано значение мнк-оценок коэффициентов парной регрессии. Известно число наблю-дений. Проверьте, значимы ли коэффициенты регрессии.
- •53. Дана таблица результатов регрессионного анализа из некоторой статьи англоязычного политологического журнала. Укажите статистически значимые коэффициенты регрессии.
- •54. Даны несколько пар наблюдений над случайными величинами X и y. Постройте уравне-ние регрессии y на X и проверьте значимость коэффициентов.
- •55. Что такое коэффициент детерминации? Что он показывает?
- •56. Даны значения rss и ess. Найти r(квадрат)
- •57. Дано значение коэффициента корреляции между X и y. Найти r(квадрат)
- •60. Даны значения rss и ess, число наблюдений и число предикторов в регрессии. Проверить гипотезу о качестве модели на основе статистики Фишера.
- •61. Дано значение r2, число наблюдений и число предикторов в регрессии. Проверить гипотезу о качестве модели на основе статистики Фишера.
- •63. Дана таблица дисперсионного анализа. Заполнить пропуски в таблице.
- •64. Дана таблица выдачи регрессионного анализа. Запишите полученное уравнение регрес-сии
- •67. Какова природа проблемы мультиколлинеарности в задачах множественной регрессии?
- •68.К чему ведет мультиколлинеарность?
- •73. Каковы методы выявления автокорреляции в задаче регрессионного анализа?
- •74. В чем состоит проблема эндогенности в задаче регрессии? Каковы последствия эндогенности для мнк-регрессии?
- •75.В чем состоит проблема гетероскедастичности? Из-за чего она возникает и каковы ее по-следствия для мнк-оценок коэффициентов регрессии?
- •76.Опишите не менее 2 методов выявления гетероскедастичности остатков в задаче множе-ственной регрессии.
- •77. Опишите известные Вам методы борьбы с гетероскедастичностью остатков в задаче множественной регрессии.
- •78. Назовите задачи, которые решает метод главных компонент.
- •79. Приведите примеры использования мгк в политологических задачах.
- •90. Назовите оптимальные свойства главных компонент.
- •91. Объясните смысл характеристического уравнения для ковариационной матрицы:
- •94. Чему равен коэффициент корреляции между главными компонентами?
27. Дана дендрограмма. Укажите получившиеся кластеры.
Сколько раз вертикальная палка пересечет ветви, столько и будет кластеров.
1 кластер: номера 5,18,6,15,26,4,20,1,2,9
2 кластер: номера 7,22,17,21,13,14,8,10
3 кластер: номера 11,19,23,16,25,12,3,24
28. Какие методы приведения к единой шкале Вы знаете? Даны 5 наблюдений. Приведите их к единой шкале измерения, используя линейное преобразование и z-шкалу.
Методы:
-
Стандартизация.
,
где
– среднее значение
,
а Sx
=
- Линейное преобразование в заданный диапазон значений.
,
причем
Если нужно «развернуть» шкалу, то:
,
причем
29. Объясните, почему при кластеризации необходимо приводить все показатели к единой шкале измерения?
Показатели, не приведенные к единой шкале, будут оказывать влияние на метрику. Если первый показатель лежит в диапазоне от 1 до 10, а второй – от 200 до 500, то на результаты анализа влияние оказывать будет по большему счету только второй показатель. (Показатели, измеренные в разных шкалах будут оказывать влияние на метрику, когда один (самый маленький или самый большой, значительно отличающейся от др.) будет доминировать. То есть если у нас показатели измерены в десятках, а один в тысячах, и нас будет перекос в сторону последнего).
30. Укажите недостатки линейного преобразования как процедуры приведения показателей к единой шкале. Нарисуйте картинку, иллюстрирующую ситуацию, когда применение линейного преобразования окажется неудачным выбором.
Когда у нас есть скопление данных, то при помощи линейного преобразования мы сокращаем вариацию, снижаем значимость наблюдения.
Если ситуация до линейного преобразования была такой:
То после преобразования наблюдения, расположенные справа и близко друг другу спрессуются.
Это приводит к смещению R- квадрата и уменьшению значимости каждого наблюдения.
31. Почему не очень осмысленно применять алгоритмы кластерного анализа для классификации объектов в одномерном или двумерном пространстве?
Потому что там проще построить диаграмму рассеивания и посмотреть самим, какие получатся кластеры.
32. Как связаны понятия «регрессия игрека на икс» и «условное математическое ожидание игрека на икс»?
Регрессия игрека на икс – это «условное математическое ожидание игрека на икс» + остатки. «Условное математическое ожидание игрека на икс» - уравнение линейной регрессии в общем виде.
33. Какие соображения оправдывают использование линейных регрессионных моделей в качестве первого приближения заранее неведомых нам функций условного математического ожидания игрека на икс?
Гладкая ф-ция – это функция, непрерывно дифференцируемая на всей области определения. (Диф-ть – возможность подобрать производную). => Любая гладкая функция может быть хорошо приближена к линейной ф-ции (на некотором ограниченных диапозонах значений), то есть апроксимирована. Тк обычно из теории нельзя вывести точное значение функции – необходимо апроксимировать: строить линейную функцию, приближенную к гладкой.
34. Кто и почему впервые назвал регрессию регрессией?
Термин "регрессия" был введён Фрэнсисом Гальтоном в конце 19-го века. Гальтон обнаружил, что дети родителей с высоким или низким ростом обычно не наследуют выдающийся рост и назвал этот феномен "регрессия к посредственности". Сначала этот термин использовался исключительно в биологическом смысле. После работ Карла Пирсона этот термин стали использовать и в статистике.
Общее назначение множественной регрессии (этот термин был впервые использован в работе Пирсона - Pearson, 1908) состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной.