
- •2. Дайте определение теоретическому коэффициенту корреляции. Что он показывает? в каком диапазоне меняется?
- •3. Почему на практике исследователь не может вычислить сам теоретический коэффициент корреляции?
- •24. В каком случае применение евклидова расстояния не имеет под собой теоретического основания (хотя может давать разумные результаты)?
- •25. Назовите известные Вам алгоритмы агломерации.
- •26. Даны 4 трехмерных наблюдения. Реализуйте их кластеризацию на основе метода ближнего соседа (дальнего соседа, средней связи) и расстояния Евклида (Манхеттен, Чебышев). Постройте дендрограмму
- •27. Дана дендрограмма. Укажите получившиеся кластеры.
- •29. Объясните, почему при кластеризации необходимо приводить все показатели к единой шкале измерения?
- •34. Кто и почему впервые назвал регрессию регрессией?
- •35. В чем суть метода наименьших квадратов?
- •36. Формализуйте идею метода наименьших квадратов в ситуации парной линейной регрессии (в случае центрированных иксов).
- •37. Выведите мнк-оценки коэффициентов парной линейной регрессии (в случае центрированных иксов).
- •38. Как получить мнк-оценки коэффициентов парной линейной регрессии в обычном случае центрированных иксов?
- •39. Покажите связь между коэффициентом корреляции к.Пирсона и коэффициентом β1 парной линейной регрессии. (См рисунок в контакте)
- •Вопрос 40. Сформулируйте 4 условия Гаусса – Маркова.
- •Вопрос 41. Сформулируйте теорему Гаусса – Маркова
- •1. Несмещенность
- •2. Эффективность
- •47.Что такое автокорреляция остатков? Когда она может возникать в регрессионной модели?
- •48. К каким последствиям для свойств мнк-оценок ведет нарушение каждого из условий Гаусса – Маркова?
- •51.Укажите распределение (и его параметры) мнк-оценок коэффициентов регрессии при выполнении условий Гаусса – Маркова и условия нормальности. (смотри оисунок в контакте)
- •52. Дано значение мнк-оценок коэффициентов парной регрессии. Известно число наблю-дений. Проверьте, значимы ли коэффициенты регрессии.
- •53. Дана таблица результатов регрессионного анализа из некоторой статьи англоязычного политологического журнала. Укажите статистически значимые коэффициенты регрессии.
- •54. Даны несколько пар наблюдений над случайными величинами X и y. Постройте уравне-ние регрессии y на X и проверьте значимость коэффициентов.
- •55. Что такое коэффициент детерминации? Что он показывает?
- •56. Даны значения rss и ess. Найти r(квадрат)
- •57. Дано значение коэффициента корреляции между X и y. Найти r(квадрат)
- •60. Даны значения rss и ess, число наблюдений и число предикторов в регрессии. Проверить гипотезу о качестве модели на основе статистики Фишера.
- •61. Дано значение r2, число наблюдений и число предикторов в регрессии. Проверить гипотезу о качестве модели на основе статистики Фишера.
- •63. Дана таблица дисперсионного анализа. Заполнить пропуски в таблице.
- •64. Дана таблица выдачи регрессионного анализа. Запишите полученное уравнение регрес-сии
- •67. Какова природа проблемы мультиколлинеарности в задачах множественной регрессии?
- •68.К чему ведет мультиколлинеарность?
- •73. Каковы методы выявления автокорреляции в задаче регрессионного анализа?
- •74. В чем состоит проблема эндогенности в задаче регрессии? Каковы последствия эндогенности для мнк-регрессии?
- •75.В чем состоит проблема гетероскедастичности? Из-за чего она возникает и каковы ее по-следствия для мнк-оценок коэффициентов регрессии?
- •76.Опишите не менее 2 методов выявления гетероскедастичности остатков в задаче множе-ственной регрессии.
- •77. Опишите известные Вам методы борьбы с гетероскедастичностью остатков в задаче множественной регрессии.
- •78. Назовите задачи, которые решает метод главных компонент.
- •79. Приведите примеры использования мгк в политологических задачах.
- •90. Назовите оптимальные свойства главных компонент.
- •91. Объясните смысл характеристического уравнения для ковариационной матрицы:
- •94. Чему равен коэффициент корреляции между главными компонентами?
77. Опишите известные Вам методы борьбы с гетероскедастичностью остатков в задаче множественной регрессии.
Методы борьбы:
Использование GLS (Generalized least squares), на практике можно использовать только FGLS (feasible Generalized least squares), полученные оценки будут эффективны только в асимптотике, в любой конечной выборке свойствава оценок по методу FGLS практически неизвестны – т.е. на практике FGLS неправлиьно оценивает коэффициенты.
Использование МНК для оценки коэффициентов b, использование оценок Уайта (White's covariance estimated) для оценки дисперсии оценок коэффициентов (b^). Этот способ лучше, потому что значения b^ получаются такие же как в МНК, но оценки дисперсии b^ эффективны только в асимптотике, обычно оценки Уайта завышают дисперсию коэффициентов.
78. Назовите задачи, которые решает метод главных компонент.
1. Наглядное представление исходных данных.
2. Упрощение счета и интерпретации полученных статистических выводов.
3. Сжатие объемов хранимой статистической информации.
4. Аппроксимация данных линейными преобразованиями меньшей размерности.
79. Приведите примеры использования мгк в политологических задачах.
Например, мы можем исследовать демографическую ситуацию в регионах РФ. Для этого мы будем исследовать такие показатели, как уровень смертности, уровень рождаемости, показатель качества медицинского обслуживания, зарегистрированное число браков, уровень дохода на душу населения и т.п. В результате мы можем получить слишком большое число признаков, которые может потребоваться свести к пространству меньшей размерности.
80. Размерность каких признаковых пространств может быть снижена?
Может быть снижена размерность пространств, количество измерений в которых больше или равно 2.
81. Когда целесообразно применять метод главных компонент?
Применение МГК имеет смысл при соблюдении двух условий: 1). Признаковое пространство слишком велико и снижение его размерности существенно облегчит работу исследователя. 2). МГК окажет сравнительно небольшое влияние на исследовательскую информацию, что не скажется на полученных результатах.
83. Дайте определение первой главной компоненте.
Первой
главной компонентой
исследуемой системы показателей Х =
(х1,
х2,
…, хр)
называется такая нормировано-центрированная
линейная комбинация этих показателей,
которая среди всех прочих
нормировано-центрированных линейных
комбинаций переменных х1,
х2,
…, хр
обладает наибольшей дисперсией.
84. Дайте определение главной компоненте.
k-й главной компонентой исследуемой системы показателей Х = (х1, х2, …, хр) называется такая нормировано-центрированная линейная комбинация этих показателей, которая не коррелированна с k-1 предыдущими главными компонентами и среди всех прочих нормировано-центрированных и некоррелированных с предыдущими k-1 главными компонентами линейных комбинаций х1, х2, …, хр обладает наибольшей дисперсией.
85) Уравнение первой главной компоненты:
Мы имеем собственные значения главных компонент. Мы подставляем их в систему уравнений и находи два решения системы для каждого собств.значения. Записываем полученные числа по столбикам для каждого собств.значения и получаем вектор собственных значений.
Уравнение первой главной компоненты записывается как сумма иксов (признаков), умноженных на числа в первой строчке матрицы собственных векторов.
То есть, в матрице собственных векторов записаны веса признаков в каждой г.к. (не путать с факторными нагрузками признаков на гланвую компоненту)
В общем виде уравнение первой г.к. записывается как:
Z1 = C11[x1j-x1jсред] + C22[x2j-x2jсред], где С – веса исходных признаков
86)
Дана таблица из статы:
Principal components/correlation Number of obs = 23
Number of comp. = 4
Trace = 4
Rotation: (unrotated = principal) Rho = 1.0000
--------------------------------------------------------------------------
Component | Eigenvalue Difference Proportion Cumulative
-------------+------------------------------------------------------------
Comp1 | 2.20543 1.23012 0.5514 0.5514
Comp2 | .975312 .448717 0.2438 0.7952
Comp3 | .526595 .233929 0.1316 0.9268
Comp4 | .292666 . 0.0732 1.0000
--------------------------------------------------------------------------
МЫ СМОТРИМ НА ПЕРВУЮ ТАБЛИЧКУ. ПЕРВЫЙ СТОЛБИК: СОБСТВЕННЫЕ ЗНАЧЕНИЯ КОМПОНЕНТ. ПО МЕТОДУ КАЙЗЕРА МЫ БЕРЕМ СТОЛЬКО КОМПОНЕНТ, У СКОЛЬКИХ ЭТО СОБСТВЕННОЕ ЗНАЧЕНИЕ БОЛЬШЕ ЕДИНИЦЫ.
В ДАННОЙ ТАБЛИЧКЕ ЭТО ТОЛЬКО ПЕРВАЯ Г.К.
ПОСЛЕДНИЙ СТОБЛИК В ЭТОЙ ЖЕ ТАБЛИЧКЕ - ПРОЦЕНТ ОБЪЯСНЕННОЙ ДИСПЕРСИИ. ТО ЕСТЬ СКОЛЬКО ПРОЦЕНТОВ СУММАРНОЙ ДИСПЕРСИИ ИСХОДНЫХ ПРИЗНАКОВ (ИЗ КОТОРЫХ СТРОИЛИСЬ КОМПОНЕНТЫ) ОБЪЯСНЯЕТ ЭТА ПЕРВАЯ КОМПОНЕНТА. ЕСЛИ ПОСМОТРЕТЬ НА ЧИСЛО НАПРОТИВ 4Й КОМПОНЕНТЫ, ТО МЫ ВИДИМ ЕДИНИЦУ – СТОЛЬКО ОБЪЯСНЯЮТ ВСЕ КОМПОНЕНТЫ.
87) Чтобы получить меру информативности руками, берем собственное значение нужной нам г.к. (из первого столбца таблицы выше, делим его на суммарную дисперсию. Суммарная дисперсия равна следу матрицы, его значение записано в графе trace в верхнем правом углу. А можно поделить собств.значение 1 г.к. на сумму собств.значений всех г.к. – будет то же самое, т.к. сумма дисперсий исх.признаков равна сумме дисперсий г.к.
88)
Principal components (eigenvectors)
--------------------------------------------------------------------
Variable | Comp1 Comp2 Comp3 Comp4 | Unexplained
-------------+----------------------------------------+-------------
demper2000 | 0.5348 -0.0616 0.8208 -0.1910 | 0
prodemo2005 | 0.5465 -0.4260 -0.2289 0.6837 | 0
owndemo | 0.5799 0.0209 -0.5218 -0.6252 | 0
instcon2000 | 0.2811 0.9024 -0.0400 0.3242 | 0
Эту таблицу стата выдает в начале. Она идет сразу после таблички с собственными значениями. В ней записаны значения собственных векторов.
Уравнение 1 г.к. записывается как:
1 г.к. = 0,53* (demper2000 – среднее значение demper2000)/дисперсия demper2000 + 0,5465*…… - то есть мы берем веса, которые записаны напротив каждой переменной в столбце первой г.к. и умножаем на них стандартизированное значение признака.
89) соответственно, вторая г.к. записывается по второму столбцу.
НЕ ПУТАТЬ собственные вектора и веса с факторными нагрузками признаков на г.к. Факторные нагрузки – это корреляция признаков с г.к.