
- •2. Дайте определение теоретическому коэффициенту корреляции. Что он показывает? в каком диапазоне меняется?
- •3. Почему на практике исследователь не может вычислить сам теоретический коэффициент корреляции?
- •24. В каком случае применение евклидова расстояния не имеет под собой теоретического основания (хотя может давать разумные результаты)?
- •25. Назовите известные Вам алгоритмы агломерации.
- •26. Даны 4 трехмерных наблюдения. Реализуйте их кластеризацию на основе метода ближнего соседа (дальнего соседа, средней связи) и расстояния Евклида (Манхеттен, Чебышев). Постройте дендрограмму
- •27. Дана дендрограмма. Укажите получившиеся кластеры.
- •29. Объясните, почему при кластеризации необходимо приводить все показатели к единой шкале измерения?
- •34. Кто и почему впервые назвал регрессию регрессией?
- •35. В чем суть метода наименьших квадратов?
- •36. Формализуйте идею метода наименьших квадратов в ситуации парной линейной регрессии (в случае центрированных иксов).
- •37. Выведите мнк-оценки коэффициентов парной линейной регрессии (в случае центрированных иксов).
- •38. Как получить мнк-оценки коэффициентов парной линейной регрессии в обычном случае центрированных иксов?
- •39. Покажите связь между коэффициентом корреляции к.Пирсона и коэффициентом β1 парной линейной регрессии. (См рисунок в контакте)
- •Вопрос 40. Сформулируйте 4 условия Гаусса – Маркова.
- •Вопрос 41. Сформулируйте теорему Гаусса – Маркова
- •1. Несмещенность
- •2. Эффективность
- •47.Что такое автокорреляция остатков? Когда она может возникать в регрессионной модели?
- •48. К каким последствиям для свойств мнк-оценок ведет нарушение каждого из условий Гаусса – Маркова?
- •51.Укажите распределение (и его параметры) мнк-оценок коэффициентов регрессии при выполнении условий Гаусса – Маркова и условия нормальности. (смотри оисунок в контакте)
- •52. Дано значение мнк-оценок коэффициентов парной регрессии. Известно число наблю-дений. Проверьте, значимы ли коэффициенты регрессии.
- •53. Дана таблица результатов регрессионного анализа из некоторой статьи англоязычного политологического журнала. Укажите статистически значимые коэффициенты регрессии.
- •54. Даны несколько пар наблюдений над случайными величинами X и y. Постройте уравне-ние регрессии y на X и проверьте значимость коэффициентов.
- •55. Что такое коэффициент детерминации? Что он показывает?
- •56. Даны значения rss и ess. Найти r(квадрат)
- •57. Дано значение коэффициента корреляции между X и y. Найти r(квадрат)
- •60. Даны значения rss и ess, число наблюдений и число предикторов в регрессии. Проверить гипотезу о качестве модели на основе статистики Фишера.
- •61. Дано значение r2, число наблюдений и число предикторов в регрессии. Проверить гипотезу о качестве модели на основе статистики Фишера.
- •63. Дана таблица дисперсионного анализа. Заполнить пропуски в таблице.
- •64. Дана таблица выдачи регрессионного анализа. Запишите полученное уравнение регрес-сии
- •67. Какова природа проблемы мультиколлинеарности в задачах множественной регрессии?
- •68.К чему ведет мультиколлинеарность?
- •73. Каковы методы выявления автокорреляции в задаче регрессионного анализа?
- •74. В чем состоит проблема эндогенности в задаче регрессии? Каковы последствия эндогенности для мнк-регрессии?
- •75.В чем состоит проблема гетероскедастичности? Из-за чего она возникает и каковы ее по-следствия для мнк-оценок коэффициентов регрессии?
- •76.Опишите не менее 2 методов выявления гетероскедастичности остатков в задаче множе-ственной регрессии.
- •77. Опишите известные Вам методы борьбы с гетероскедастичностью остатков в задаче множественной регрессии.
- •78. Назовите задачи, которые решает метод главных компонент.
- •79. Приведите примеры использования мгк в политологических задачах.
- •90. Назовите оптимальные свойства главных компонент.
- •91. Объясните смысл характеристического уравнения для ковариационной матрицы:
- •94. Чему равен коэффициент корреляции между главными компонентами?
90. Назовите оптимальные свойства главных компонент.
- Свойство наименьшей ошибки «автопрогноза» или наилучшей самовоспроизводимости.
- Свойства наименьшего искажения геометрической структуры множества исходных р-мерных наблюдений при их проектировании в пространство р’ первых главных компонент (их 3, запомнить нереально, даже писать не буду).
91. Объясните смысл характеристического уравнения для ковариационной матрицы:
Решение данного характеристического уравнения позволит нам найти искомые лямбды. Теорема Кантели гласит, что чтобы решений системы однородных уравнений было бесконечно много, необходимо и достаточно, чтобы определитель матрицы был равен нулю. Лямбды – собственные (характеристические) значения матрицы.
92,93
94. Чему равен коэффициент корреляции между главными компонентами?
Равен нулю.
95.Объясните, как МГК может решить проблему мультиколлинеарности в задаче регресси-онного анализа. Каковы ограничения в применении МГК в задаче регрессионного анализа?
Основной проблемой многомерной линейной регресии является вырожденность, или, в более общем случае, мультиколлинеарность матрицы FTF, которую приходится обращать. Подобные проблемы возникают, когда среди признаков fj(x) есть почти линейно зависимые. Мультиколлинеарность матрицы определяется её числом обусловленности:
,
где λ — собственные значения матрицы
FTF.
Чем больше число обусловленности, тем ближе матрица FTF к вырожденной и тем неустойчивее обратная к ней матрица. Плохая обусловленность матрицы: λmin << λmax.
Применение МГК (метода главных компонент) к факторам модели позволяет преобразовать исходные факторы и получить совокупность ортогональных (некоррелированных) факторов. При этом наличие мультиколлинеарности позволит ограничится небольшим количеством главных компонент. Тем не менее, может возникнуть проблема содержательной интерпретации главных компонент. Метод главных компонент применим всегда. Распространённое утверждение о том, что он применим только к нормально HYPERLINK "http://ru.wikipedia.org/wiki/%D0%9D%D0%BE%D1%80%D0%BC%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B5_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5"распределённымданным (или для распределений, близких к нормальным) неверно: в исходной формулировке К. Пирсона ставится задача об аппроксимацииконечного множества данных и отсутствует даже гипотеза о их статистическом порождении, не говоря уж о распределении.
Однако
метод не всегда эффективно снижает
размерность при заданных ограничениях
на точность
.
Прямые и плоскости не всегда обеспечивают
хорошую аппроксимацию. Например, данные
могут с хорошей точностью следовать
какой-нибудь кривой, а эта кривая может
быть сложно расположена в пространстве
данных. В этом случае метод главных
компонент для приемлемой точности
потребует нескольких компонент (вместо
одной), или вообще не даст снижения
размерности при приемлемой точности.
Для работы с такими «кривыми» главными
компонентами изобретен метод главных
многообразий[9] и
различные версии нелинейного метода
главных компонент[10]HYPERLINK
"http://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82"[11].
Больше неприятностей могут доставить
данные сложной топологии.
96