Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Практическая часть нет вопросов 65-66-92-93-96.doc
Скачиваний:
3
Добавлен:
26.09.2019
Размер:
2.38 Mб
Скачать

77. Опишите известные Вам методы борьбы с гетероскедастичностью остатков в задаче множественной регрессии.

Методы борьбы:

  1. Использование GLS (Generalized least squares), на практике можно использовать только FGLS (feasible Generalized least squares), полученные оценки будут эффективны только в асимптотике, в любой конечной выборке свойствава оценок по методу FGLS практически неизвестны – т.е. на практике FGLS неправлиьно оценивает коэффициенты.

  2. Использование МНК для оценки коэффициентов b, использование оценок Уайта (White's covariance estimated) для оценки дисперсии оценок коэффициентов (b^). Этот способ лучше, потому что значения b^ получаются такие же как в МНК, но оценки дисперсии b^ эффективны только в асимптотике, обычно оценки Уайта завышают дисперсию коэффициентов.

78. Назовите задачи, которые решает метод главных компонент.

1. Наглядное представление исходных данных.

2. Упрощение счета и интерпретации полученных статистических выводов.

3. Сжатие объемов хранимой статистической информации.

4. Аппроксимация данных линейными преобразованиями меньшей размерности.

79. Приведите примеры использования мгк в политологических задачах.

Например, мы можем исследовать демографическую ситуацию в регионах РФ. Для этого мы будем исследовать такие показатели, как уровень смертности, уровень рождаемости, показатель качества медицинского обслуживания, зарегистрированное число браков, уровень дохода на душу населения и т.п. В результате мы можем получить слишком большое число признаков, которые может потребоваться свести к пространству меньшей размерности.

80. Размерность каких признаковых пространств может быть снижена?

Может быть снижена размерность пространств, количество измерений в которых больше или равно 2.

81. Когда целесообразно применять метод главных компонент?

Применение МГК имеет смысл при соблюдении двух условий: 1). Признаковое пространство слишком велико и снижение его размерности существенно облегчит работу исследователя. 2). МГК окажет сравнительно небольшое влияние на исследовательскую информацию, что не скажется на полученных результатах.

83. Дайте определение первой главной компоненте.

Первой главной компонентой исследуемой системы показателей Х = (х1, х2, …, хр) называется такая нормировано-центрированная линейная комбинация этих показателей, которая среди всех прочих нормировано-центрированных линейных комбинаций переменных х1, х2, …, хр обладает наибольшей дисперсией.

84. Дайте определение главной компоненте.

k-й главной компонентой исследуемой системы показателей Х = (х1, х2, …, хр) называется такая нормировано-центрированная линейная комбинация этих показателей, которая не коррелированна с k-1 предыдущими главными компонентами и среди всех прочих нормировано-центрированных и некоррелированных с предыдущими k-1 главными компонентами линейных комбинаций х1, х2, …, хр обладает наибольшей дисперсией.

85) Уравнение первой главной компоненты:

Мы имеем собственные значения главных компонент. Мы подставляем их в систему уравнений и находи два решения системы для каждого собств.значения. Записываем полученные числа по столбикам для каждого собств.значения и получаем вектор собственных значений.

Уравнение первой главной компоненты записывается как сумма иксов (признаков), умноженных на числа в первой строчке матрицы собственных векторов.

То есть, в матрице собственных векторов записаны веса признаков в каждой г.к. (не путать с факторными нагрузками признаков на гланвую компоненту)

В общем виде уравнение первой г.к. записывается как:

Z1 = C11[x1j-x1jсред] + C22[x2j-x2jсред], где С – веса исходных признаков

86)

Дана таблица из статы:

Principal components/correlation Number of obs = 23

Number of comp. = 4

Trace = 4

Rotation: (unrotated = principal) Rho = 1.0000

--------------------------------------------------------------------------

Component | Eigenvalue Difference Proportion Cumulative

-------------+------------------------------------------------------------

Comp1 | 2.20543 1.23012 0.5514 0.5514

Comp2 | .975312 .448717 0.2438 0.7952

Comp3 | .526595 .233929 0.1316 0.9268

Comp4 | .292666 . 0.0732 1.0000

--------------------------------------------------------------------------

МЫ СМОТРИМ НА ПЕРВУЮ ТАБЛИЧКУ. ПЕРВЫЙ СТОЛБИК: СОБСТВЕННЫЕ ЗНАЧЕНИЯ КОМПОНЕНТ. ПО МЕТОДУ КАЙЗЕРА МЫ БЕРЕМ СТОЛЬКО КОМПОНЕНТ, У СКОЛЬКИХ ЭТО СОБСТВЕННОЕ ЗНАЧЕНИЕ БОЛЬШЕ ЕДИНИЦЫ.

В ДАННОЙ ТАБЛИЧКЕ ЭТО ТОЛЬКО ПЕРВАЯ Г.К.

ПОСЛЕДНИЙ СТОБЛИК В ЭТОЙ ЖЕ ТАБЛИЧКЕ - ПРОЦЕНТ ОБЪЯСНЕННОЙ ДИСПЕРСИИ. ТО ЕСТЬ СКОЛЬКО ПРОЦЕНТОВ СУММАРНОЙ ДИСПЕРСИИ ИСХОДНЫХ ПРИЗНАКОВ (ИЗ КОТОРЫХ СТРОИЛИСЬ КОМПОНЕНТЫ) ОБЪЯСНЯЕТ ЭТА ПЕРВАЯ КОМПОНЕНТА. ЕСЛИ ПОСМОТРЕТЬ НА ЧИСЛО НАПРОТИВ 4Й КОМПОНЕНТЫ, ТО МЫ ВИДИМ ЕДИНИЦУ – СТОЛЬКО ОБЪЯСНЯЮТ ВСЕ КОМПОНЕНТЫ.

87) Чтобы получить меру информативности руками, берем собственное значение нужной нам г.к. (из первого столбца таблицы выше, делим его на суммарную дисперсию. Суммарная дисперсия равна следу матрицы, его значение записано в графе trace в верхнем правом углу. А можно поделить собств.значение 1 г.к. на сумму собств.значений всех г.к. – будет то же самое, т.к. сумма дисперсий исх.признаков равна сумме дисперсий г.к.

88)

Principal components (eigenvectors)

--------------------------------------------------------------------

Variable | Comp1 Comp2 Comp3 Comp4 | Unexplained

-------------+----------------------------------------+-------------

demper2000 | 0.5348 -0.0616 0.8208 -0.1910 | 0

prodemo2005 | 0.5465 -0.4260 -0.2289 0.6837 | 0

owndemo | 0.5799 0.0209 -0.5218 -0.6252 | 0

instcon2000 | 0.2811 0.9024 -0.0400 0.3242 | 0

Эту таблицу стата выдает в начале. Она идет сразу после таблички с собственными значениями. В ней записаны значения собственных векторов.

Уравнение 1 г.к. записывается как:

1 г.к. = 0,53* (demper2000 – среднее значение demper2000)/дисперсия demper2000 + 0,5465*…… - то есть мы берем веса, которые записаны напротив каждой переменной в столбце первой г.к. и умножаем на них стандартизированное значение признака.

89) соответственно, вторая г.к. записывается по второму столбцу.

НЕ ПУТАТЬ собственные вектора и веса с факторными нагрузками признаков на г.к. Факторные нагрузки – это корреляция признаков с г.к.