Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пример+лабораторной+работы+по+эконометрике.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
2.82 Mб
Скачать

Задача 1. Парная регрессия и корреляция

Задание По данным об экономических результатах деятельности российских банков(www.finansmag.ru), по данным Банка России (www.cbr.ru/regions), Федеральной службы государственной статистики (www.gks.ru), а также данным из сборников «Национальные счета России» и «Регионы России» (см. www.gks.ru.) выполните следующие задания:

1. Определите параметры уравнения парной линейной регрессии и дайте интерпретацию коэффициента регрессии.

2. Рассчитайте линейный коэффициент корреляции и коэффициент детерминации, поясните смысл этих показателей.

3. С вероятностью 0,95 оцените статистическую значимость каждого параметра и уравнения регрессии в целом.

4. С вероятностью 0,95 постройте доверительный интервал ожидаемого значения результативного признака в предположении, что значение признака фактора увеличится на 5% относительно своего среднего уровня.

Исходные данные для задачи № 1 представлены в книге Excel «МУ.xlsx».

В качестве независимого фактора Х выберем параметр «Средства предприятий и организаций, млн руб», а в качестве зависимого признака Y – «Кредиты предприятиям и организациям, млн руб».

До проведения статистического анализа необходимо установить единую размерность фактора и признака, т.к. средства предприятий указаны в процентах от параметра «Работающие активы». С этой целью значение параметра «Работающие активы» (столбец D листа «Задача 1») умножим на процентную долю фактора «Средства предприятий и организаций» (столбец B листа «Задача 1»). Результат поместим в столбец Е (рис. 1).

Рис. 1. Предварительная подготовка данных.

В связи с тем, что Excel не очень удобная программа со множеством ограничений, скопируем столбец С в столбец F.

Представим результат в виде точечной диаграммы X-Y следующей последовательностью действий: лента «Вставка», пункт «Диаграммы», «Точечная» (рис. 2).

Затем выбрать пункт «Добавить» и выделить два последних столбца (рис. 3).

В результате получим следующую точечную диаграмму связи фактора с признака (рис. 4).

Рис. 2. Вставка рисунка

Рис. 3. Выбор данных.

Рис. 4. Предварительный график.

Из рис. 4 можно заметить, что две точки существенно удалены от основной группы. Эти данные необходимо удалить, как неоднородные.

Анализ таблицы показал, что они относятся к Сбербанку (строка 2) и Газпромбанку (строка 4). Скопируем таблицу, перенесем ее на другой лист (Задача 1_1) и удалим эти строки.

Снова построим диаграмму (рис. 5).

Визуальный анализ показывает, что имеются еще две точки, выбивающиеся из основной группы со значением признака Y свыше 100000. Это ВТБ (строка 2), Альфа-банк (строка 3).

Снова перенесем данные на лист «Задача 1_2», удалим эти строки и построим график (рис. 6).

Рис. 5. Второй вариант набора данных

Рис. 6. Третий вариант набора данных

Диаграмма не дает оснований удалить какие-либо данные, поэтому оставляем их без изменений.

Теперь приступаем к выполнению задания.

Строим линейное уравнение регрессии при помощи мастера анализа данных (лента «Данные», пункт «Анализ данных»).

Вначале определяем статистические характеристики переменных:

«Анализ данных» → «Описательная статистика». В панели описательной статистики выбираем входной интервал (столбцы E и F), группирование – «по столбцам», «Метки в первой строке», «Выходной интервал» - любая ячейка в столбце H, «Итоговая статистика» (рис. 7).

Рис. 7. Заполнение панели «Описательная статистика».

Результаты показаны в табл. 1.

Таблица 1.

Итоговая статистика

Средства предприятий и организаций, млн руб

 

Кредиты предприятиям и организациям, млн руб.

 

Среднее

2246,972

Среднее

6868,055

Стандартная ошибка

293,3864

Стандартная ошибка

738,0496

Медиана

951,09

Медиана

3204

Мода

#Н/Д

Мода

5893

Стандартное отклонение

4159,47

Стандартное отклонение

10463,66

Дисперсия выборки

17301192

Дисперсия выборки

1,09E+08

Эксцесс

28,5864

Эксцесс

11,14178

Асимметричность

4,767536

Асимметричность

3,20784

Интервал

34308,36

Интервал

62380

Минимум

5,04

Минимум

8

Максимум

34313,4

Максимум

62388

Сумма

451641,3

Сумма

1380479

Счет

201

Счет

201

Уравнение регрессии также получаем при помощи мастера «Анализ данных», пункт «Регрессия».

Пример заполнения панели «Регрессия» представлен на рис. 8. При этом не забываем, что признак Y – это столбец Е, а фактор Х – столбец F.

Результаты расчета можно видеть на рис. 9, они приведены в табл. 2…табл.4.

Рис. 8. Заполнение панели «Регрессия».

Таблица 2.

Регрессионная статистика

Множественный R

0,874631

R-квадрат

0,764979

Нормированный R-квадрат

0,763804

Стандартная ошибка

5827,586

Наблюдения

202

Таблица 3.

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

1

2,21E+10

2,21E+10

650,9865

8,3E-65

Остаток

200

6,79E+09

33960758

Итого

201

2,89E+10

 

 

 

Таблица 4.

 

Коэффици-енты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

a=1709,052

464,6013

3,678534

0,000302

792,906

2625,197

Средства предприятий и организаций, млн руб

b=2,364838

0,092686

25,51444

8,3E-65

2,182071

2,547606

В табл. 2 указано, что множественный коэффициент корреляции R=0,875. Таким образом изменение признака Y на 87,5% объясняется изменением признака X. Дисперсионный анализ (табл.3) показывает, что значимость критерия Фишера составляет 8,3∙10-65, что существенно ниже, чем 1-α=1-0,95=0,05. Это говорит о тесной линейной связи и адекватности уравнения регрессии.

По табл. 4 можно написать уравнение регрессии:

p-значение коэффициентов уравнения регрессии во много раз меньше 5%, следовательно все они значимы.

Построим теперь прогноз признака Y при значении фактора Х, равном 105% от его среднего значения.

По данным табл. 1 , следовательно 105% от него равны

По уравнению регрессии найдем значение Y:

Ошибку прогноза найдем по формуле

Здесь Sy – среднее квадратическое отклонение признака Y; Sx – среднее квадратическое отклонение фактора Х; n – объем выборки; х – значение признака, для которого необходимо вычислить прогноз; - среднее значение фактора Х.

Все эти значения представлены в табл. 1:

Большую величину ошибки можно объяснить очень большими эксцессами и асимметриями. Подавляющее большинство точек сгруппированы около начала координат.