Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
variant_3.doc
Скачиваний:
39
Добавлен:
08.01.2020
Размер:
576 Кб
Скачать

Вариант 3. (Парная регрессия)

Изучается зависимость времени, затрачиваемого на обслуживание одного покупателя от стоимости покупок.

Время обслуживания, мин

Стоимость покупок, долл

1.

3,0

36

2.

1,3

13

3.

7,4

81

4.

5,9

78

5.

8,4

103

6.

5,0

64

7.

8,1

67

8.

1,9

25

9.

6,2

55

1.Выбрать признак Х и признак У

2.Проверить исходные данные на однородность.

3.Построить поле корреляции и сформулировать гипотезу о форме связи.

4.Рассчитать параметры парного уравнения регрессии.

5.Оценить тесноту связи с помощью показателей корреляции и детерминации.

6.Оценить качество уравнения регрессии с помощью средней ошибки аппроксимации.

7.Оценить статистическую надежность (практическую значимость) регрессионного моделирования.

8.Выполнить точечный и интервальный прогноз значения y, если х увеличится на 10% от его среднего уровня.

Решение

1) Так как стоимость покупки зависит от времени потраченного на принятие решения о ее приобретении (чем дороже покупка, тем дольше мы думаем о ее необходимости, а следовательно и время обслуживания, затраченное продавцом для покупателя, увеличивается), то признаком результатом (У) будет являться стоимость покупок, а признаком – фактором (Х)- время обслуживания.

2) Построим поле корреляции. Для этого необходимо поместить наблюдения в систему координат. Совокупность полученных точек составляет корреляционное облако. Если оно вытянуто из левого нижнего угла в правый верхний – связь прямая, если из правого верхнего в левый нижний – обратная. Если точки беспорядочно разбросаны по полю, это говорит о том, что связи между двумя признаками нет.

Совокупность точек результативного и факторного признаков называется полем корреляции.

На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.

Рисунок 1. Поле корреляции.

Корреляционное облако имеет вытянутую форму. Можно использовать линейную функцию.

3) Проверим исходные данные на однородность. Для этого рассчитаем коэффициент вариации для обеих переменных: Для расчета коэффициента вариации нам потребуется среднее значение и СКО по каждой переменной.

Для расчета параметров регрессии построим расчетную таблицу (табл. 1)

x

y

x2

y2

x • y

3

36

9

1296

108

1.3

13

1.69

169

16.9

7.4

81

54.76

6561

599.4

5.9

78

34.81

6084

460.2

8.4

103

70.56

10609

865.2

5

64

25

4096

320

8.1

67

65.61

4489

542.7

1.9

25

3.61

625

47.5

6.2

55

38.44

3025

341

∑ = 47.2

∑ = 522

∑ = 303.48

∑ = 36954

∑ = 3300.9

Выборочные средние.

Выборочные дисперсии:

=

Среднеквадратическое отклонение

Коэффициент вариации:

Вариация в пределах нормы. Данные однородны.

4) рассчитаем параметры парного уравнения регрессии

Коэффициент корреляции b можно найти по формуле:

Линейное уравнение регрессии имеет вид y = 10.069 x + 5.192

Коэффициентам уравнения линейной регрессии можно придать экономический смысл.

Коэффициент регрессии b = 10.069 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 10.069.

Коэффициент a = 5.192 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.

Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.

Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.

Связь между у и х определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь прямая.

Коэффициент регрессии показывает, что с ростом времени обслуживания на 1 мин, стоимость покупки возрастает в среднем на 10,0693 долл.

Рисунок 2. Линия регрессия и уравнение регрессии на поле корреляции

5) Оценим тесноту связи с помощью показателей корреляции и детерминации

Ковариация:

Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.

В нашем примере связь между признаком Y и фактором X весьма высокая и прямая.

Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:

Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.

Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.

R2= 0.9222 = 0.8494

т.е. в 84.94% случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 15.06% изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).

6) Оценим качество уравнения с помощью ошибки аппроксимации

Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:

Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.

Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)

x

y

y(x)

|y - yx|:y

3

36

35.4

0.0167

1.3

13

18.282

0.406

7.4

81

79.705

0.016

5.9

78

64.601

0.172

8.4

103

89.774

0.128

5

64

55.539

0.132

8.1

67

86.753

0.295

1.9

25

24.324

0.0271

6.2

55

67.622

0.229

47.2

522

522

1.423

В среднем, расчетные значения отклоняются от фактических на 15.81%. Поскольку ошибка больше 7%, то данное уравнение не желательно использовать в качестве регрессии.

7) Проверка гипотез относительно коэффициентов линейного уравнения регрессии.(t-статистика. Критерий Стьюдента).

Оценим статистическую надежность (значимость) результатов регрессионного моделирования.

Ранее мы получили лишь оценки параметров уравнения регрессии, которые характерны для конкретного статистического наблюдения (конкретного набора значений x и y).

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля.

Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для генеральной совокупности используют статистические методы проверки гипотез.

В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от нуля параметра или статистической характеристики в генеральной совокупности. Наряду с основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о неравенстве нулю параметра или статистической характеристики в генеральной совокупности.

Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.

H0: b = 0, то есть между переменными x и y отсутствует линейная взаимосвязь в генеральной совокупности;

H1: b ≠ 0, то есть между переменными x и y есть линейная взаимосвязь в генеральной совокупности.

В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента.

Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике).

Табличное значение определяется в зависимости от уровня значимости (α) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений.

Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-α) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля.

Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости α.

tкрит (n-m-1;α/2) = (7;0.025) = 2.365

Поскольку 6.28 > 2.365, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Поскольку 0.56 < 2.365, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом a можно пренебречь.

8) Выполним точечный и интервальный прогноз y, если х увеличится на 10% от его среднего уровня.

Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения. Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.

Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.

Точечный прогноз получаем путем подстановки в уравнение прогнозного значения признака-фактора: Xp =5,224*1,1= 5,768 ≈ 6 мин.

y(6) = 10.069*6 + 5.192 = 65.608 долл.

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и Xp = 6

tкрит (n-m-1;α/2) = (7;0.025) = 2.365

Вычислим ошибку прогноза для уравнения y = bx + a

=

или

=

65.608 ± 9.875

(55.73;75.48)

С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.

Решение задачи в MS Excel

1. C помощью инструмента анализа данных Регрессия можно получить результаты регрессионной статистики, дисперсионного анализа, доверительных интервалов, остатки и графики подбора линии регрессии.

2. Построим поле корреляции. Скопировать данные своего варианта на лист Excel.

Корреляционное облако имеет вытянутую форму. Можно использовать линейную функцию.

Для расчета показателей корреляции и регрессии выбираем Данные Анализ данных Регрессия.

Заполняем диалоговое окно ввода данных и параметров вывода

Здесь:

Входной интервал Y - диапазон, содержащий данные результативного признака;

Входной интервал X - диапазон, содержащий данные признака- фактора;

Метки - «флажок», который указывает, содержит ли первая строка названия столбцов;

Константа - ноль - «флажок», указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

Новый рабочий лист - можно указать произвольное имя нового листа (или не указывать, тогда результаты выводятся на вновь созданный лист).

Получаем следующие результаты для рассмотренного выше примера.

В таблице «Регрессионная статистика» представлены следующие показатели:

Множественный R- коэффициент корреляции между результатом и факторами.

R-квадрат – коэффициент детерминации

Нормированный R-квадрат – коэффициент детерминации, скорректированный на число степеней свободы.

Стандартная ошибка (регрессии)– корень из остаточной дисперсии на 1 степень свободы.

Наблюдения – число единиц совокупности, участвующих в расчете.

Коэффициент корреляции: 0,922 (связь очень тесная)

Коэффициент детерминации: 0,849 (84,9% вариации стоимости покупки объясняется вариацией времени обслуживания).

В таблице «Дисперсионный анализ» представлены результаты проверки значимости коэффициента детерминации – практической значимости полученного уравнения в целом.

df – число степеней свободы: для строки «Регрессия» число степеней свободы определяется количеством факторных признаков в уравнении =m.

Для строки «Остаток» число степеней свободы = n-m-1.

Столбец SS – сумма квадратов отклонений

Столбец MS - дисперсии на 1 степень свободы, рассчитываемые как MS= SS/df

Столбец F = MS(Регрессия)/MS(Остатки).

Фактическое значение F -критерия Фишера:F = 39,47 (Можно сравнить с табличным значением, воспользовавшись функцией =FРАСП (Fp; df (регрессия); df(остаток), а можно воспользоваться столбцом «Значимость F». Если расчетное α (уровень значимости) меньше, чем 0,05, уравнение регрессии статистически значимым и может быть использовано для прогноза.

В последней таблице представлены коэффициенты регрессии и их статистические оценки.

Уравнение регрессии: у(x) = 10,069 + 5,19x

Далее проверим значимость коэффициентов регрессии: a и b. Сравнивая попарно значения столбцов Коэффициенты и Стандартная ошибка в таблице, видим, что абсолютные значения коэффициентов больше, чем их стандартные ошибки. К тому же эти коэффициенты являются значимыми, о чем можно судить по значениям показателя Р-значение, которые меньше заданного уровня значимости α=0,05.

Стандартные ошибки для параметров регрессии: mа = 9,3, mb = 1.6

Фактические значения t -критерия Стьюдента: ta = 0.56, tb = 6,28.

Фактические значения t -критерия Стьюдента сравниваются с табличным значением.

6) Для расчета средней ошибки аппроксимации необходимо воспользоваться таблицей «Вывод остатков», где приведены «Предсказанное у» и остатки. Рассчитав дополнительный столбец со значениями, можно определить среднюю ошибку аппроксимации.

Результат:

Соседние файлы в предмете Эконометрика
  • #
    08.01.202013.3 Кб50Mnozhestvennaya_regressia_3.xlsx
  • #
    08.01.202016.81 Кб16parapa.xlsx
  • #
    08.01.202013.89 Кб22Parnaya_lineynaya_regressia_3.xlsx
  • #
  • #
    08.01.2020576 Кб39variant_3.doc
  • #
    08.01.20209.9 Кб26задача 1 эконометрика.xlsx
  • #
    08.01.202024.49 Кб22задача.xlsx
  • #
    08.01.202024.27 Кб16задачка.xlsx
  • #
    08.01.202021.97 Кб75кт эконометрика.xlsx
  • #
    08.01.202023.31 Кб51парная нелинейная регрессия.xlsx