Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
2
Добавлен:
27.11.2024
Размер:
832.84 Кб
Скачать

Министерство образования и науки Российской Федерации Саратовский государственный технический университет Балаковский институт техники, технологии и управления

ПОСТРОЕНИЕ И АНАЛИЗ УРАВНЕНИЯ РЕГРЕССИИ

Методические указания к выполнению практической работы по курсу «Математическая статистика и прогнозирование» для студентов всех форм обучения по направлению

«Информационные системы и технологии»

Одобрено

редакционно-издательским советом

Балаковского института техники,

технологии и управления

Балаково 2015

ВВЕДЕНИЕ

Цель работы: научиться строить уравнение регрессии и проводить его анализ с использованием MS Excel.

ОСНОВНЫЕ ПОНЯТИЯ

Зависимость между

переменными величинами, когда каждому

значению одной переменной

может соответствовать множество значений

другой переменной, имеющее определенное распределение, называется статистической. Статистические связи между переменными изучаются

методами корреляционного и регрессионного анализа. Основной задачей

регрессионного анализа является установление формы и изучение

зависимости между переменными, корреляционного анализа – выявление

связи между случайными переменными и оценка ее

тесноты. В

регрессионном анализе рассматривается зависимость

случайного

результативного признака y от неслучайных факторных признаков x1, x2, ..., xn. В случае единственного факторного признака x различают следующие виды регрессий: линейную, гиперболическую, показательную, степенную,

логарифмическую, параболическую и т.д. Предположим, что для оценки

параметров регрессии взята выборка, содержащая n пар значений (xi, yi), где i

= 1, 2, … , n. Оценкой предложенных выше уравнений регрессии являются выборочные уравнения регрессии:

 

линейное ̂ = 0 + 1 ;

 

 

 

 

 

 

 

 

 

гиперболическое

 

̂ =

0

+

1

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

показательное

̂ = ;

 

 

 

 

 

 

 

 

 

 

 

 

0

1

 

 

 

 

 

 

 

 

степенное

̂ =

 

1;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

логарифмическое

 

̂ = 0

+ 1 ;

 

 

 

 

параболическое

 

̂ =

0

+ +

2

2

,

 

 

 

 

 

 

 

 

1

 

 

 

 

где

параметры

a0,

 

 

a1,

a2

являются

точечными

оценками

соответствующих параметров исходного уравнения и могут быть найдены на основе метода наименьших квадратов.

2

Сущность метода наименьших квадратов заключается в нахождении

параметров модели a0, a1, при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выборочному уравнению регрессии

 

 

 

= ∑( − ̂ )2

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для нахождения параметров

 

a0, a1 линейного уравнения регрессии

̂ = 0 + 1 решается система уравнений

 

 

 

 

 

 

 

 

0

+

 

= ∑ ;

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

{

+

2 = ∑ .

 

(1)

 

 

 

 

0

 

 

1

 

 

 

 

 

 

 

 

 

 

 

Для параболического уравнения

регрессии

 

̂ =

+

+

2

 

 

 

 

 

 

 

 

 

 

 

 

 

0

1

2

 

система уравнений для нахождения параметров a0, a1, a2

имеет вид

 

 

 

 

+

+

2

= ∑ ;

 

 

 

 

 

 

0

 

1

 

 

 

 

2

 

 

 

 

 

 

 

{

+

2

 

+

2

3 = ∑ ;

(2)

 

 

0

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

2

+

3

 

+

2

4 = ∑ 2

.

 

 

 

 

0

 

 

1

 

 

 

 

 

 

 

 

 

 

 

Все предложенные выше виды нелинейных регрессий (кроме параболической) могут быть сведены к линейной путем какой-либо замены переменной. Для гиперболической регрессии вводится переменная x′= 1/x,

для логарифмической регрессии x′= lnx , уравнения показательной и степенной регрессии предварительно логарифмируют.

Регрессионную модель удобно представлять графически. Для этого на координатной плоскости откладываются точки Pi (xi, yi), (i = 1, 2, … , n) (рис. 1). Полученный график называется диаграммой рассеивания.

Y

40

 

 

 

 

 

 

 

35

 

 

 

 

 

 

 

30

 

 

 

 

 

 

 

25

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

15

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

-5

0

5

10

15

20

25

 

 

 

 

 

 

 

X

Рис. 1. Диаграмма рассеивания

 

3

Построив диаграмму рассеяния, можно подобрать вид уравнения

регрессии. На рис. 1 для одних и тех же экспериментальных точек

построены линейная и показательная регрессии. Видим, что

экспериментальные точки располагаются ближе к линии =

, чем к

0

1

прямой. Следовательно, можно сделать вывод, что показательная регрессия

более адекватно описывает фактические данные, чем линейная.

 

 

 

 

Однако по графику можно только приближенно сделать вывод о

качестве той или иной модели.

Для

 

более точной оценки адекватности

(значимости) уравнения регрессии на

 

уровне значимости

α

вычисляют

наблюдаемое значение случайной величины

 

 

 

 

 

 

 

 

 

 

 

2( −2)

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

,

 

 

 

 

 

(3)

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

набл

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ост

 

 

 

 

 

 

 

 

 

 

 

где

остаточная дисперсия

2

 

 

и дисперсия

уравнения

регрессии

 

 

 

 

 

 

ост

 

 

 

 

 

 

 

 

 

2

находятся по формулам

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

=

∑( − ̂ )2

 

,

2

=

∑( ̅− ̂ )2

 

(4)

 

 

 

 

 

 

 

 

 

 

 

ост

 

 

 

−1

 

 

 

−1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Далее находим критическое значение

критерия F(α,

1;

n – 2)

по

таблице критических

точек

распределения

Фишера

(приложение 4)

при

k1=1, k2 = n – 2 степенях свободы и уровне значимости α. Если Fнабл > F(α; 1; n

– 2), то уравнение регрессии признается значимым, в противном случае

уравнение регрессии признается незначимым, т.е. статистически подтверждается отсутствие линейной связи между факторным и результативным признаком.

Рассмотрим более подробно линейное уравнение регрессии. В качестве универсального показателя тесноты связи между величинами x и y

используется выборочный линейный коэффициент корреляции

 

 

 

(5)

= 1

Здесь sx и sy – средние квадратические отклонения соответствующих признаков (факторного и результативного).

4

Линейный коэффициент корреляции изменяется в пределах –1 ≤ r ≤ 1.

Если r > 0, то связь между переменными x и у прямая, если r < 0, то связь между переменными x и у обратная. При r = 0 связь между переменными отсутствует. При |r| = 1 связь между x и у функциональная, т.е.

наблюдаемые значения располагаются точно на прямой.

Пусть вычисленное значение r≠ 0. Проверим гипотезу H0 об отсутствии линейной корреляционной связи между переменными, т.е. H0: ρ= 0 при альтернативной гипотезе H1: ρ ≠ 0. Для проверки этой гипотезы на уровне значимости α вычисляют наблюдаемое значение критерия

набл = √1|| 2 √ − 2. (6)

Критическое значение критерия T(1–α, n–2) находят по таблице критических точек распределения Стьюдента (приложение 2) для числа степеней свободы n – 2 и уровня значимости α. Если Tнабл < T(α, n – 2), то гипотеза H0 принимается, в противном случае гипотеза H0 отвергается, т.е.

коэффициент корреляции признается существенно отличающимся от нуля.

ТРЕБОВАНИЯ БЕЗОПАСНОСТИ ТРУДА

При выполнении практической работы необходимо соблюдать общие правила техники безопасности:

использовать ПК только в соответствии с их назначением;

не размещать на корпусе ПК посторонние предметы (тетради, книги,

карандаши и т.п.);

оберегать ПК от толчков, ударов, сотрясений;

немедленно поставить в известность оператора ИВЦ об обнаружении задымления, загорания, пожара;

немедленно сообщить оператору ИВЦ обо всех неисправностях в работе ПК.

5

ТЕХНОЛОГИЯ ВЫПОЛНЕНИЯ РАБОТЫ

Была исследована зависимость случайной величины Y (показатель качества выпускаемой продукции) от величины Х (выходной параметр технологического процесса). Были получены следующие результаты (табл.

1). По этим данным:

1)Построить диаграмму рассеяния.

2)Построить линейное уравнение регрессии.

3)Построить экспоненциальное уравнение регрессии.

4)Для обеих моделей проверить адекватность по F-критерию на уровне значимости α = 0,05.

5)Вычислить выборочный линейный коэффициент корреляции.

6)Проверить значимость коэффициента корреляции.

Таблица 1

i

1

2

3

4

5

6

7

8

9

10

11

12

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

20,58

21,74

23,95

24,42

24,64

25,22

25,25

26,49

26,97

27,0

27,46

27,79

 

 

 

 

 

 

 

 

 

 

 

 

 

yi

4,88

5,66

7,41

8,95

9,17

9,75

10,05

12,72

14,21

13,07

15,05

15,86

 

 

 

 

 

 

 

 

 

 

 

 

 

Вводим исходные данные, по которым строим точечную диаграмму (рис.2).

Рис.2. Диаграмма рассеяния На вкладке РАБОТА С ДИАГРАММАМИ выбираем МАКЕТ – АНАЛИЗ –

ЛИНИЯ ТРЕНДА – ДОПОЛНИТЕЛЬНЫЕ ПАРАМЕТРЫ ЛИНИИ ТРЕНДА.

6

Отмечаем необходимый вид линии (линейная) и опции «Показать уравнение на диаграмме», «Поместить на диаграмму величину достоверности аппроксимации» (рис.3).

 

 

Рис.3. Добавление линии тренда

 

 

Аналогично добавляем экспоненциальную линию тренда. Результат

приведен на рис.4

 

 

 

 

 

18

 

 

 

 

 

 

16

 

 

 

y = 1,5609x - 28,653

 

 

14

 

 

 

R² = 0,9394

 

 

 

 

 

 

 

 

12

 

 

 

y = 0,1471e0,1677x

 

 

10

 

 

 

R² = 0,9882

 

 

 

 

 

 

 

 

8

 

 

 

 

 

 

6

 

 

 

 

 

 

4

 

 

 

 

 

 

2

 

 

 

 

 

 

0

 

 

 

 

 

 

0

5

10

15

20

25

30

 

Рис.4 Отображение линий тренда на графике

 

По значениям R2 можно сделать вывод, что экспоненциальное уравнение

более точно описывает зависимость величин.

 

 

7

Для обеих моделей проверим адекватность по F-критерию. Имеем линейное уравнение yi = −28,65 +1,561xi и экспоненциальное уравнение

= 0.147е0,168. В табл. 2 внесем данные, необходимые для проверки адекватности моделей (столбцы Yлин и Yэксп получаем подстановкой значений Х в соответствующие уравнения регрессии).

Таблица 2

Проверяем адекватность линейного уравнения регрессии на уровне значимости α = 0,05. Вычисляем остаточную дисперсию

 

 

∑(

− ̂ )2

8,737

 

2

=

 

 

=

 

= 0,79

 

 

 

ост

 

− 1

 

11

 

 

 

 

 

Вычисляем дисперсию уравнения регрессии

 

 

∑(̅ − ̂ )2

135,458

 

2

=

 

=

 

= 12,3

 

 

 

 

− 1

 

11

 

 

 

 

 

Находим наблюдаемое значение критерия

 

 

2

( − 2)

 

12,3 10

 

 

=

 

 

 

=

 

 

= 155

 

2

0,79

 

набл

 

 

 

 

 

 

 

 

ост

 

 

 

 

Находим критическое значение критерия с помощью функции FРАСПОБР(0,05;1;10). Получим Fкрит= 4,96 5. Так как Fнабл > Fкрит, то

8

уравнение регрессии является значимым, т.е. статистически подтверждается наличие линейной связи между факторным и результативным признаком.

Проверяем адекватность экспоненциального уравнения регрессии на уровне значимости α = 0,05. Вычисляем остаточную дисперсию

 

 

∑(

− ̂ )2

1,755

 

2

=

 

 

=

 

= 0,16

 

 

 

ост

 

− 1

 

11

 

 

 

 

 

Вычисляем дисперсию уравнения регрессии

 

 

∑(̅ − ̂ )2

136,807

 

2

=

 

=

 

= 12,47

 

 

 

 

− 1

 

11

 

 

 

 

 

Находим наблюдаемое значение критерия

 

 

2

( − 2)

 

12,47 10

 

 

=

 

 

=

 

 

= 779,3

 

2

0,16

 

набл

 

 

 

 

 

 

 

 

ост

 

 

 

 

Так как Fнабл > Fкрит, то уравнение экспоненциальной регрессии является значимым.

Таким образом, как линейное, так и экспоненциальное уравнения регрессии адекватно описывают экспериментальные данные. Однако остаточная сумма квадратов линейного уравнения регрессии Sлин = 8,74 существенно больше остаточной суммы квадратов показательного уравнения регрессии Sэксп =

1,76. Следовательно, показательное уравнение регрессии является более предпочтительным.

Вычислим выборочный линейный коэффициент корреляции. Для этого воспользуемся функцией КОРРЕЛ, где массив1 и массив2 - заданные значения Х и У.

9

Получили r = 0.97. Так как выборочный линейный коэффициент корреляции близок к 1, между переменными существует сильная прямая зависимость.

Проверим значимость коэффициента корреляции, т.е. проверяем статистическую обоснованность нулевой гипотезы о равенстве нулю генерального коэффициента корреляции H0: ρ = 0 при альтернативной гипотезе H1: ρ ≠ 0. Вычисляем наблюдаемое значение критерия Стьюдента

С помощью функции СТЬЮДРАСПОБР(0,05;10) находим критическое значение Tкрит = 2,23. Так как Tнабл > Tкрит, то гипотеза H0 отвергается,

т.е. коэффициент корреляции признается существенно отличающимся от нуля.

СОДЕРЖАНИЕ И ОФОРМЛЕНИЕ ОТЧЕТА

Отчет по практической работе должен содержать решение задач по вычислению числовых характеристик выборки с использованием MS Excel.

Отчет по практической работе предоставляется на листах формата А4 или в электронной форме. Содержание отчета: титульный лист с названием работы,

цель работы, задание, результаты выполнения работы, выводы по работе.

ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ

1.Выборочный коэффициент корреляции и уравнение регрессии.

2.Модель линейной регрессии.

10