
2к4с Математическая статистика и прогнозирование / МУ к практической работе 4
.pdfМинистерство образования и науки Российской Федерации Саратовский государственный технический университет Балаковский институт техники, технологии и управления
ПОСТРОЕНИЕ И АНАЛИЗ УРАВНЕНИЯ РЕГРЕССИИ
Методические указания к выполнению практической работы по курсу «Математическая статистика и прогнозирование» для студентов всех форм обучения по направлению
«Информационные системы и технологии»
Одобрено
редакционно-издательским советом
Балаковского института техники,
технологии и управления
Балаково 2015
ВВЕДЕНИЕ
Цель работы: научиться строить уравнение регрессии и проводить его анализ с использованием MS Excel.
ОСНОВНЫЕ ПОНЯТИЯ
Зависимость между |
переменными величинами, когда каждому |
значению одной переменной |
может соответствовать множество значений |
другой переменной, имеющее определенное распределение, называется статистической. Статистические связи между переменными изучаются
методами корреляционного и регрессионного анализа. Основной задачей
регрессионного анализа является установление формы и изучение
зависимости между переменными, корреляционного анализа – выявление
связи между случайными переменными и оценка ее |
тесноты. В |
регрессионном анализе рассматривается зависимость |
случайного |
результативного признака y от неслучайных факторных признаков x1, x2, ..., xn. В случае единственного факторного признака x различают следующие виды регрессий: линейную, гиперболическую, показательную, степенную,
логарифмическую, параболическую и т.д. Предположим, что для оценки
параметров регрессии взята выборка, содержащая n пар значений (xi, yi), где i
= 1, 2, … , n. Оценкой предложенных выше уравнений регрессии являются выборочные уравнения регрессии:
|
линейное ̂ = 0 + 1 ; |
|
|
|
|
|
|
|
|
|||||
|
гиперболическое |
|
̂ = |
0 |
+ |
1 |
; |
|
|
|
|
|||
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
показательное |
̂ = ; |
|
|
|
|
|
|
|
|||||
|
|
|
|
|
0 |
1 |
|
|
|
|
|
|
|
|
|
степенное |
̂ = |
|
1; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
|
|
|
логарифмическое |
|
̂ = 0 |
+ 1 ; |
|
|
|
|||||||
|
параболическое |
|
̂ = |
0 |
+ + |
2 |
2 |
, |
|
|||||
|
|
|
|
|
|
|
1 |
|
|
|
|
|||
где |
параметры |
a0, |
|
|
a1, |
a2 |
являются |
точечными |
оценками |
соответствующих параметров исходного уравнения и могут быть найдены на основе метода наименьших квадратов.
2

Сущность метода наименьших квадратов заключается в нахождении
параметров модели a0, a1, при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выборочному уравнению регрессии
|
|
|
= ∑( − ̂ )2 |
→ . |
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Для нахождения параметров |
|
a0, a1 линейного уравнения регрессии |
||||||||||||||
̂ = 0 + 1 решается система уравнений |
|
|
|
|
|
|
||||||||||
|
|
0 |
+ |
∑ |
|
= ∑ ; |
|
|
|
|
|
|
||||
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
||
{ ∑ |
+ |
∑ |
2 = ∑ . |
|
(1) |
|
|
|
||||||||
|
0 |
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
Для параболического уравнения |
регрессии |
|
̂ = |
+ |
+ |
2 |
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
0 |
1 |
2 |
|
система уравнений для нахождения параметров a0, a1, a2 |
имеет вид |
|
|
|||||||||||||
|
|
+ |
∑ |
+ |
∑ 2 |
= ∑ ; |
|
|
|
|
|
|||||
|
0 |
|
1 |
|
|
|
|
2 |
|
|
|
|
|
|
|
|
{ |
∑ |
+ |
∑ 2 |
|
+ |
2 |
∑ 3 = ∑ ; |
(2) |
|
|
||||||
0 |
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
||
|
∑ 2 |
+ |
∑ |
3 |
|
+ |
2 |
∑ 4 = ∑ 2 |
. |
|
|
|
|
|||
0 |
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
Все предложенные выше виды нелинейных регрессий (кроме параболической) могут быть сведены к линейной путем какой-либо замены переменной. Для гиперболической регрессии вводится переменная x′= 1/x,
для логарифмической регрессии x′= lnx , уравнения показательной и степенной регрессии предварительно логарифмируют.
Регрессионную модель удобно представлять графически. Для этого на координатной плоскости откладываются точки Pi (xi, yi), (i = 1, 2, … , n) (рис. 1). Полученный график называется диаграммой рассеивания.
Y |
40 |
|
|
|
|
|
|
|
35 |
|
|
|
|
|
|
|
30 |
|
|
|
|
|
|
|
25 |
|
|
|
|
|
|
|
20 |
|
|
|
|
|
|
|
15 |
|
|
|
|
|
|
|
10 |
|
|
|
|
|
|
|
5 |
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
-5 |
0 |
5 |
10 |
15 |
20 |
25 |
|
|
|
|
|
|
|
X |
Рис. 1. Диаграмма рассеивания |
|
3

Построив диаграмму рассеяния, можно подобрать вид уравнения
регрессии. На рис. 1 для одних и тех же экспериментальных точек
построены линейная и показательная регрессии. Видим, что
экспериментальные точки располагаются ближе к линии = |
, чем к |
0 |
1 |
прямой. Следовательно, можно сделать вывод, что показательная регрессия
более адекватно описывает фактические данные, чем линейная. |
|
|
|
||||||||||||||
|
Однако по графику можно только приближенно сделать вывод о |
||||||||||||||||
качестве той или иной модели. |
Для |
|
более точной оценки адекватности |
||||||||||||||
(значимости) уравнения регрессии на |
|
уровне значимости |
α |
вычисляют |
|||||||||||||
наблюдаемое значение случайной величины |
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
2( −2) |
|
|
|
|
|
|
|
|
|
|||
|
|
|
= |
|
|
|
, |
|
|
|
|
|
(3) |
|
|
||
|
|
|
2 |
|
|
|
|
|
|
|
|
||||||
|
набл |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
ост |
|
|
|
|
|
|
|
|
|
|
|
где |
остаточная дисперсия |
2 |
|
|
и дисперсия |
уравнения |
регрессии |
||||||||||
|
|
|
|
|
|
ост |
|
|
|
|
|
|
|
|
|
||
2 |
находятся по формулам |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
= |
∑( − ̂ )2 |
|
, |
2 |
= |
∑( ̅− ̂ )2 |
|
(4) |
|
|
|
||||
|
|
|
|
|
|
|
|||||||||||
|
ост |
|
|
|
−1 |
|
|
|
−1 |
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
Далее находим критическое значение |
критерия F(α, |
1; |
n – 2) |
по |
||||||||||||
таблице критических |
точек |
распределения |
Фишера |
(приложение 4) |
при |
k1=1, k2 = n – 2 степенях свободы и уровне значимости α. Если Fнабл > F(α; 1; n
– 2), то уравнение регрессии признается значимым, в противном случае
уравнение регрессии признается незначимым, т.е. статистически подтверждается отсутствие линейной связи между факторным и результативным признаком.
Рассмотрим более подробно линейное уравнение регрессии. В качестве универсального показателя тесноты связи между величинами x и y
используется выборочный линейный коэффициент корреляции
|
|
|
(5) |
= 1 |
Здесь sx и sy – средние квадратические отклонения соответствующих признаков (факторного и результативного).
4

Линейный коэффициент корреляции изменяется в пределах –1 ≤ r ≤ 1.
Если r > 0, то связь между переменными x и у прямая, если r < 0, то связь между переменными x и у обратная. При r = 0 связь между переменными отсутствует. При |r| = 1 связь между x и у функциональная, т.е.
наблюдаемые значения располагаются точно на прямой.
Пусть вычисленное значение r≠ 0. Проверим гипотезу H0 об отсутствии линейной корреляционной связи между переменными, т.е. H0: ρ= 0 при альтернативной гипотезе H1: ρ ≠ 0. Для проверки этой гипотезы на уровне значимости α вычисляют наблюдаемое значение критерия
набл = √1|−| 2 √ − 2. (6)
Критическое значение критерия T(1–α, n–2) находят по таблице критических точек распределения Стьюдента (приложение 2) для числа степеней свободы n – 2 и уровня значимости α. Если Tнабл < T(α, n – 2), то гипотеза H0 принимается, в противном случае гипотеза H0 отвергается, т.е.
коэффициент корреляции признается существенно отличающимся от нуля.
ТРЕБОВАНИЯ БЕЗОПАСНОСТИ ТРУДА
При выполнении практической работы необходимо соблюдать общие правила техники безопасности:
использовать ПК только в соответствии с их назначением;
не размещать на корпусе ПК посторонние предметы (тетради, книги,
карандаши и т.п.);
оберегать ПК от толчков, ударов, сотрясений;
немедленно поставить в известность оператора ИВЦ об обнаружении задымления, загорания, пожара;
немедленно сообщить оператору ИВЦ обо всех неисправностях в работе ПК.
5

ТЕХНОЛОГИЯ ВЫПОЛНЕНИЯ РАБОТЫ
Была исследована зависимость случайной величины Y (показатель качества выпускаемой продукции) от величины Х (выходной параметр технологического процесса). Были получены следующие результаты (табл.
1). По этим данным:
1)Построить диаграмму рассеяния.
2)Построить линейное уравнение регрессии.
3)Построить экспоненциальное уравнение регрессии.
4)Для обеих моделей проверить адекватность по F-критерию на уровне значимости α = 0,05.
5)Вычислить выборочный линейный коэффициент корреляции.
6)Проверить значимость коэффициента корреляции.
Таблица 1
i |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
|
|
|
|
|
|
|
|
|
|
|
|
|
xi |
20,58 |
21,74 |
23,95 |
24,42 |
24,64 |
25,22 |
25,25 |
26,49 |
26,97 |
27,0 |
27,46 |
27,79 |
|
|
|
|
|
|
|
|
|
|
|
|
|
yi |
4,88 |
5,66 |
7,41 |
8,95 |
9,17 |
9,75 |
10,05 |
12,72 |
14,21 |
13,07 |
15,05 |
15,86 |
|
|
|
|
|
|
|
|
|
|
|
|
|
Вводим исходные данные, по которым строим точечную диаграмму (рис.2).
Рис.2. Диаграмма рассеяния На вкладке РАБОТА С ДИАГРАММАМИ выбираем МАКЕТ – АНАЛИЗ –
ЛИНИЯ ТРЕНДА – ДОПОЛНИТЕЛЬНЫЕ ПАРАМЕТРЫ ЛИНИИ ТРЕНДА.
6

Отмечаем необходимый вид линии (линейная) и опции «Показать уравнение на диаграмме», «Поместить на диаграмму величину достоверности аппроксимации» (рис.3).
|
|
Рис.3. Добавление линии тренда |
|
|
||
Аналогично добавляем экспоненциальную линию тренда. Результат |
||||||
приведен на рис.4 |
|
|
|
|
|
|
18 |
|
|
|
|
|
|
16 |
|
|
|
y = 1,5609x - 28,653 |
|
|
14 |
|
|
|
R² = 0,9394 |
|
|
|
|
|
|
|
|
|
12 |
|
|
|
y = 0,1471e0,1677x |
|
|
10 |
|
|
|
R² = 0,9882 |
|
|
|
|
|
|
|
|
|
8 |
|
|
|
|
|
|
6 |
|
|
|
|
|
|
4 |
|
|
|
|
|
|
2 |
|
|
|
|
|
|
0 |
|
|
|
|
|
|
0 |
5 |
10 |
15 |
20 |
25 |
30 |
|
Рис.4 Отображение линий тренда на графике |
|
||||
По значениям R2 можно сделать вывод, что экспоненциальное уравнение |
||||||
более точно описывает зависимость величин. |
|
|
7

Для обеих моделей проверим адекватность по F-критерию. Имеем линейное уравнение yi = −28,65 +1,561xi и экспоненциальное уравнение
= 0.147е0,168. В табл. 2 внесем данные, необходимые для проверки адекватности моделей (столбцы Yлин и Yэксп получаем подстановкой значений Х в соответствующие уравнения регрессии).
Таблица 2
Проверяем адекватность линейного уравнения регрессии на уровне значимости α = 0,05. Вычисляем остаточную дисперсию
|
|
∑( |
− ̂ )2 |
8,737 |
|
|
2 |
= |
|
|
= |
|
= 0,79 |
|
|
|
||||
ост |
|
− 1 |
|
11 |
|
|
|
|
|
|
Вычисляем дисперсию уравнения регрессии
|
|
∑(̅ − ̂ )2 |
135,458 |
|
|
2 |
= |
|
= |
|
= 12,3 |
|
|
||||
|
|
− 1 |
|
11 |
|
|
|
|
|
Находим наблюдаемое значение критерия
|
|
2 |
( − 2) |
|
12,3 10 |
|
||
|
= |
|
|
|
= |
|
|
= 155 |
|
2 |
0,79 |
|
|||||
набл |
|
|
|
|
|
|||
|
|
|
ост |
|
|
|
|
Находим критическое значение критерия с помощью функции FРАСПОБР(0,05;1;10). Получим Fкрит= 4,96 5. Так как Fнабл > Fкрит, то
8
уравнение регрессии является значимым, т.е. статистически подтверждается наличие линейной связи между факторным и результативным признаком.
Проверяем адекватность экспоненциального уравнения регрессии на уровне значимости α = 0,05. Вычисляем остаточную дисперсию
|
|
∑( |
− ̂ )2 |
1,755 |
|
|
2 |
= |
|
|
= |
|
= 0,16 |
|
|
|
||||
ост |
|
− 1 |
|
11 |
|
|
|
|
|
|
Вычисляем дисперсию уравнения регрессии
|
|
∑(̅ − ̂ )2 |
136,807 |
|
|
2 |
= |
|
= |
|
= 12,47 |
|
|
||||
|
|
− 1 |
|
11 |
|
|
|
|
|
Находим наблюдаемое значение критерия
|
|
2 |
( − 2) |
|
12,47 10 |
|
|
|
= |
|
|
= |
|
|
= 779,3 |
|
2 |
0,16 |
|
||||
набл |
|
|
|
|
|
||
|
|
|
ост |
|
|
|
|
Так как Fнабл > Fкрит, то уравнение экспоненциальной регрессии является значимым.
Таким образом, как линейное, так и экспоненциальное уравнения регрессии адекватно описывают экспериментальные данные. Однако остаточная сумма квадратов линейного уравнения регрессии Sлин = 8,74 существенно больше остаточной суммы квадратов показательного уравнения регрессии Sэксп =
1,76. Следовательно, показательное уравнение регрессии является более предпочтительным.
Вычислим выборочный линейный коэффициент корреляции. Для этого воспользуемся функцией КОРРЕЛ, где массив1 и массив2 - заданные значения Х и У.
9

Получили r = 0.97. Так как выборочный линейный коэффициент корреляции близок к 1, между переменными существует сильная прямая зависимость.
Проверим значимость коэффициента корреляции, т.е. проверяем статистическую обоснованность нулевой гипотезы о равенстве нулю генерального коэффициента корреляции H0: ρ = 0 при альтернативной гипотезе H1: ρ ≠ 0. Вычисляем наблюдаемое значение критерия Стьюдента
С помощью функции СТЬЮДРАСПОБР(0,05;10) находим критическое значение Tкрит = 2,23. Так как Tнабл > Tкрит, то гипотеза H0 отвергается,
т.е. коэффициент корреляции признается существенно отличающимся от нуля.
СОДЕРЖАНИЕ И ОФОРМЛЕНИЕ ОТЧЕТА
Отчет по практической работе должен содержать решение задач по вычислению числовых характеристик выборки с использованием MS Excel.
Отчет по практической работе предоставляется на листах формата А4 или в электронной форме. Содержание отчета: титульный лист с названием работы,
цель работы, задание, результаты выполнения работы, выводы по работе.
ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ
1.Выборочный коэффициент корреляции и уравнение регрессии.
2.Модель линейной регрессии.
10