- •Часть 2
- •Введение
- •Тема 1. Работа в графическом редакторе
- •Задание для самостоятельной работы
- •Лабораторная работа №2 Тема: Работа в программе Microsoft PowerPoint
- •Основные сведения
- •Тема 2. Основные положения работы с электронной таблицей excel
- •Структура ячейки Excel
- •Лабораторная работа 3 Тема: Расчеты с использованием математического редактора в ms Excel
- •Лабораторная работа 4 Тема: Определение параметров линейной регрессии с помощью статистических функций линейн
- •Основные сведения
- •Задания для самостоятельной работы Провести статистическую обработку данных на пк:
- •Лабораторная работа 5 Тема: Определение параметра у по линейному уравнению регрессии с помощью статистической функции тенденция
- •Основные сведения
- •Задания для самостоятельной работы Провести статистическую обработку данных на пк:
- •Лабораторная работа 6 Тема: Определение значения уравнения регрессии вида
- •Основные сведения
- •Задания для самостоятельной работы Провести статистическую обработку данных на пк:
- •Тема 3. Средства статистического анализа данных в ms excel
- •Тема: Однофакторный дисперсионный анализ оценки погрешности измерений и характеристик приборов
- •Задания для самостоятельной работы
- •Лабораторная работа №8
- •Задания для самостоятельной работы
- •Список рекомендуемой литературы
- •Часть 2
- •115035, Москва, ул. Садовническая, 33, стр. 1
Лабораторная работа 4 Тема: Определение параметров линейной регрессии с помощью статистических функций линейн
Цель работы: Ознакомление с методикой применения статистических функций ЛИНЕЙН программы MS Excel в расчетах.
Задание: 1. Изучить методику применения статистической функции ЛИНЕЙН программы MS Excel в расчетах прогнозирования качества продукции.
2. Выполнить самостоятельно задание обработки результатов в MS Excel, применяя статистические функции ЛИНЕЙН.
Основные сведения
Синтаксис функции: ЛИНЕЙН (Изв_знач_у, Изв_знач_х, Константа, Стат).
При построении уравнения регрессии подбирают вид функции, связывающей результативный показатель у и факторы (аргументы) х1, х2,..., хк. Отбирают наиболее информативные аргументы, вычисляют оценки неизвестных значений параметров уравнения регрессии и анализируют точность полученного уравнения.
Уравнение регрессии - это функция, описывающая зависимость условного среднего значения результативного признака у от заданных значений аргументов х, т.е.
у = f(х1, х2,..., хк).
Многочисленные опыты по подбору параметров уравнения регрессии показывают, что в реальных процессах зависимость результативного показателя (отклика системы) у от аргументов (факторов) х1, х2,..., хк хорошо описывается полиномом вида:
Такой полином называют регрессионной зависимостью (уравнением регрессии), а коэффициенты bi bii, b.ij — статистическими оценками коэффициентов регрессии. При этом bi - линейные коэффициенты, bii - нелинейные коэффициенты, b.ij. - коэффициенты, учитывающие взаимное влияние факторов.
Задача регрессионного анализа заключается в экспериментальном определении статистических оценок коэффициентов регрессии b путем наблюдения за характером изменения входных переменных (факторов) и выходной величины (результативного показателя).
Линейная модель уравнения регрессии строится с использованием следующей зависимости (2.4.1):
B = (XTX)-1XTY, (2.4.1)
где
B
=
X
=
Y
=
B - матрица-столбец статистических оценок коэффициентов регрессии; X - матрица значений объясняющих переменных; Y - матрица-столбец значений результативного показателя; ХТ—транспонированная матрица X; (ХТХ)-1 - обратная матрица; k — число факторов; п — число наблюдений.
Решая уравнение (2.4.1) в матричном виде, получаем коэффициенты уравнения регрессии bi, зная которые, можно записать линейную модель уравнения регрессии.
В результате можно построить линейную модель вида:
y=
bo
+b1x1
+b2x2+b3x3+…+
bixi
+ b11
+
b22
+
b33
+
bij
+…+ +
b12x1х2
+
b12x1х2+
b13x1х3+
b23x2х3+
b123x1х2
х3
+…+ bijxiхj
+…
Для построенной модели вычисляют коэффициент детерминации по формуле (2.4.2):
(2.4.2)
где
ei
= уi
-
—
регрессионные остатки;
=
- среднее результативного признака.
Коэффициент детерминации показывает долю вариации результативного признака под воздействием изучаемых факторов, т.е. какая доля вариации зависимой переменной обусловлена влиянием включенных в модель факторов.
Проверка значимости уравнения регрессии проводится на основе критерия Фишера
Расчетное значение критерия FB сравнивается с критическим Fкр(α; п-к-1), определяемым по таблице критических точек распределения Фишера. Также можно определить с помощью функции FРАСППОБР.
Если FB > FKp, то уравнение регрессии считается значимым, т.е. хотя бы один коэффициент регрессии не равен нулю.
Значимость коэффициентов регрессии проверяется с помощью критерия Стьюдента, основанного на статистике
где
= S2(XTX)n-1
— дисперсия коэффициента регрессии
bi;
S2—
несмещенная оценка остаточной дисперсии;
(XTX)n-1 — элементы обратной матрицы, стоящие на главной диагонали.
Расчетное
значение критерия
.
сравнивают с критическим
tкр(α, f), где f=n-k-1 – число степеней свободы
Если > tкр, то коэффициент bi значим.
При построении регрессионных моделей рассчитываются:
• сумма квадратов регрессии
с
числом степеней свободы k;
• сумма квадратов остатков
с
числом степеней свободы п
- k
-
1.
С помощью этих величин можно рассчитать:
• дисперсию
регрессии MS1
=
=SS1/k
•
остаточную
дисперсию MS2
=
=SS2/n-k-1
Если оценка уравнения регрессии имеет вид у = b0 + b1х, то параметры данного уравнения определяются по методу наименьших квадратов на основе решения системы уравнений.
Расчет коэффициентов уравнения регрессии можно осуществлять с помощью СТАТИСТИЧЕСКОЙ функции ЛИНЕЙН. Окно данной функции имеет вид (рис. 2.4.1)
Рис. 2.4.1. Окно статистической функции ЛИНЕЙН
где Изв_знач_у - это множество значений у;
Изв_знач_х - это необязательное множество значений х;
Константа - это логическое значение, которое указывает, требуется ли, чтобы коэффициент b0 был равен 0;
Стат - это логическое значение, которое указывает, требуется ли рассчитать дополнительную статистику по регрессии.
Если массив Изв_знач_у имеет один столбец, то каждый столбец массива Изв_знач_х интерпретируется как отдельная переменная.
Если массив Изв_знач_у имеет одну строку, то каждая строка массива Изв_знач_х интерпретируется как отдельная переменная.
Массив Изв_знач_х может содержать одно или несколько множеств переменных. Если используется только одна переменная, то Изв_знач_у и Изв_знач_х могут быть массивами любой формы при условии, что они имеют одинаковую размерность. Если используется более одной переменной, то Изв_знач_у должны быть вектором (т.е. интервалом высотой в одну строку или шириной в один столбец).
Если Изв_знач_х опущены, то предполагается, что это массив {1; 2; 3;...} такого же размера, как и Изв_знач_у.
Если Константа имеет значение ИСТИНА или опущено, то коэффициент b0 вычисляется обычным образом.
Если Константа имеет значение ЛОЖЬ, то коэффициент b0 полагается равным 0.
Если Стат имеет значение ИСТИНА, то функция ЛИНЕЙН рассчитывает дополнительную регрессионную статистику (табл. 2.4.1).
Если Стат имеет значение ЛОЖЬ или опущена, то функция ЛИНЕЙН определяет только коэффициенты регрессии b0, b1 b2,...
Таблица 2.4.1
Дополнительная статистика |
|
Величина |
Описание |
se1, se2,..., sen |
Стандартные ошибки коэффициентов уравнения регрессии b1, b2, ..., bп (sb1,sb2 ..., sbn) |
seb |
Стандартная ошибка коэффициента b0 - sb0 (seb = #Н/Д, если константа имеет значение ЛОЖЬ) |
r2 |
Коэффициент детерминации R2 |
sey |
Стандартная ошибка регрессионных остатков s |
F |
Расчетное значение F-критерия (FB) |
df |
Степени свободы |
ssreg |
Сумма квадратов регрессии (SS1) |
ssresid |
Сумма квадратов остатков (SS2) |
Пример 2.4.1. Имеются данные 15 наблюдений прочности ткани (у) в зависимости от прочности нитей (х1) и заполнения ткани (х2) (табл. 2.4.2). Построить линейную модель регрессии, учитывающую эту зависимость и провести ее анализ.
Таблица 2.4.2
№ |
Прочность ткани, у |
Прочность нитей, x1 |
Заполнение ткани, х2 |
1 |
26 |
37 |
39 |
2 |
33 |
33 |
40 |
3 |
24 |
15 |
35 |
4 |
29 |
36 |
48 |
5 |
42 |
26 |
53 |
6 |
24 |
24 |
42 |
7 |
52 |
15 |
54 |
8 |
56 |
33 |
54 |
9 |
26 |
44 |
50 |
10 |
45 |
34 |
53 |
11 |
27 |
63 |
46 |
12 |
54 |
8 |
50 |
13 |
34 |
44 |
43 |
14 |
48 |
43 |
55 |
15 |
45 |
31 |
51 |
Решение.
Определяем коэффициенты уравнения регрессии
X
=
X
Т=
X
ТХ=
XТY=
(ХТХ)-1=
B
= (XTX)-1(XTY)=
Уравнение регрессии имеет вид
у = -20,4137 - 0,3136х1 + 1,4357х2.
Рассчитываем коэффициент детерминации по формуле (2.2)
R2= 0,731.
Он показывает, что около 73% вариации зависимой переменной обусловлено влиянием включенных факторов, а оставшиеся 27% обусловлены влиянием других, не учтенных в модели факторов.
Проверяем значимость уравнения регрессии по критерию Фишера: FB = (0,731 / 2) / [(1-0,731)/12] = 16,3
По таблице критических точек распределения Фишера (см. приложения) по уровню значимости α = 0,05 и числу степеней свободы f1=k = 2 и f2=n-k-1=12 определяем F =3,88.
Так как FB> FKp, то получаемое уравнение регрессии значимо, т.е. хотя бы один из коэффициентов b. не равен нулю.
Решим данный пример с использованием статистической функции ЛИНЕЙН.
Алгоритм действий следующий.
1. Формируем в Excel таблицу исходных данных:
|
А |
В |
С |
D |
1 |
№ |
Прочность ткани, у |
Прочность нитей, x1 |
Заполнение ткани, х2 |
2 |
1 |
26 |
37 |
39 |
3 |
2 |
33 |
33 |
40 |
4 |
3 |
24 |
15 |
35 |
5 |
4 |
29 |
36 |
48 |
6 |
5 |
42 |
26 |
53 |
7 |
б |
24 |
24 |
42 |
8 |
7 |
52 |
15 |
54 |
9 |
8 |
56 |
33 |
54 |
10 |
9 |
26 |
44 |
50 |
11 |
10 |
45 |
34 |
53 |
12 |
11 |
27 |
63 |
46 |
13 |
12 |
54 |
8 |
50 |
14 |
13 |
34 |
44 |
43 |
15 |
14 |
48 |
43 |
55 |
16 |
15 |
45 |
31 |
51 |
2. Выбираем диапазон ячеек размером 3x5 (5 - число строк: постоянная величина; 3 - число столбцов: равно числу коэффициентов уравнения регрессии), в которую будет выведен результат вычислений (А20:С24).
3. Вызываем Мастер функций, нажав кнопку fx на панели инструментов.
4. В Мастере функций из категории Статистические выбираем функцию ЛИНЕЙН и нажимаем ОК.
5. В левом верхнем углу листа Excel появится окно функции ЛИНЕЙН (рис. 2.4.1).
6. Нажав кнопку в поле Изв_знач_у перходим на рабочий лист и выделяем мышью исходными данными (В2:В16). Затем возвращаемся к окну функции ЛИНЕЙН снова нажав кнопку в поле.
7. Нажав кнопку в поле Изв_знач_х, переходим на рабочий лист с исходными данными и выделяем его мышью (C2:D16). Затем, повторно нажав кнопку, возвращаемся к окну функции ЛИНЕЙН.
В поле Константа вводим логическое значение ИСТИНА.
В поле Стат вводим логическое значение ИСТИНА.
Набираем комбинацию клавиш CTRL+SHIFT+ENTER (ввод формулы массива).
В окне функции появится результат решения (первый элемент массива). В ячейках А20:С24 появится результат вычислений
Таблица результатов
19 |
|
||
20 |
1.4357 |
-0,313611829 |
-20.41372146 |
21 |
0.2759 |
0,126781486 |
13.74803059 |
22 |
0,7308 |
6,548502705 |
#Н/Д |
23 |
16,286 |
12 |
*Н/Д |
24 |
1396,7 |
514,5946521 |
#Н/Д |
25 |
|
||
Таблица результатов содержит следующие данные:
b2 |
b1 |
b0 |
Sb2 |
Sb1 |
Sb0 |
R2 |
S2 |
- |
FB |
f |
- |
SS1 |
SS2 |
- |
Таким образом, результаты полученные с помощью ПК совпадают с классическими расчетами.
