
- •Введение
- •Лабораторная работа 5. ЛинЕная регрессия.
- •5.1. Теоретические сведения
- •5.2. Оценка качества построенной модели.
- •5.3. Геометрическая интерпретация
- •5.4. Матричная форма записи
- •5.5. Средство «Регрессия» надстройки «Пакет анализа» ms Excel
- •Остатки - разность между исходными и вычисленными по уравнению регрессии значениям уже вычислены., и содержатся в столбце k на рис.5.11 - 5.12.
- •Задание. Построение уравнения парной Линейной регрессии
- •Варианты заданий.
- •Лабораторная работа 6. Нелинейная регрессия.
- •6.1. Теоретические сведения
- •6.2. Оценка качества построенной модели
- •Задание
- •Список литературы
5.3. Геометрическая интерпретация
Рассмотрим n-мерное векторное пространство Rn, снабженное стандартным скалярным произведением: т.е. если
.
Пусть
(5.25)
(5.26)
где y
– вектор столбец размерности
фактических значений отклика;
a и b – числовые коэффициенты подлежащие определению т.е a - свободный член и b -коэффициент регрессии;
– вектор размерности
,
составленный из реальных значений
фактора;
-
вектор размерности
,
составленный из единиц;
-
вектор, лежащий в двумерной гиперплоскости
π, натянутой на векторы
и
.
Мы предполагаем, что эти векторы не
коллинеарны. Поставим задачу: найти
такие a и b,
чтобы вектор e
имел наименьшую длину. Другими словами
мы хотим наилучшим образом аппроксимировать
вектор y вектором
,
лежащим в гиперплоскости π. Очевидно,
что решением является такой вектор
,
для которого вектор e
перпендикулярен плоскости π. Для
этого необходимо и достаточно, чтобы
вектор был ортогонален векторам
и
,
порождающим плоскость π .(рис.
5.3)
Рис. 5.3 Геометрическая интерпретация построения уравнения регрессии
(5.27)
Используя определение вектора e, получаем следующие соотношения
(5.28)
Раскрыв скобки в последней системе (5.28) получим известные соотношения (5.8).
Также красивую и ясную геометрическую
интерпретацию имеет
коэффициент детерминированности
.
Рассмотрим рис.5.4. Вектор
является ортогональной проекцией
вектора на вектор
Вектор
-
это ортогональная проекция вектора y
на двумерную гиперплоскость π,
натянутой на векторы
и
.
Рис. 5.4 Геометрическую интерпретацию имеет коэффициент детерминированности
По
теореме о трех перпендикулярах
ортогональная проекция вектора
на вектор
совпадает с
.
Рассмотрим прямоугольный треугольник
со сторонами
,
и e, для
него справедлива теорема Пифагора
(5.29)
Это равенство является геометрическим аналогом соотношения (5.10) . Сопоставляя соотношения (5.10), (5.27) и (5.11), получаем соотношение
,
где φ угол между сторонами и .
Таким
образом, для
справедливо следующее соотношение
.
5.4. Матричная форма записи
Обозначим через X матрицу размерности n x 2
B – вектор коэффициентов,
Условие ортогональности вектора e к плоскости π записывается как
.
Или
Последнее уравнение эквивалентно следующему уравнению
.
Это уравнение может быть без труда решено:
(5.30).
Это выражение в развернутом виде будет выглядеть следующим образом:
(5.31).
Заметим, что (5.31) есть решение системы (5.8) с помощью обратной матрицы.
5.5. Средство «Регрессия» надстройки «Пакет анализа» ms Excel
Средство «Регрессия» служит для построения линейного уравнения регрессии и вычисления всех характеристик по его качеству и значимости; значимость всех коэффициентов уравнения и соответствующих доверительных интервалов; теоретические (прогнозируемые) значения отклика и соответствующие остатки, и их графики и т.д. Для этого необходимо заполнить диалоговое окно, приведенное на рис.5.5, назначение всех полей очевидно. Результат работы представлен на рис.5.6. Сравните полученные результаты, с результатами, полученными вручную (используя приведенные выше формулы), для примера, разобранного ниже, на рис.5.9-5.14.
Строки 182-186 содержат результат применения дисперсионного анализа для оценки значимости. Но вместо приведено значение «значимость F» , если это значение («значимость F») меньше уровня значимости , то существенно отличен от 0.
Строки
188-190 содержат информацию о величине
коэффициентов регрессии, оценки их
значимости и соответствующие доверительные
интервалы. При проверке значимости
коэффициентов регрессии по критерию
Стьюдента в традиционном порядке
вычисляем
столбец «t-статистика», но вместо
приведено
«Р-значение», если это значение
меньше уровня значимости
,
то соответствующий коэффициент
существенно отличен от 0.
Рис. 5.5 Диалоговое окно средства «Регрессия» надстройки «Пакет анализа» MS Excel
Рис. 5.6 Результаты работы средства «Регрессия» надстройки «Пакет анализа» MS Excel
ПРИМЕР
Имеются следующие данные по 10 фермерским хозяйствам области:
Таблица 5.3
Зависимость урожайности от внесенных удобрений
№ п/п |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
Урожайность зерновых (ц/га) |
15 |
12 |
17 |
21 |
25 |
20 |
24 |
14 |
23 |
13 |
Внесено удобрений (кг/га) |
4,0 |
2,5 |
5,0 |
5,8 |
7,5 |
5,7 |
7,0 |
3,0 |
6,0 |
3,5 |
Решение
Решение проведем с использованием ППП MS Excel..
Создадим файл с исходными данными в среде MS Excel. Исходные данные разместим в таблице следующей структуры (рис.5.7):
Х (Внесено удобрений, кг/га)
Y (Урожайность зерновых, ц/га)
Рис. 5.7. Excel. Исходные данные и поле корреляции.
Значения описательных статистик по каждой переменной найдем, используя надстройку Сервис - Пакет анализа Описательная статистика (Рис. 5.8.).
Рис. 5.8. Excel. Описательные статистики.
Определим коэффициенты вариации переменных:
Варьирование признаков находится в допустимом пределе (<35%).
Построим поле корреляции моделируемого (Урожайность зерновых) и факторного признака (Внесено удобрений). Для построения используем Мастер диаграмм – тип Точечная.
Как следует из рис.5.7, с увеличением количества внесенных удобрений на 1 га посевов урожайность зерновых растет примерно линейно. Следовательно, для данной зависимости можно попытаться построить линейное уравнение регрессии.
Найдем значение линейного коэффициента корреляции двумя способами:
непосредственно по определению, формула (5.1);
используя встроенную функцию КОРЕЛЛ().
В обоих случаях получили значение коэффициента корреляции 0.977, что говорит о наличии существенной линейной корреляции между признаками.
Рис. 5.9. Вычисление коэффициента корреляции и параметров уравнения регрессии в Excel (режим отображения данных).
Определим параметры уравнения парной регрессии – коэффициенты линейного уравнения и их ошибки (средние квадратические погрешности) - тремя способами:
непосредственно по определению (формулы 5.9 и 5.17);
используя встроенную функцию ЛИНЕЙН();
используя ЛИНИЮ ТРЕНДА.
Во всех
случаях получим уравнение
(рис.5.10), откуда следует, что каждый
килограмм внесенного удобрения
увеличивает урожайность на 2.77 ц/га.
Если удобрения не вносить (Х=0) , то
урожайность будет равна 4.53 ц/га.
Рис 5.10. Вычисление коэффициента корреляции и параметров уравнения регрессии в Excel (режим отображения формул).
Вычислим коэффициент детерминации R2. Для этого воспользуемся формулой (5.11). Все вычисления показаны на рис.5.11 и 5.12.
Чтобы
найти
воспользуемся знанием Yср
(ячейка С16) и заполним столбец I.
Чтобы найти
,
и
необходимо
знать теоретические значения
отклика
(Yтеор).
Для каждого значения фактора
по
полученному уравнению регрессии
вычислим теоретические значения
(столбец J). Найдем остатки - разность
между исходными значениями и вычисленными
значениями отклика по уравнению регрессии
(столбец K). Вычислим сумму
квадратов остатков
(столбец L) и
(столбец M).
Искомое значение
коэффициента детерминации R2
вычислено в ячейке H18, оно равно
0.9558. Таким
образом, 95.58% вариации Y
объясняется вариацией фактора X,
или 95,6% вариации урожайности
объясняется вариацией
количества внесенных
удобрений, т.е. сила линейной связи между
количеством внесенных удобрений и
урожайностью весьма высокая.
Значение R2 для линейной регрессии могло быть получено другим способом - используя соотношение , для проверки вычислим =(0.9776)2=0.9558. Вычисленные R2 значения совпали. Заметим, что в процессе решения значение R2 было вычислено по крайней мере дважды:
при использовании функции ЛИНЕЙН(), ячейка Е25;
при построении линии тренда.
Рис. 5.11.Вычисление коэффициента детерминированности
Лист Excel в режиме отображения данных.
Рис.5.12. Вычисление коэффициента детерминированности.
Лист MS Excel в режиме отображения формул.
6. Оценим статистическую значимость уравнения в целом, используя критерий Фишера.
Нулевая гипотеза H0:
уравнение регрессии не значимо,
коэффициент детерминации R2=0.
Альтернативная гипотеза H1:
коэффициент детерминации
и уравнение в целом значимо.
:
С помощью функции FРАСПОБР() для уровня значимости 0,05 находим Fкрит. Число степеней свободы для регрессионной суммы равно 1, для остаточной суммы равно 8. Тогда Fкрит = FРАСПОБР(0,05;1;8)=5.31 (рис. 5.13).
Рис. 5.13. MS Excel. Проверка гипотезы о статистической значимости уравнения регрессии.
Так как
,
принимаем альтернативную гипотезу о
значимости коэффициента детерминации
и всего уравнения в целом.
Оценим статистическую значимость параметров уравнения регрессии.
Значения
стандартной ошибки
и
параметров
определим пользуясь формулами (5.17), все
вычисления реализованы на рис.5.9-5.10,
ячейки А27 и А28. В результате получили
=0.2108
и
=1.1073.
Этот же результат получен как результат
работы функции ЛИНЕЙН() в ячейках
E24 и F24 на
тех же рисунках .
Проведем оценку статистической значимости коэффициента регрессии (b), используя критерий Стьюдента.
Выдвигаем
нулевую гипотезу H0:
коэффициент регрессии равен нулю.
Альтернативная гипотеза - H1:
.
Вычисляем
значение критерия
.
Находим
с помощью функции СТЬЮДРАСПОБР(), для
уровня значимости 0,05 и числа степеней
свободы 8 СТЬЮДРАСПОБР(0,05;8)=2,306.
,
следовательно, принимаем альтернативную
гипотезу, т.е. коэффициент регрессии
существенно отличен от нуля.
Статистическая
значимость свободного члена (a),
оценивается аналогично. Для этого
выдвигаем нулевую гипотезу H0:
,
свободный член равен нулю. Альтернативная
гипотеза H1:
.
Вычисляем значение критерия
.
Найденное
выше
=2,306,
сравниваем с
, поскольку
,
то принимаем альтернативную гипотезу
о значимости свободного члена уравнения
регрессии.
Так как a, b и не случайно отличаются от нуля, полученное уравнение линейной регрессии значимо с вероятностью 95% , как и параметры этого уравнения и может быть использовано для анализа и прогноза.
Определим доверительные интервалы для b и a по формуле (5.19):
для коэффициента регрессии b :
для свободного члена a:
Поскольку с надежностью 95% доверительные интервалы для коэффициентов a и b уравнения регрессии не содержат ноль, то это подтверждает вывод об их статистической значимости.