
Биометрия методичка
.pdf
Лабораторная работа № 9 Регрессионный анализ
Линейная регрессия
Коэффициент корреляции определяет лишь степень статистической линейной связи между признаками, но ничего не говорит о причинной зависимости между ними. Выявление именно причинной взаимосвязи между признаками лежит в основе регрессионного анализа. На первом этапе считают, что эта связь носит линейный характер, т. е. результирующий
признак связан с признаками X1, X2, ..., Xn линейным урав-
нением регрессии: Y = a0 + a1X1 + a2X2 +…+ anXn (если n = 1, то регрессия парная; если n > 1, то регрессия множествен-
ная). Ставятся задачи отыскания значений коэффициентов регрессии, определения их статистической значимости, а также значимости всего уравнения регрессии в целом. Эти задачи решаются в MS Excel с помощью инструмента «Регрессия».
Пример 1. Вернемся к примеру 1 Лабораторной работы
«Корреляционный анализ». Нужно построить уравнение линейной регрессии для зависимости жирности молока Y от надоя X.
Решение. Открываем новую книгу (или новый рабочий лист) в ППП Excel и вводим данные из Таблицы 8.1 в виде столбиков (сначала Y, затем Х), как показано на Рис. 9.1.
Применяем команды Данные / Анализ данных / Регрессия.
Диалоговое окно показано на Рис. 9.1. В окошко «Входной интервал Y» вводим данные колонки «Y» Таблицы 8.1 с надписью (ячейки C2 – C14); в окошко «Входной интервал Х» вводим данные колонки «Х» Таблицы 8.1 также с надписью (ячейки B2 – B14). Флажок в окошке «Метки» сохранит надписи в итоговой таблице. Выставляем минимальный «Уровень надежности 95 %», выделяем курсором ячейку выходного интервала (например, H20) и нажимаем «ОК». Результаты регрессионного анализа приведены на Рис. 9.2.
51

Рис. 9.1 – Диалоговое окно инструмента «Регрессия»
Рис. 9.2 – Результаты регрессионного анализа
На основании результатов проведения регрессионного анализа получаем уравнение линейной парной регрессии Y на Х: Y = 9,426 − 0,1467 X. Оно имеет высокое значение коэффици-
52

ента корреляции (0,849) и является значимым по F-критерию
(p < 0,000469).
Коэффициенты уравнения регрессии также являются значимыми по t-критерию (p < 0,000469). Последние два столбца (Рис. 9.2) определяют границы доверительного интервала для коэффициентов на уровне доверительной вероятности P > 0,95. Уравнение регрессии показывает, что с ростом надоя на 1 ц жирность молока уменьшается на 0,1467 %.
Теперь, наоборот, найдем зависимость надоя Х от жирности молока Y, т. е. получим уравнение регрессии Х на Y. Для этого столбики «Y» и «Х» на Рис. 9.1 нужно поменять местами, потому что в окошко «Входной интервал Y» нужно сначала вводить данные из левого столбика, а в окошко «Входной интервал Х» – данные из правого столбика. Остальные действия выполняем так же, как и для регрессии Y на Х. Результаты вычислений приведены на Рис. 9.3.
Рис. 9.3 – Результаты регрессионного анализа
Мы получили уравнение линейной парной регрессии Х на Y: X = 57,42325 − 4,92099 Y. Оно имеет то же высокое значение коэффициента корреляции (0,84954), что и регрессия Y на Х, и является значимым в соответствии с F-критерием (p < 0,0004689). Его коэффициенты также значимы по t-критерию (p < 0,0004689 для b и p < 0,4361·10–8 для а). По-
53

следние два столбика Рис. 9.3 указывают значения границ доверительного интервала для этих коэффициентов на уровне доверительной вероятности P > 95 %. Уравнение регрессии говорит о том, что с увеличением жирности молока на 1 % надой за лактационный период уменьшается на 4,92099 ц. Столбики «Нижние 95 %» и «Верхние 95 %» указывают границы доверительного интервала для коэффициентов на уровне доверительной вероятности P > 95 %.
Задания Задание 1. Исследовали регрессионную зависимость меж-
ду жирностью молока Y и надоем X за лактационный период для коров голштинской породы. Соответствующие данные приведены в Таблице 9.1.
Таблица 9.1 – Надой и жирность молока коров голштинской породы за лактационный период
№ животного |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
Надой X, ц |
38,3 |
41,1 |
40,8 |
38,7 |
41,3 |
38,8 |
39,7 |
41,2 |
40,6 |
38,9 |
40,7 |
Жирность Y, % |
3,8 |
3,4 |
3,3 |
3,6 |
3,6 |
3,7 |
3,6 |
3,4 |
3,4 |
3,3 |
3,5 |
Задание 2. Построить уравнение множественной линейной регрессии для зависимости массы колоса (Y) тритикале сорта Гринадерская от ширины (X1) и длины (X2) листовой пластинки (Таблица 9.2).
Таблица 9.2 – Масса колоса (Y), ширина (X1) и длина (X2) листовой пластинки тритикале (сорт Гринадерская)
Y, г |
68,7 |
91,3 |
81,3 |
82,8 |
69,5 |
84,6 |
87,6 |
92,1 |
68,6 |
71,0 |
86,4 |
78,4 |
68,2 |
81,3 |
92,8 |
69,2 |
81,5 |
84,8 |
64,6 |
77,5 |
89,7 |
X1, мм |
11 |
21 |
17 |
17 |
13 |
15 |
16 |
22 |
12 |
14 |
18 |
13 |
11 |
18 |
20 |
13 |
18 |
19 |
12 |
13 |
17 |
X2, см |
8,1 |
13,3 |
12,4 |
12,8 |
9,6 |
11,5 |
12,9 |
13,5 |
9,1 |
9,3 |
12,2 |
12,1 |
9,1 |
12,8 |
13,4 |
8,7 |
12,0 |
12,6 |
8,1 |
8,8 |
9,7 |
54

Лабораторная работа № 10 Регрессионный анализ. Нелинейная регрессия
Парная нелинейная регрессия
Если связь между признаками Х и Y носит явно нелинейный характер, что можно визуально установить из графика этой зависимости (по корреляционному полю), либо существует математическая модель данной зависимости (формула), то применяют нелинейный регрессионный анализ.
ВППП MS Excel вид функции парной нелинейной регрессии и ее коэффициенты можно определить одним из двух способов:
используя команду Добавить линию тренда;
используя команду Поиск решения.
ВППП MS Excel имеется готовый набор следующих линий тренда – уравнений регрессии:
«линейная» – функция регрессии вида Y = a + b X;
«логарифмическая» – функция регрессии Y = a + b ln(X);
«полиноминальная» – функция регрессии
Y = a0 + a1X + a2X2 + ... + akXk (степень полинома k варьируется от 2-й до 6-й);
«степенная» – функция регрессии Y = a Xb;
«экспоненциальная» – функция регрессии Y = a eb X. Пример. В Таблице 10.1 приведена зависимость среднего
значения массы поросят большой белой породы Y (кг) от их возраста Х (недели).
Таблица 10.1 – Зависимость среднего значения массы поросят большой белой породы от возраста (в неделях)
Возраст, X |
1 неделя |
2 неделя |
3 неделя |
4 неделя |
6 неделя |
8 неделя |
10 неделя 12 неделя |
|
Масса Y, кг |
2,5 |
4,3 |
6,5 |
8,8 |
14,4 |
21,2 |
29,4 |
38,6 |
Решение. На первом этапе будем использовать готовые функции регрессии из набора «Линии тренда». Открываем новую книгу (или новый рабочий лист) в MS Excel и копируем Таблицу 10.1 в виде двух столбиков: сначала столбик Х,
55

потом Y. По данным этой таблицы строим эмпирический график зависимости Y от Х, обводя таблицу с надписями курсо-
ром и выполняя команды Вставка / Диаграмма / Точечная.
Имеем следующий график эмпирической зависимости Y от Х (Рис. 10.1) с приведенными данными:
Рис. 10.1 – ГрафикзависимостиживоймассыпоросятY отвозрастаХ
Из этого графика видно, что зависимость носит существенно нелинейный характер. Поэтому будем последовательно выбирать модель нелинейной регрессии из существующего набора линий тренда. Для этого наводим курсор на построенный график (Рис. 10.1) и нажимаем правую кнопку. Появляется контекстное меню.
В этом меню выбираем команду «Добавить линию тренда». Появляется диалоговое окно «Формат линии тренда», показанное на Рис. 10.2. В этом окне представлены все пять возможных типов линий тренда (окошко «Линейная фильтрация» соответствует первичной обработке исходных данных методом скользящих средних с заданной шириной окна «Точки»). Начнем с линии тренда «Линейная». Соответствующая кнопка выделена на Рис. 10.2.
56

Рис. 10.2 – Диалоговое окно «Формат линии тренда»
Поставим флажки в окошки «Показать уравнение на диаграмме» и «Поместить на диаграмме величину достоверности аппроксимации (R^2)». Нажимаем «Закрыть» и получаем диаграмму линейной регрессии (пунктир) вместе с диаграммой исходных данных (сплошная кривая), показанные на Рис. 10.3.
На этом рисунке приведено уравнение линейной регрессии и соответствующее значение коэффициента детерминации R2 = 0,9232. На следующем этапе проанализируем логарифмическую модель регрессии.
Нажмем кнопку «Логарифмическая» и получим итоговый график с надписями, приведенный на Рис. 10.4.
57

Рис. 10.3 – Линейная функции регрессии |
Рис. 10.4 – Логарифмическая функция регрессии |
Аналогично протестируем три оставшихся вида уравнений регрессии. Результаты показаны на Рис. 10.5–10.7.
58

Для полиноминальной модели ограничимся уравнением |
2-й степени (порядок степени вводится в окошко «степень» |
диалогового окна (Рис. 10.5)). |
Рис. 10.5 – Полиноминальная функция регрессии 2-й степени |
Рис. 10.6 – |
Степенная функция регрессии |
|
59 |

Рис. 10.7 – Экспоненциальная функция регрессии |
Из сравнения значений коэффициентов детерминации, приведенных на Рис. 10.3–10.7, следует, что наиболее адекватной для описания зависимости живой массы поросят от их возраста является полиноминальная модель регрессии 2-й степени, т. к. она имеет наибольшее значение коэффициента детерминации R2 = 0,9987. Соответствующее уравнение модели име-
ет вид Y = 3,7089 – 1,4577 X + 0,728 X2. По окончании регрес-
сионного анализа возникает вопрос, как определить статистическую значимость всего уравнения нелинейной регрессии в целом, а также значимость его коэффициентов. Для рассмотренных моделей ответ на этот вопрос упрощается, поскольку все они являются линейными по коэффициентам и при помощи соответствующих замен переменных могут быть приведены к модели линейной регрессии. Для анализа можно применить инструмент Регрессия. Диалоговое окно имеет вид (Рис. 10.8).
Рассмотрим на примере анализа уравнения простой ли-
нейной регрессии (Рис. 10.3): Y = –7,2107 + 5,094 X.
Открываем новую книгу (или новый рабочий лист) в ППП
Excel и копируем Таблицу 10.1 в виде двух колонок: сначала столбик Y, а затем Х, как это показано на Рис. 10.8.
60