
- •Лабораторная работа №5. Корреляционно-регрессионный анализ
- •1. Общие понятия и определения
- •2. Оценка силы корреляционной связи
- •3.Оценка коэффициента корреляции по данным выборки
- •4. Оценка значимости коэффициента корреляции
- •Примеры решения задач
- •Варианты заданий
- •5. Парная линейная регрессия.
- •6. Расчет теоретической линии прямой регрессии
- •7. Обратная регрессия
- •Алгоритм расчета оптимальной формы связи
- •Примеры решения задач
- •Варианты заданий
5. Парная линейная регрессия.
Различают несколько моделей при определении стохастической связи между Y и X.
Модель 1. Зависимая переменная (функция отклика) Y – случайная величина, а значение независимой переменной (фактора) X заданы точно. Число наблюдений yi и xi одинаково, i=1, n.
Модель 2. Переменная Y и переменная X – случайные величины. Тогда можно в равной степени говорить о зависимости Y от X (прямая регрессия) или X от Y (обратная регрессия). При этом одному значению факторной переменной может соответствовать несколько значений функций отклика.
Известный из математического анализа принцип построения функциональной зависимости Y=f(x) здесь неприменим, т.к. Y и Х в общем случайные величины и связь между ними – стохастическая.
Для установления стохастической связи между Y и Х может быть принята следующая схема.
Выбор формы связи начинают с предварительного аналитического или графического анализа экспериментальных данных путем прикидочной аппроксимации графического изображения пар наблюдений на плоскости. Если значение результативного признака (зависимости переменной) изменяется приблизительно равномерно с изменением факторного признака (независимой переменной), то, возможно, существует линейная связь, если неравномерная – нелинейная.
Форма связи должна прежде всего отображать основную закономерность устанавливаемой связи, ее простоту и доступность, позволяющие свести зависимость большого числа n наблюдений к простому аналитическому выражению. Отсюда и название моделей – регрессионные, т.е. позволяющие сократить (сжать, уменьшить) описание большого числа n наблюдений до анализа простого выражения их описывающего.
Наибольшее
распространение при обработке пар Y
и Х
получили линейные связи
и связи, которые путем определенных
замен могут быть легко сведены к линейным
виды
.
№ п/п |
Форма связи |
Линеаризующие преобразования |
|||
y` |
x` |
a0` |
a1` |
||
1 |
y=a0+a1/x |
y |
x` |
a0 |
a1 |
2 |
y=1/( a0+ a1x) |
1/x |
x |
a0 |
a1 |
3 |
y=x/( a0+ a1x) |
x/y |
x |
a0 |
a1 |
4 |
y= a0 a1x |
ln y |
x |
ln a0 |
ln a1 |
5 |
y= a0 e a1 x |
ln y |
x |
ln a0 |
a1 |
6 |
y=1/(a0+b1e-x) |
1/y |
e-x |
a0 |
a1 |
7 |
y= a0 Xa |
ln y |
ln x |
a0 |
a1 |
8 |
y= a0 + a1 lgx |
y |
lg x |
a0 |
a1 |
9 |
y= a0 /( a1 +x) |
1/y |
x |
a1 / a0 |
1/ a0 |
10 |
y= a0 x/( a1 + x) |
1/y |
1/x |
a1 / a0 |
1/ a0 |
11 |
y= a0 e b1 x |
ln x |
1/x |
ln a0 |
a1 |
12 |
y= a0 + b1 x |
y |
xn |
a0 |
a1 |
Необходимость линеаризации объясняется тем, что
линейные связи просты и требуют меньшего объема вычислений;
методика их установления доступна и более глубоко разработана;
линейным связям свойственно нормальное распределение, а оно наиболее часто встречается в экспериментальных данных;
любую кривую можно аппроксимировать кусочно-линейной связью (по фактору).
Используя метод наименьших квадратов (МНК), можно построить практически любые формы нелинейной парной связи. Для этого используют линеаризующие преобразования (табл. 1), так как только линейные по параметрам функции восстанавливаются МНК. После вычисления a0` и a1` для уравнения y`= a0`+ a1`x` по рассмотренной выше схеме (как для линейной зависимости) выполняют обратные преобразования, т.е. из a0` и a1` вычисляют a0 и a1 в соответствии с упомянутой таблицей.
Парная регрессия может быть представлена в квадратичной
(5)
или в кубичной форме
.
(6)
Теоретически можно получить формулу парной зависимости любого порядка х, однако, практически уже при получении формул порядка выше четвертого, ошибка округления столь велика, что теряется выигрыш от повышения порядка регрессии.