
1.12 Регрессионный анализ.
Регрессионный анализ применим при определенных предложениях, постулатах.
Первый постулат. Параметр оптимизации Y есть случайная величина с нормальным законом распределения. Дисперсия воспроизводимости – одна из характеристик этого закона распределения.
При наличии большого экспериментального материала (десятки параллельных опытов) гипотезу о нормальном распределении можно проверить стандартными статистическими тестами (например, х2 - критерием).
Второй постулат. Дисперсия Y не зависит от абсолютной величины у.
Выполнимость этого постулата проверяется с помощью критериев однородности дисперсий в разных точках факторного пространства. Нарушение этого постулата недопустимо. Если однородность дисперсий все же отсутствует, то необходимо такое преобразование Y, которое делает дисперсии однородными. Часто используют логарифмическое преобразование, с которого обычно начинаются поиски.
Третий постулат. Значения факторов есть неслучайные величины. Это несколько неожиданное утверждение практически означает, что установление каждого фактора на заданный уровень и его поддержание существенно точнее, чем ошибка воспроизводимости. Нарушение этого постулата приводит к трудностям при реализации матрицы планирования.
Четвертый постулат, налагает ограничения на взаимосвязь между значениями факторов. Он выполняется автоматически в силу ортогональности матрицы планирования.
Регрессионный анализ применим, когда одна из рассматриваемых переменных не является случайной или когда линия регрессии явно не прямая.
Задачами регрессионного анализа является, установление формы зависимости между переменными, оценка функции регрессии, оценка неизвестных значений (прогноз значений) зависимой переменной.
В регрессионном анализе рассматривается односторонняя зависимость случайной зависимости переменной Y от одной (или нескольких) неслучайной независимой переменной Х, называемой часто объясняющей переменной. Такая зависимость представляется в виде модельного уравнения регрессии в силу воздействия неучтенных случайных факторов отдельные наблюдения Y отклоняются от функции регрессии (х). В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель):
Y=(х)+,
где – возмущение, характеризующее отклонение от функции регрессии. То есть в регрессионной модели зависимая переменная Y есть некоторая функция (х) с точностью до случайного возмущения .
В случае линейной функции (х) относительно оцениваемых параметров функция регрессии Y по Х:
Мx(Y)=0+1Х,
тогда линейная парная регрессионная модель имеет вид:
Yi=0+1Хi+i. (1)
Оценкой этой модели по выборке является уравнение регрессии:
Yх=b0+b1Х,
Где b0, b1 – параметры, определяемые на основе метода наименьших квадратов.
Из (1) видно, что величина доверительного интервала для функции регрессии зависит от значения объясняющей переменной х: при х=х она минимальна, а по мере удаления х от х величина доверительного интервала увеличивается. Таким образом прогноз значений (определение неизвестных значений) зависимой переменной Y по уравнению регрессии оправдан, если значение объясняющей переменной не выходит за диапазон ее значений по выборке, то есть экстраполяция кривой регрессии (ее использование) вне пределов обследованного диапазона значений объясняющей переменной может привести к значительным погрешностям.
Проверка значимости уравнения регрессии – это установление того, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных для описания зависимой переменной. Она производится на основе дисперсионного анализа.
Задача исследования зависимости одной зависимой переменной Y от нескольких объясняющих переменных Х1, Х2, …, Хn, решается с помощью множественного регрессионного анализа.
Модель множественной линейной регрессии имеет вид:
Y=0+1Xi1+2Xi2+…+рXiр+i, (2)
где Xi1, Xiр – новые объясняющие переменные.
Для обеспечения расчетных процедур и теоретических концепций анализа используют матричные обозначения. Тогда модель (2) примет вид
Y=X+, (3)
где Y – матрица столбец зависимой переменной размера n;
Х – матрица плана размера nx(p+1);
– матрица-столбец параметров размера (p+1);
– матрица-столбец случайных ошибок размера n.
Оценкой (3) по выборке является уравнение:
Y=Xb+e,
где b=(b0b1…bp);
e=(e0e1…en).
Для оценки вектора неизвестных параметров применяют метод наименьших квадратов.
Для сравнения влияния на зависимую переменную различных объясняющих переменных, имеющих разные единицы измерения, используют стандартизированные коэффициенты регрессии bj и коэффициенты эластичности Ej.
Точность управления множественной регрессии, в конечном счете определяют вариации оценок параметров, для измерения которых рассматривают так называемую ковариационную матрицу, являющуюся матричным аналогом дисперсии одной переменной.
Таблица 1 – Классификация методов обработки экспериментальных данных
Методы обработки данных |
Предпочтительные условия применимости |
Особенности метода |
Основные задачи метода |
|
1 |
2 |
3 |
4 |
|
Дисперсионный анализ |
Однофакторный |
Необходимость проверки существенности различия выборочных средних m совокупностей |
Анализ средних квадратов |
Оценка влияния различных данных на результаты эксперимента, планирование различных экспериментов |
Многофакторный |
Одновременное изучение нескольких влияния факторов |
|||
Факторный анализ |
Влияние на процесс непосредственно не наблюдавшихся факторов |
Неоднозначность определения общих факторов |
Переход от первоначальной системы большого числа взаимосвязанных факторов к относительно малому числу скрытых факторов |
|
Компонентный анализ |
Связанное между собой множество факторов |
Определенные главные компоненты объясняют всю вариацию первоначальных факторов |
Выявление главных компонент, рассмотрение регрессии на главных компонентах |
Продолжение таблицы 1
1 |
2 |
3 |
4 |
Корреляционный анализ |
Для величин заранее предсказанной линейной зависимостью, собственные колебания которых подчиняются нормальному закону |
Установление значимости (не случайности) изменения наблюдаемой случайной величины |
Выявление связи между случайными переменными и оценка ее тесноты |
5Разведочный анализ |
Определение минимального числа факторов |
Представление данных в простой форме; Связь процедур анализа с методами теории порядковых и непараметрических статистик |
Преобразование данных, способы их наглядного представления, Грубая оценка данных |
Регрессионный анализ |
Одна из рассматриваемых переменных не является случайной или линия регрессии явно не прямая |
Рассматривается односторонняя зависимость случайной зависимой переменной Y от одной независимой неслучайной переменной Х |
Установление формы и изучение зависимости между переменными |