Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МОДЕЛИР_ЛЕКЦИИ.doc
Скачиваний:
11
Добавлен:
22.08.2019
Размер:
759.3 Кб
Скачать

4.3. Регрессионный анализ: синтез уравнения регрессии

Таблица 4.1.

xi

–3

–2.5

–2

–1.5

–1

–0.5

yi

–1.92

–1.45

–0.57

0.62

0.88

2.03

Пример. Имеются экспериментальные данные (Таблица 4.1). Построить функцию, отражающую зависимость у от х, т.е её аппроксимацию. (приближение).

Если нанести точки на график и соединить их, то получим зигзагообразную линию, которая, впрочем, не слишком отличается от прямой (см. рис. 3.1). Поэтому аппроксимирующую функцию будем искать в классе многочленов первой степени, т.е. положим Y(x) = b1 x + b2. Для идентификации (нахождения) этой зависимости надо найти статистические оценки коэффициентов модели. Согласно методу наименьших квадратов (МНК) эти оценки находят из условия минимума функции

.

В данном случае на искомые коэффициенты не наложено никаких ограничений, т.е. мы имеем классическую задачу минимизации функции нескольких переменных – b1 и b2. Из курса математики известно, что для минимизации таких функций надо вычислить частные производные минимизируемой функции, приравнять их к 0 и решить полученные уравнения.

Рис. 4.1. График данных примера

Имеем:

Раскроем скобки, разобьем каждое выражение на несколько сумм и перенесем члены, зависящие от искомых коэффициентов налево, а независящие – направо.

Подставим данные из таблицы 4.1 – получим линейную систему относительно искомых коэффициентов:

Решив систему, получим b1 = 1.596; b2 = 2.725, а аппроксимирующая функция примет вид Y(x) = 1.596 x + 2.725. На рис. 3.2 приведены графики исходных данных (точки) и аппроксимирующей функции (сплошная линия).

Рис. 4.2. Графики исходных данных и аппроксимирующей функции

Описанный метод нахождения коэффициентов основан на минимизации функции Q(b 1, b 2 ), представляющую собой сумму квадратов. Поэтому он называется методом наименьших квадратов (МНК).

Матричная запись МНК. В более общем случае будем искать уравнение регрессии в виде функции, линейно зависящей от коэффициентов, т.е.

у = b1 f1(x) + … + bk fk(x), (4.1)

где fu(x) – заданные функции; bu – неизвестные коэффициенты. Для идентификации этой зависимости надо найти статистические оценки коэффициентов модели. Согласно методу наименьших квадратов (МНК) эти оценки находят из условия минимума функции

Q(b) = ,

где уi – наблюдаемое значение выходного параметра в i-м эксперименте.

Обозначим: Ф = [Фij] = [fj(xi)] – регрессионная (N  k)-матрица; b – вектор коэффициентов; у – вектор значений выхода. Тогда для вектора оценок коэффициентов имеем уравнение

T Ф) = ФT y. (4.2)

Значит

= (ФT Ф)–1 ФT y. (4.3)

4.4. Проверка статистических гипотез

Def. Статистическая гипотеза – некое суждение о свойствах случайной величины. Проверка статистической гипотезы – процедура сопоставления выбранной гипотезы с имеющимися экспериментальными данными, сопровождаемая количественной оценкой степени достоверности полученного вывода.

Пример 4.1. Согласно паспортным данным автомобильного двигателя, расход топлива на 100 км должен составить 10 л. Испытано 25 машин. Средний расход топлива составил = 9.3 л. Известно, что расход топлива – СВ Х с известной дисперсией 2 = 4 л2. Проверить гипотезу: mx = 10 л.

Обозначим Н0 – выдвигаемая гипотеза. Идея проверки состоит в вычислении по результатам эксперимента некоторой статистики К = К(Х1, …, ХN) – статистического критерия, обладающего следующим свойством: если гипотеза Н0 верна, то случайная величина К имеет строго определенный закон распределения. Чтобы проверить, справедлив ли в действительности этот закон, вся область V значений критерия разбивается на две части: VКРкритическая область (область отклонения гипотезы) и V \VКРобласть принятия гипотезы. Если в результате эксперимента событие (K  VКР) не выполнится, то гипотезу следует принять. В противном случае ее надо отвергнуть Для построения критической области введем понятия ошибок I и II рода.

Def. Ошибка I рода состоит в отклонении верной гипотезы. Ошибка II рода состоит в принятии неверной гипотезы.

Чтобы понять разницу между этими понятиями – обратимся к примеру.

Пример. Система ПВО засекла летящий самолет. Гипотеза Н0 – самолет вражеский. В данном примере ошибка I рода состоит в том, что при верной гипотезе она была отвергнута, и вражеский самолет пропустили на свою территорию. Ошибка II рода – гипотеза была неверна, но ее приняли, в результате чего был сбит свой самолет. Приведенный пример, в частности демонстрирует, что, как правило, цена ошибок I и II рода различна.

В принятых обозначениях PI = P(KVКР / Н0) =  – вероятность ошибки I рода; PII = P(KV \VКР /  Н0) =  – вероятность ошибки II рода. (Символ  Н0 означает, что  Н0 не верна, наклонная черта / означает «при условии», а всё выражение (KV \VКР /  Н0) читается так: К принадлежит области V \VКР при условии, что Н0 не верна.

Принцип выбора VКР: при заданном уровне PI =  вероятность ошибки II рода должна быть минимальна (  min или 1–  mах).

Величина  называется уровнем значимости, она равна максимально допустимому значению вероятности ошибки I рода. В технических задачах обычно полагают  = 0,05. Величина 1 –  называется доверительной вероятностью.

Законы распределения статистических критериев могут быть различны. В настоящее время для всех употребляемых законов разработаны специальные методы построения критических областей. Их границы определяются по статистическим таблицам, а при использовании программ статистического моделирования применяются встроенные функции. Например, если критерий распределён нормально, то в Excel используется функция НОРМОБР(р; а; ), где р – заданная доверительная вероятность, а и  – параметры нормального распределения (см. Примеры основных законов распределения непрерывных СВ).

Проверим гипотезу примера 4.1 при  = 0.05. В качестве статистического критерия примем . При нормальном распределении СВ Х с параметрами mx = 10, D[X] = 2 выбранный критерий К распределен нормально с параметрами mК = 0, D[K] = 1. Тогда критическая область имеет вид:

VКР = (– ; НОРМОБР(1– ; 0 ; 1)) = (– , – 1.645).

Расчетное значение критерия КВЫЧ при = 9.3 л составит КВЫЧ = – 1.75 , т.е. попадает в критическую область (– , – 1.645). Следовательно, основная гипотеза должна быть отвергнута.

Резюме: технология проверки статистических гипотез

1. Проводится серия экспериментов для получения статистического материала.

2. По полученным данным выдвигается статистическая гипотеза.

3. Задаётся уровень значимости , определяется тип выдвинутой гипотезы и соответствующий статистический критерий К. По виду гипотезы и значению  определяется критическая область VКР.

4. По экспериментальным данным вычисляется значение КВЫЧ.

5. Если КВЫЧ попадает в VКР, то основная гипотеза отвергается, в противном случае – принимается.