Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЭММиМ_5.doc
Скачиваний:
11
Добавлен:
14.08.2019
Размер:
1.01 Mб
Скачать

2.4. Качество линейной модели эмпирической зависимости

Качество парной линейной аппроксимации понимается как совокупность ее свойств и показателей, которые определяют соответствие подобранной модели с неизвестной, но объективно существующей истинной парной линейной зависимостью, и доверительные границы такого соответствия.

Реальность линейной связи и ее теснота могут быть оценены еще до построения линейной модели, но большинство свойств, определяющих ее качество, выясняется после определения параметров модели.

Параметры модели находятся из эмпирических данных, содержащих случайную составляющую, поэтому оценки параметров являются случайными величинами, рассеянными в некоторых доверительных границах, что имеет своими следствиями:

– вероятностный характер выбора линейной модели и ее конкретной формы модели (2.1, 2.2, 2.3, 2.4 или 2.5), определяемый значимостью (отличием от нуля) оценок параметров;

– «случайность» уравнения прямой, которой отвечает пучок прямых (графиков модели) в плоскости x0y, для выбранной формы линейной модели;

–рост рассеяния прогнозных оценок, включающих случайные колебания модели.

Таким образом, оценки параметров линейной модели, ее уравнение и прогнозные оценки зависимой переменной являются случайными величинами, рассеянными в некоторых доверительных интервалах, заданных с каким-то доверительным уровнем (вероятностью).

При часто встречающемся распределении случайной составляющей зависимой переменной y по нормальному закону и детерминированной независимой переменной х максимально правдоподобное приближение достигается методом наименьших квадратов (2.45), и модель строится в виде регрессии, то есть зависимости условных средних зависимой переменной y от независимой переменной х.

2.4.1. Значимость и доверительные интервалы параметров регрессии

Общее уравнение линейной регрессии, исходя из линейной модели (2.1), это

y = x + , (2.55)

где и – оценки неизвестных истинных коэффициентов (параметров) а и b.

1. Сдвиг начала отсчета по оси абсцисс на среднее позволяет перейти от исходных значений хi к хoi = хi - , что упрощает дальнейшие математические выкладки. При этом

. (2.56)

Для преобразованной независимой переменной хoi выполняется условие

= 0. (2.57)

Уравнение регрессии (2.55) с преобразованной переменной хo имеет вид

y = xo + , (2.58)

где угловой коэффициент прежний, а свободный член сдвинут:

= + . (2.59)

2. Оценка параметров и методом наименьших квадратов выполняется из условия минимума суммы

 min. (2.60)

Неизвестные параметры и , выражаются аналогично решениям (2.21) и (2.22):

; . (2.61)

3. Случайные отклонения выборочных параметров регрессии вызываются тем, что исходные данные, осложнены влиянием случайной составляющей. Формулы (2.61) определяют оценки истинных параметров а и b. Связь (2.58) для каждой i-й пары переменных:

уi = ахoi + b + I, (2.62)

где i – случайные расхождения фактических данных и линейной регрессии с неизвестными истинными значениями параметров.

Предполагается, что случайные отклонения i подчинены нормальному закону с математическим ожиданием M(i) = 0 и дисперсией D(i) = D2.

Разница оценок (2.61) и истинных коэффициентов a и b обнаруживается при подстановке в выражения (2.61) значений уi (2.62) c учетом суммы (2.57):

; (2.63)

. (2.64)

4. Дисперсия оценки углового коэффициента (2.63) определяется вторым слагаемым, поскольку дисперсия истинного коэффициента а, отсутствует (равна нулю).

Следовательно, дисперсия оценки углового коэффициента D( ), исходя из второго слагаемого (2.64), в котором хoi – величина постоянная, составляет:

. (2.65)

5. Дисперсия оценки свободного члена (2.64) также определяется вторым слагаемым, поскольку дисперсия истинного коэффициента b отсутствует (равна нулю):

. (2.66)

В программных средствах оценки коэффициентов линейной регрессии выводятся как и для ее уравнения в форме (2.60) при непосредственном использовании независимой переменной х (без ее смещения на ). При этом формула (2.65) для дисперсии D( ), очевидно, правильна, а дисперсия D( ) отличается от приведенной в формуле (2.66).

Дисперсия D( ) в выражении (2.66) состоит из дисперсий

D( ) = D( ) + 2D( ) = + = =

= . (2.67)

6. Дисперсии D( ) и D( ) прямо зависят от разброса ординат и обратно – от разброса абсцисс исходных данных.

Действительно найденные дисперсии (2.65), (2.66) и (2.67) оценок коэффициентов регрессии прямо пропорциональны D2, то есть рассеянию ординат исходных данных относительно линии регрессии.

Если рассеяния нет (D2 = 0), все точки концентрируются на линии регрессии (рис. 2.2 В), то вариации оценок коэффициентов отсутствуют.

Знаменатель выражений дисперсий (2.65) и (2.67) представляет собой сумму квадратов отклонений хoi = хi - . При оценке регрессии на широком диапазоне исходных значений независимой переменной сумма велика, а дисперсии малы.

Точность регрессии тем выше, чем менее относительно линии регрессии рассеяны исходные данные, и чем более широкий диапазон охватывают их абсциссы.

7. Доверительные интервалы коэффициентов регрессии при достаточном объеме выборки (n > 30) и нормальном распределении оценок коэффициентов регрессии с дисперсиями (2.66) и (2.67) с вероятностью около 95% находятся в пределах удвоенных стандартов рассеяния оценок коэффициентов и составляют

и , (2.68)

Если объем выборки менее 30, то доверительные интервалы выборочных коэффициентов регрессии оценивается по t-распределению Стьюдента с n – 2 степенями свободы. Для этого находится допустимое табулированное отклонение величины t с задаваемой высокой вероятностью (например, 0,99) при n – 2 степенях свободы. Доверительные интервалы оценок коэффициентов регрессии, соответствующие t, определяется как

и . (2.69)

8. Задачи оценки значимости выборочных коэффициентов регрессии состоят в проверке нулевых гипотез об их равенстве нулю и являются обратными по отношению к задачам определения доверительных интервалов (2.70).

Если выборка достаточно велика (n > 30), то при величине оценок коэффициентов меньше удвоенного стандарта оценок с вероятностью ошибки не более 5% можно принять нулевую гипотезу о равенстве нулю истинных значений коэффициентов (отсутствия их значимости), то есть:

  1. a = 0 при ;

  2. b = 0 при .

Если объем выборки менее 30, то решения сводятся к вычислениям

ta = и (2.70)

и определению табулированной вероятности для ta и tb с n – 2 степенями свободы. Если вероятность превышает критический уровень, то нулевая гипотеза отклоняется. Так, при n = 20 с вероятностью ошибки не выше 5% можно принять нулевую гипотезу о равенстве нулю истинного значения коэффициента a (его незначимости), если величина ta < 2,1.

Оценка значимости выборочного коэффициента регрессии возможна также путем построения и проверки нулевой гипотезы на основе F-распределения Фишера для отношения нормированных оценок дисперсий.

Вообще, Р. Фишер нашел в 1924 г. распределение отношений логарифмов, а распределение отношений самих дисперсий предложил в 1937 г. Снедекор (G.W. Snedekor). Однако за распределением осталось имя Фишера, иногда именуемое распределением Фишера-Снедекора или просто Снедекора.

При этом рассматривается отношение не выборочных дисперсий D1 / D2, а их нормированных значений (деленных на истинные значения самих дисперсий D01 и D02, вообще говоря, неизвестных)

(D1 / D01) / (D2 / D02) = (D1 / D2) / (D02 / D01). (2.71)

Проверяемая нулевая гипотеза состоит в проверке равенства D02 = D01, при этом условии отношение (2.71) можно представить как

(D1 / D01) / (D2 / D02)(D1 / D2). (2.72)

Исходя из этого, оценка значимости выборочного коэффициента регрессии может состоять в том, что при истинной величине углового коэффициента a  0 проверяемое значение выборочного коэффициента рассматривается как случайное отклонение от нулевого математического ожидания и оценка стандарта . Тогда 2 – приближенная оценка дисперсии с одной степенью свободы и нормированной величиной

2 / D( )  1, (2.73)

где дисперсия D( ) имеет n – 2 степеней свободы.

Если угловой коэффициент a  0, наклон графика линейной зависимости (рис.2.2 Б) уменьшается (ее график совпадает с графиком средних значений), отклонения относительно этих линий становятся одинаковыми, соответственно D2 и нормированная величина

D2 /  1. (2.74)

С учетом этого, вместо строгого отношения

( / D( )) / (D2 / )  1, (2.75)

при a  0 нулевая гипотеза о его отклонении от 1 проверяется для отношения дисперсий (2.73) с одной и n – 2 степенями свободы.

Другой подход к оценке значимости углового коэффициента состоит в анализе его вклада в повышение точности приближения. Уравнение прямой, для которой рассматривается значимость углового коэффициента, отвечает двум первым членам степенного ряда:

у = b + ax + cx2 + … (2.76)

Прибавление к первому каждого следующего члена (с ненулевым коэффициентом при более высокой степени) обосновано, если при этом значимо уменьшается рассеяние точек относительно линии регрессии, то есть повышается точность приближения.

Применительно к линейной зависимости речь идет об обоснованности прибавления к первому приближению y = b следующего члена ax. Для первого приближению с одним первым членом b рассеяние равно просто дисперсии (2.30), при добавлении следующего члена ax рассеяние определяется дисперсией D2 (2.34). Нулевая гипотеза состоит в равенстве этих дисперсий (отсутствии значимого уменьшения D2 по сравнению с ). При выполнении нулевой гипотезы делается вывод о том, что выборочный угловой коэффициент близок к нулю. Практически находится вероятности F-отношения для этих дисперсий с n – 2 и n – 1 степенями свободы. Если вероятность не превышает критический уровень, то выборочный угловой коэффициент принимается равным нулю и принимается модель (2.2).

В тоже время отклонение углового коэффициента не исключает нелинейного приближения (2.76) с членами более высокого порядка.