Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Конспект лекций по математике для студентов инженерно-технических специальностей. В 4 ч. Ч. 4

.pdf
Скачиваний:
5
Добавлен:
24.11.2025
Размер:
1.02 Mб
Скачать

В формуле (21.29) pi(H ) – вероятности попадания СВ в интервал Ii , определяемые плотностью распределения вероятностей fξ(H )(x) (выборочные частоты нi n

определены в 21.1). Выбор меры отклонения (21.4) обусловлен тем, что в пределе n → ∞ распределение СВ ч2n , во-первых, не зависит от принимаемой гипотезы fξ(H )(x), и, во-вторых, оно известно: это распределение kN 1 (x) Пирсона с числом степеней свободы N 1. Далее рассуждения проводятся так же, как и в 21.4. Если

функция fξ(H )(x)

“угадана”, то есть, если

fξ(H )(x)fξ (x), то вероятность больших

значений СВ ч2

мала, так как при n → ∞ относительные частоты н

n близки (по

n

 

 

 

i

 

 

вероятности) к вероятностям pi(H ) . Принимаем, что большие отклонения чn2

ч2N 1 ,

вероятность которых меньше заданного очень малого числа

α <<1,

нереализуемы. Если же по реализации выборки такое отклонение

 

 

 

N 1

((n

 

n)p(H ) )2

 

(21.30)

 

X n2 = n

 

i

(H ) i

 

 

i=0

 

 

pi

 

 

получено, то гипотеза H должна быть отвергнута. Критическая граница χ12−α, N 1

для отклонения

X n2 , соответствующая

уровню значимости α,

определяется

уравнением

 

 

 

 

 

 

 

P(чn2 ч12б, N 1 )=

kN 1 (x)dx = б.

 

(21.31)

 

 

 

 

ч2

 

 

 

 

 

 

1б, N 1

 

 

Проверим с уровнем значимости α = 0.05 гипотезу о том, что 2 выборки объемом n =100 и n =1000 , приведенные в примере 21.2, принадлежат нормальному распределению с параметрами a = 0 , σ =1. При построении гистограммы для первой выборки ( n =100 ) данные были сгруппированы в 10 интервалов, следовательно число степеней свободы равно 9. Из таблицы находим значение для критической границы ч02.95, 9 =16.9 . По формуле (21.30) вычисляем величину

111

X1002 =12.0899 . Поскольку X n2 < ч02.95, 9 , гипотеза

о принадлежности первой

выборки нормальному распределению N(0,1) принимается. Для выборки объемом

n =1000 , сгруппированной в 26 интервалов, ч02.95, 25

= 37.7 и

X1002 = 22.5238 . И в

данном случае гипотеза о нормальном распределении N(0,1)

подтверждается. На

рисунках 21.5(a), 21.5(b) представлены соответствующие гистограммы вместе с графиком принятой по гипотезе плотности распределения вероятностей.

0.5

f

*(x),

f (H)(x)

 

 

 

(a)

 

n

 

ξ

 

 

 

0.4

 

 

 

 

 

 

 

0.3

 

 

 

 

 

 

 

0.2

 

 

 

 

 

 

 

0.1

 

 

 

 

 

 

 

0.0

-3

-2

-1

0 x

1

2

3

 

0.5

f *(x),

f (H)(x)

 

 

 

 

 

n

 

ξ

 

 

 

 

0.4

 

 

 

 

 

 

 

0.3

 

 

 

 

 

 

 

0.2

 

 

 

 

 

 

 

0.1

 

 

 

 

 

 

 

0.0

-3

-2

-1

0 x

1

2

3

 

Рис. 21.5. a, b Гистограммы, построенные для выборок объемом 100 (a) и 1000 (b),

ифункция нормального распределения N(0,1).

21.5.Регрессионный анализ

Модели регрессии

Одной из важнейших задач математической статистики является задача о нахождении связи между двумя случайными величинами X и Y. Во многих случаях одна из двух величин может быть и неслучайной. Предположим, что функциональная зависимость между переменными, называемая моделью, известна из предварительных сведений с точностью до параметров и1 ,...,иk и имеет вид

yi = f (xi 1 ,...,иk ), i =

 

.

(21.32)

1,n

112

Требуется по результатам наблюдений (xi , yi ), i =1, 2,...,n , найти оценки неизвестных параметров и1 ,...,иk . Модель в простейшем линейном случае имеет вид,

т. е.

k

 

yi = и0 + иi xi, j , j =1,n ,

(21.33)

i=1

где xi – неслучайные аргументы, а у – случайная величина. Таким образом, здесь аргументы xi определяют у лишь в среднем, оставляя просторы для случайных колебаний.

Ситуация, в которой экспериментатор может выбирать значения аргументов xi по своему желанию и таким образом планировать будущие эксперименты,

называется активным экспериментом. В этом случае значения аргументов xi

обычно рассматриваются как неслучайные. В отличие от этой ситуации в пассивном эксперименте значения переменных xi , складываются вне воли экспериментатора,

под действием других обстоятельств. Поэтому значения xi приходится толковать как случайные величины, что накладывает особые черты на интерпретацию результатов.

Итак, в регрессионном анализе предполагается, что можно прямо или косвенно контролировать одну или несколько независимых переменных x1 ,..., xn и

их значения вместе с множеством параметров и1 ,...,иk определяют математическое ожидание зависимой переменной Y. Задача состоит в вычислении оценок параметров с помощью выборочных данных.

Возникает вопрос, почему представляет интерес регрессия? Очень часто применение регрессии связано с необходимостью оценить (или предсказать) среднее значение Y при конкретных значениях переменных xi . Иногда требуется установить определенную функциональную связь между xi и математическим ожиданием Y . В общем случае какая-нибудь форма функциональной связи является полезным источником информации о зависимости переменной Y от xi .

113

При попытках аппроксимировать данные кривой или поверхностью сначала предполагается существование функциональной зависимости определенного вида. С помощью данных и соответствующих математических вычислений находят оценки параметров, дающие наилучшее приближение согласно какомулибо критерию. Можно выяснить, насколько хороша данная зависимость, но не исключено, что удастся получить лучшую, выбрав другую функцию и другой критерий.

Здесь стоит подчеркнуть одно существенное обстоятельство. Имея в своем распоряжении компьютер, сравнительно легко перебрать большое количество разных функций, аппроксимирующих данные. Это сильное искушение, так как можно без конца перебирать комбинации и преобразования данных, надеясь получить идеальный вариант. Совершенно неправильно считать, что найденное уравнение будет наилучшим только потому, что оно дает хорошее приближение, если оно нисколько не соответствует реальным физическим или техническим связям. В любой регрессионной задаче в первую очередь следует рассматривать физически обоснованную конкретную функциональную форму независимо от того, была ли она получена с помощью аналитических выводов или благодаря какому-нибудь иному предварительному знанию свойств переменных. Вполне возможно, что для аппроксимации этой функции понадобятся другие функциональные связи.

В последнее время регрессионный анализ – очень бурно развивающаяся отрасль вычислительной математики. Благодаря этому возникло целое направление, связанное с решением плохо обусловленных задач. Появилось огромное число подходов, алгоритмов и программ, позволяющих в этих нелегких условиях более или менее рационально организовывать вычислительные процедуры.

При оценивании параметров регрессий приходится прибегать к поисковым методам, имеющим итеративный характер. Для их реализации написаны многочисленные программы, развитие которых вылилось в метод всех возможных

114

регрессий, а затем в шаговый регрессионный анализ. При этом необходимо отметить несколько тенденций, определяющих методы и темпы развития регрессионного анализа.

Первая тенденция заключается в пересмотре довольно жестких базовых предпосылок классического регрессионного анализа. Это касается таких предположений, как нормальность распределения ошибок, однородность, независимость и т. п. Отказ хотя бы от одного из перечисленных предположений фактически приводит к созданию новой модели.

Вторая тенденция состоит в вовлечении в регрессионный анализ более тонких математических методов, таких как функциональный анализ, теория групп, обобщение регрессионной задачи на бесконечномерные пространства.

Третья тенденция – обращение ко все более сложным объектам исследования. Речь может идти о моделях в форме обыкновенных дифференциальных уравнений, интегро-дифференциальных уравнений, уравнений математической физики.

Наконец, четвертая тенденция – одновременный выбор модели и метода оценивания, итеративная обработка результатов и адаптация модели и метода оценивания друг к другу.

Рассмотрим сначала простейшую регрессионную задачу: построим уравнение линейной регрессии в рамках гауссовской модели наблюдений.

Пусть имеется п парных наблюдений (xi , yi ), i =1, 2,..., n , причем примем,

что переменная х – регрессор – неслучайна и измеряется без ошибок. Если при этом есть признаки связи между наблюдениями, то обычно исследователь спешит построить некоторую кривую, чаще всего прямую линию, связывающую все эти наблюдения. Для нахождения параметров уравнения регрессии обычно используется метод наименьших квадратов или метод максимального правдоподобия. Метод наименьших квадратов при оценке параметров регрессии не требует никаких предположений о нормальности распределения ошибок, но

115

они становятся необходимыми при построении доверительных интервалов и для проверки гипотез о значениях параметров уравнения регрессии.

Рассмотрим одномерную линейную модель вида

yi = б + вxi + еi , i =

 

,

(21.34)

1,n

где еi – ошибки измерений переменной у предполагаются независимыми случайными величинами, распределенными нормально: еi N(0, Dе ).

 

 

 

Наша задача состоит в том, чтобы по наблюдениям найти оценки a = α,

 

 

b =в

и s2 = D для параметров α, β, D соответственно.

 

Перечислим еще раз все явные и неявные предположения, принимаемые в

рамках модели наблюдений. От их выполнения зависит качество получаемых оценок и возможность применения к ним процедур статистического анализа.

1.Значения х задаются или измеряются без ошибок.

2.Регрессия Y на X линейна, т. е. M (Y X )= б + вx .

3.Отклонения yi M (Yxi ) взаимно независимы.

4.Эти отклонения имеют одну и ту же дисперсию D, точное значение которой неизвестно, при всех х. Это свойство называется гомоскедастичностью, а сами дисперсии – гомоскедастичными.

5.Отклонения распределены по нормальному закону.

6.Данные действительно были взяты из совокупности, относительно которой должны быть сделаны выводы.

7.Не было посторонних переменных, существенно уменьшающих

значения связи между X и Y .

Полезно отметить последствия невыполнения некоторых предположений. Невыполнение третьего предположения может существенно повлиять на характеристики применяемых статистических методов из-за не учета зависимости между переменными, представляющими измерения над разными объектами. Хотя

116

отклонения от нормальности встречаются довольно часто, они имеют значение, только если очень значительны. Отсутствие гомоскедастичности приводит к тому, что метод наименьших квадратов не гарантирует минимальных дисперсий оценок. Невыполнение последних двух предположений также имеет принципиальное значение. Если они нарушены, полезность проведенного исследования незначительна.

21.6. Оценка параметров линейной одномерной регрессии

Оценка параметров линейной регрессии методом наименьших квадратов (МНК)

Перепишем уравнение регрессии в другом виде

 

 

 

 

y = б + в(x

 

),

(21.35)

 

 

 

 

x

 

 

 

1

n

 

где

x

=

xi . Эта прямая называется теоретической линией

регрессии или

 

 

 

n i=1

 

прямой отклика. Уравнение

 

 

 

 

 

 

 

)

 

 

 

 

 

y = a + b(x

x

(21.36)

определяет кривую, которая является оценкой для прямой регрессии.

Суть метода наименьших квадратов состоит в выборе таких оценок a и b , которые бы минимизировали сумму квадратов отклонений наблюденных

 

 

 

 

 

 

 

 

значений yi от прогнозируемых величин yi

, полученных подстановкой значений

n

 

 

2

n

 

 

2

xi в уравнение (21.33), т. е. R = yi

yi

 

= yi

a b xi

x

min . Чтобы

i=1

 

 

 

i=1

 

 

 

найти значения a и b , минимизирующие R,

продифференцируем эту функцию по

a и b и приравняем производные нулю:

 

 

 

 

 

 

117

 

 

 

 

 

 

R

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a

= −2

yi a

b xi

x

= 0,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R

= −2[yi

a b(xi x)](xi x)= 0.

 

 

 

 

 

 

 

b

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Раскроем здесь члены под знаком суммы:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

n

 

 

 

)= 0 ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi

 

a b(xi

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i =1

 

 

 

 

 

 

 

 

 

i =1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

yi (xi

 

 

)an (xi

 

 

)bn (xi

 

)2

= 0.

 

 

 

 

 

 

 

x

x

x

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

n

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Но (xi

x

)= xi

x

= n

x

n

x

= 0 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

i=1

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

n

(xi

 

 

 

)2

 

n

 

 

 

 

 

)yi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тогда

nayi ,

b

x

=

(xi

 

x

. Отсюда

легко

получить оценки

 

 

 

i=1

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

параметров a и b :

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n (xi

 

 

)yi

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

n

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

a = б =

 

yi = y, b =в =

i=1

 

 

 

 

 

.

(21.37)

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(xi

x

)2

 

 

i=1

Вторую оценку часто видоизменяют и переписывают в следующем виде

n (xi x)yi = n (xi x)yi yn (xi x)= n (xi x)yi n (xi x)y =

i=1

i=1

i=1

i=1

i=1

=n (xi x)(yi y).

i=1

118

Тогда

n [(xi x)(yi y)]

 

 

b = i=1

n (xi x)2

.

(21.38)

i=1

Рассмотрим теперь свойства полученных оценок. Они являются несмещенными, состоятельными и эффективными в классе линейных (относительно наблюдений) оценок. Действительно,

1

n

 

1 n

 

 

 

 

 

1

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

+в(xi x)

+ еi )=

бn +

 

 

 

 

 

M (a)= M

yi =

 

 

 

M (yi )=

 

M (б

n

в(xi x)

= б

n i=1

 

n i=1

 

 

 

 

 

n i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

n (xi

 

 

)yi

 

n (xi

 

 

 

)2 M (yi )

 

n ((xi

 

)M (б + в(xi

 

)+ еi ))

 

 

x

x

x

x

 

M (b)= M

i=1

 

 

 

 

 

 

 

=

 

i=1

 

 

 

 

 

 

 

 

 

 

 

=

i=1

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n (xi

 

)2

 

 

n (xi

 

)2

 

 

 

 

 

 

 

 

 

 

 

n (xi

 

)2

 

 

 

 

 

 

 

 

x

x

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n (xi

 

 

)

 

 

 

n (xi

 

)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= б

 

x

+ в

x

 

=в.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n (xi

 

 

 

)2

 

n (xi

 

)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Здесь

учтено,

 

что

 

 

переменные

 

xi

неслучайные,

а yi

случайные

величины. Кроме того, математическое ожидание

yi

есть теоретическая линия

регрессии (21.35).

 

 

 

 

 

 

 

 

 

 

 

Найдем теперь дисперсии оценок a и b в предположении, что наблюдения

yi , независимы и нормально

 

распределены,

причем D(yi )= D = у2

(предположения 21.34, 21.35 и 21.36 предыдущего раздела). Имеем:

1

n

 

1

n

 

D

 

D

 

D(a)= D

yi

=

 

 

D(yi )

=

 

 

n =

 

,

n

2

n

2

n

n i=1

 

 

i=1

 

 

 

 

119

n (xi

 

 

)yi

 

 

 

 

 

 

 

 

 

 

 

 

n (xi

 

 

)2 D

 

 

 

 

 

 

x

 

 

 

1

 

 

 

 

n

 

2

 

x

 

D

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

D(b)= D

 

 

 

 

 

 

=

 

 

 

 

 

 

 

(xi x)D(yi

)=

 

 

 

 

 

 

 

=

 

 

 

 

.

n

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

2

n

 

 

 

 

(xi

x

)2

 

 

n

(xi

 

)2

 

 

i=1

 

 

 

n (xi

 

)2

 

 

 

(xi

x

)2

 

x

 

 

 

x

 

 

 

 

i=1

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

i=1

 

 

 

 

Состоятельность оценок a и b немедленно следует после применения к ним неравенства Чебышева. Например, для оценки a получим

P(a б е)Dе(2a)= nDе2 .

Отсюда lim P(a б е)= 0 .

n→∞

В общем случае доказательство того, что метод наименьших квадратов дает оценки с наименьшей дисперсией в классе всех несмещенных линейных оценок, довольно сложно. Приведем его для оценки b параметра в. Предположим, что существует еще одна линейная оценка bпараметра в, отличная от оценки b и

n

пусть, например, b′ = ci yi . Очевидно, что

i=1

M (b)= n ci M (yi )= n ci (б + в(xi x))= бn ci + вn (xi x)ci .

i=1

i=1

i=1

i=1

Оценка bбудет несмещенной, если M {b) =в, т. е.

n

 

ci

= 0,

n

(21.39)

i=1

 

(x x)c =1.

i=1 i i

В этих условиях

120

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]