Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебн. пособия-ОНИ / 1. Данько В.М._Алчевск-06

.pdf
Скачиваний:
132
Добавлен:
18.05.2015
Размер:
606.4 Кб
Скачать

Идею проверки рассмотрим на примере. Пусть требуется проверить гипотезу:

Н0: μ(х) = 0 Н1: μ(х) > 0

По выборочным данным x = 0,12 . Это еще не опровергает Н0,

т.к. выборочное значение статистики θ является всего лишь одним из возможных значений случайной величины θ , порождаемой различны-

ми выборками. Возникает вопрос: насколько сильно должно θ отли-

чаться от θ , чтобы можно было принять Н1(и т.о. отбросить Н0)? Поскольку речь идет о выборочном среднем, то при рассмотре-

нии этого вопроса нужно использовать распределение Стьюдента. Зная объем выборки N, следовательно ЧСС, можно построить

распределение Стьюдента для данного ν (рис.11.1): p(t)

 

 

 

 

q

 

1-q

 

 

t

 

 

 

 

 

 

 

 

 

0

t1^< tν,α=q <t2^

Рисунок 11.1 – Критическая область t-распределения

При этом следует помнить, что t-распределение справедливо только при нормальном распределении случайной величины х, выборки из генеральной совокупности которой образовали это распределе-

81

ние.

По распределению можно судить о том, какова вероятность того, что значение среднего будет иметь ту или иную величину. Для этого следует вычислить теоретическое значение t-критерия

tνт =

х

 

.

 

 

σ(x)/ N

Затем можно вычислить вероятность того, что случайная вели-

чина t может принять значение, большее tтν

p (t > tтν )= +∞ò p(t)dt .

tтν

Если эта вероятность больше некоторого достаточно малого числа q, называемого уровнем значимости, то есть основания сомневаться в справедливости нулевой гипотезы.

На практике решается обратная задача: по заданной доверитель-

ной вероятности р определяется то теоретическое значение tтν , за пре-

делы которого с заданной вероятностью не может выйти x любой выборки. Теоретические значения t-критерия при заданных ν и р затабулированы и поэтому называются табличными. Затем вычисляется эм-

пирическое значение t-критерия по выборочным данным

 

 

 

 

=

x m

0

.

 

 

 

 

 

 

t

 

 

 

 

 

 

 

 

 

s(x)/ N

 

Оно сравнивается с

табличным значением, делящим

t-

распределение на две области: область принятия Н0 (если

 

< tνт )

и

t

критическую область (если

 

>

tνт ). Если

 

< tνт , то принимается Н0.

t

t

 

 

 

 

82

 

 

 

 

 

 

 

Критическая область состоит из всех тех значений статистики, при которых принимается решение отвергнуть Н0 как ложную. Поскольку такие решения базируются на статистиках, найденных по выборкам ограниченного объема, то всегда есть вероятность совершить ошибку одного из следующих типов:

Прове-

Объективно верна

Объективно неверна

ряемая

 

 

гипотеза

 

 

 

 

 

Н0 принимается

Правильное решение

Ошибка ІІ-го рода

Н0 отвергается

Ошибка І-го рода

Правильное решение

Вероятность совершить ошибку первого рода называется уровнем значимости критерия q.

Вероятность совершить ошибку ІІ-го рода обозначается β. Она зависит от мощности критерия, представляющей вероятность отбрасывания неверной гипотезы и равной 1-β. При построении статистических критериев стараются минимизировать суммарную ошибку обоих родов. При любом постоянном объеме выборки вероятность ошибки І- го рода можно уменьшить, уменьшая уровень значимости q. Однако при этом растет вероятность допустить ошибку ІІ-го рода, т.е. падает мощность критерия. Единственный выход из этой противоречивой ситуации, позволяющий одновременно уменьшить q и β – увеличить N.

Выбор уровня значимости q при проверке гипотез производится из тех же соображений, что и выбор доверительной вероятности р при интервальном оценивании, т.к. q = 1. Поэтому q: 0,1(10%); 0,05,(5%); 0,01(1%) и т.д.

Вид критической области полностью зависит от вида Н1. Если

83

Н0: θ = m0 противостоит Н1: θ ≠ m0 , то критерий для проверки Н0

будет двухсторонним. Его критическая область состоит из двух частей. Например, для t-критерия (рис.11.2):

p(t)

q/2

 

 

1-q

 

 

q/2

t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

tν,α=q / 2

0

tν,α=q / 2

Рисунок 11.2 – Двухсторонняя критическая область

Границы критической области обычно выбирают так, чтобы вероятность попадания в левую и правую части были одинаковыми и равными q/2. Поэтому уровень значимости уменьшается вдвое.

Если же Н0: θ = m0 противостоит Н1: θ > m0 (или Н1: θ < m0), то соответствующий критерий для проверки будет односторонним и его критическая область будет состоять из одной части (рис.11.1).

Двухсторонний критерий всегда имеет меньшую мощность, чем односторонний. Поэтому нужно всегда, если есть такая возможность, отдавать предпочтение односторонним критериям.

84

ТЕМА 3. ОСНОВЫ КОРРЕЛЯЦИОННОГО И РЕГРЕССИОННОГО АНАЛИЗОВ

Лекция № 12 12.1 Корреляция и регрессия

Вспомним, что зависимости называются вероятностными или стохастическими, если каждому набору факторов хi соответствует множество значений откликов у, случайным образом рассеянных вокруг среднего значения. Все стохастические зависимости подразделяются на корреляционные и регрессионные. Однако эта терминология не является вполне однозначной: часто, особенности среди не профессионалов, корреляцией называют всякую вероятностную зависимость, не имеющую функционального характера. Однако более узкое и более точное определение корреляции таково:

Корреляция – это двухсторонняя стохастическая зависимость между несколькими величинами, каждая из которых изменяется случайным образом.

Например, количество брака на производстве, будучи величиной случайной, зависит от качества исходного сырья, которое также меняется случайным образом. Но, в то же время, количество брака однозначно не зависит от качества сырья, т.к. на него влияет множество других производственных факторов: состояние оборудования, профессиональная подготовка персонала, система управления и т.д. Количество брака и качество сырья связаны только корреляционно.

На графике корреляционная зависимость выглядит в виде облака рассеивания (рис.12.1).

85

y

х

Рисунок 12.1− Корреляционная зависимость

Чем уже облако, тем ближе корреляционная зависимость к функциональной; чем оно шире – тем слабее причинная связь между переменными и в пределе, когда точки случайно рассеяны по плоскости графика, всякая причинная связь отсутствует.

Корреляционным анализом называется задача изучения зависимостей между величинами, каждая из которых подвержена случайному рассеиванию.

Врезультате корреляционного анализа:

1.Устанавливается степень тесноты связи между рассматриваемыми случайными величинами. Количественно теснота связи оценивается корреляционным отношением η или коэффициентом корреляции ρ.

2.Обнаруживаются ранее неизвестные причинные связи между явлениями, поскольку устанавливается степень достоверности суждений о наличии таких связей.

Различают линейную и нелинейную, прямую и обратную, непосредственную и косвенную корреляции. Считается, что бывает также ложная корреляция, когда формально степень связи между случай-

86

ными величинами велика, а причинной связи между ними нет.

Термин «корреляция» введен

английским

ученым

Ф.Гальтоном (от позднелатинского correlatio – соотношение).

Регрессия – зависимость среднего значения случайной величины от одной или нескольких не случайных величин.

Регрессию также называют односторонней стохастической связью, поскольку в этом случае отклики являются случайными величинами, а факторы – не случайными.

Регрессия возникает, когда на функциональную связь между откликами и факторами накладываются случайные помехи, которые и делают отклики величинами случайными. Типичный график регрессионной зависимости приведен на рисунке 5.2. По нему видно, что одному и тому же значению х соответствуют разные значения y, но группируются они вокруг среднего.

Термин «регрессия» также был введен Ф.Гальтоном и вначале применялся в смысле возврата к среднему: «regression to mediocrity». В дальнейшем это понятие было обобщено и ныне применяется для обозначения всякой односторонней стохастической связи, т.е. такой, у которой только одна из переменных изменяется случайным образом. Именно в этом смысле корреляция является двухсторонней связью.

Односторонняя стохастическая связь выражается при помощи функции, которая для отличия от математического понятия «функция» названа регрессией. Ее фундаментальным свойством является необра-

тимость: зная регрессию y = f (x) нельзя найти обратную функцию x = ϕ(y) , что возможно в случае функциональной зависимости. Гово-

рят, что регрессии y по х не соответствует регрессия х по y.

87

Различают простую регрессию, когда отклик зависит только от одного фактора, и множественную, когда он зависит от нескольких факторов

y = f (x1, x2 Kxn )

По форме регрессия бывает линейной и нелинейной, положительной, когда с ростом х растет в среднем и у рис.(12.2), и отрицатель-

ной (рис.12.3).

у

у

х

х

Рисунок 12.3 – Положительная

Рисунок 10.4 – Отрицательная

нелинейная регрессия

линейная регрессия

Для проведения регрессионного анализа необходимо иметь несколько (не менее трех) значений откликов для каждого фиксированного значения фактора (или факторов). Опытные данные для регрессионного анализа записывают в виде таблицы 12.1. Затем математической обработкой получают эмпирические формулы. Математическая обработка обычно ведется методом наименьших квадратов, который предполагает решение достаточно больших систем линейных уравнений. Поэтому получение регрессий осуществляется на компьютерах.

88

Таблица 12.1 – Форма записи данных для регрессионного анализа

у1

у2

...

уn

x1

x2

M

xk

12.2 Корреляционный анализ Корреляционный анализ представляет из себя совокупность

методов обнаружения корреляционных связей между случайными величинами. Для двух случайных величин он включает:

1.Построение поля (облака) рассеивания и составление корреляционной таблицы.

2.Вычисление выборочных корреляционных отношений nyx или ко-

эффициентов корреляции ryx .

3. Проверку статистической гипотезы о значимости корреляционной

связи:

H0 : ryx = 0

H1 : ryx ¹ 0

Зависимости между несколькими случайными величинами изучаются многомерным корреляционным анализом, который включает вычисление частных и множественных корреляционных отношений или коэффициентов корреляции.

Поля рассеивания строятся путем нанесения на плоскость ХОУ точек, соответствующих выборочным значениям случайной величины. Характерные поля рассеивания показаны на рисунке 12.5.

89

y

y

 

х

х

а)

б)

у

у

х

х

в)

г)

y

y

х

х

д)

е)

Рисунок 12.5 – Виды полей рассеивания

90