
- •Содержание
- •Введение
- •I.Статистический анализ
- •§1.1. Основные понятия выборочного метода
- •§1.2. Законы распределения непрерывных случайных величин. Нормальное распределение
- •§1.3.Оценка параметров распределения
- •§ 1.4. Статистическая проверка гипотез
- •Тесты для самоконтроля Составьте краткие ответы на следующие вопросы
- •Характеристика тестов
- •II. Корреляционный и регрессионный анализ
- •§2.1. Система случайных величин
- •§ 2.2. Основы корреляционного анализа
- •§ 2.3. Регрессия. Линии среднеквадратической регрессии
- •§ 2.4. Выборочное уравнение регрессии
- •§ 2.5. Основы дисперсионного анализа
- •§ 2.6. Нелинейная корреляционная связь
- •Тесты для самоконтроля Составьте краткие ответы на вопросы
- •Характеристика тестов
- •III.Многомерный статистический анализ
- •§3.1. Основные характеристики многомерной генеральной совокупности
- •§ 3.2. Множественная корреляция
- •§ 3.3. Множественное уравнение регрессии
- •Тесты для самоконтроля
- •Характеристика тестов
- •IV. Статистический анализ в Excel
- •§ 4.1.Очистка информации от засорения
- •§ 4.2. Проверка закона распределения.
- •§ 4.3. Корреляционный анализ
- •§4.4. Регрессионный анализ двумерной модели.
- •§4.5. Регрессионный анализ трехмерной модели.
- •V. Содержание и объем курсовой работы
- •VI. Литература
- •Статистические данные.
- •Варианты заданий к работе « Статистический анализ»
§ 2.5. Основы дисперсионного анализа
Для проверки нулевой гипотезы H0 : β1 = 0 , т.е. между Y и X нет связи или связь нелинейная. используют основное положение дисперсионного анализа о разбиении суммы квадратов отклонений результативного признака S на сумму S1, характеризующую влияние признака X, и остаточную сумму квадратов S2, характеризующую влияние неучтенных факторов:
S = S1 + S2 .
Дисперсионный анализ – это метод анализа результатов наблюдений, зависящих от различных, одновременно действующих факторов, выбор наиболее существенных факторов и оценка их влияния. Для этого используется разложение общей вариации случайной величины на независимые составляющие, характеризующие влияние того или иного фактора или их взаимодействие. Основная идея дисперсионного анализа состоит в сравнении «факторной дисперсии», порождаемой воздействием фактора, и «остаточной дисперсии», обусловленной случайными причинами. В зависимости от количества факторов, включенных в анализ, различают однофакторный и многофакторный анализ. Для проведения дисперсионного анализа необходимо соблюдение следующих требований: результаты наблюдений должны быть независимыми случайными величинами, имеющими нормальное распределение и одинаковую дисперсию, что дает возможность оценить значимость полученных оценок дисперсий и математических ожиданий и построить доверительные интервалы.
Пусть на количественный нормально распределенный признак Y воздействует фактор X , который имеет p постоянных уровней, а число наблюдений на каждом уровне одинаково и равно n. Если p = 1, общая сумма квадратов отклонений наблюдаемых значений от общей средней
Sобщ
=
;
факторная сумма квадратов отклонений выровненных значений, вычисленных по функции регрессии f*(xi), от общей средней
Sфакт
=
;
остаточная сумма квадратов отклонений выравненных значений f*(xi) от наблюдаемых значений
Sост
=
Общая дисперсия s2 = Sобщ /(n-1)
отражает влияние и фактора и случайных причин. Факторная дисперсия, или
дисперсия регрессии,
s2факт = Sфакт / (n-1)
характеризует воздействие фактора X . Остаточная дисперсия
s2ост = Sост / (n-1)
отражает влияние случайных причин или других неучтенных факторов.
§ 2.6. Нелинейная корреляционная связь
Тесноту связи между X и Y удобно оценивать в единицах общей дисперсии σy, т.е. рассматривать отношение остаточной дисперсии к дисперсии признака относительно его математического ожидания :
{M[
x
– M(Y) ]2}
/ σy2
Эту величину называют теоретическим корреляционным отношением η2Y|x.
Для оценки тесноты линейной корреляционной связи между признаками в выборке служит выборочный коэффициент корреляции. Для оценки тесноты нелинейной корреляционной связи вводят новые сводные характеристики: ηyx и ηxy – выборочные корреляционные отношения Y к X и X к Y.
Выборочным корреляционным отношением Y к X называют отношение :
Ryx = s x / sy ,
где
s
x
=
; sy
=
;
nx – частота значения x признака X; ny – частота значения y признака Y;
– общая средняя
признака Y
;
x
– условная
средняя
признака
Y.
Аналогично определяется выборочное корреляционное отношение X к Y: Rxy = s y / sx
Однако чаще пользуются коэффициентом детерминации
R2 = s2факт / s2общ ,
который является отношением объясненной с помощью функции регрессии части дисперсии к общей дисперсии. Коэффициент детерминации определяет долю рассеивания величины Y , обусловленную функциональной зависимостью ее от величины X. Величина
1 – R2 = s2ост / s2общ
Показывает, какую долю рассеивания случайной величины Y обуславливают случайные факторы.
Свойства коэффициента детерминации:
0 ≤ R2 ≤ 1 ;
если R2 = 0 (η = 0), признак Y с признаком X корреляционной зависимостью не связан;
если R2 =1 (η =- 1), признак Y связан с признаком X функциональной зависимостью;
R ≥ │rв │ и выборочное корреляционное отношение не меньше абсолютной величины выборочного коэффициента корреляции : η ≥ │rв │;
если R =│rв │, то имеет место точная линейная корреляционная зависимость, т.е. точки (xi,yi) лежат на прямой линии регрессии, найденной МНК.
С возрастанием R2 корреляционная связь становится более тесной, так
как уменьшается (1 – R2 ), т.е. уменьшается дисперсия, вызванная воздействием неучтенных факторов.
Преимущество корреляционного отношения перед коэффициентом
корреляции состоит в том, что оно служит мерой тесноты связи любой, в том числе и линейной, формы. Однако, оно не позволяет судить, насколько близко расположены точки наблюдений к кривой определенного вида (параболе, гиперболе и т.д.).
Если график регрессии изображается кривой линией, то корреляцию называют криволинейной. В общем случае нелинейная модель регрессионного анализа имеет вид:
y = g(x1,x2,…,xk) + ε(x1,x2,…,xk),
где g(x1,x2,…,xk) – нелинейная функция регрессии Y на (x1,x2,…,xk); ε(x1,x2,…,xk) – отклонение, погрешность замены истинной зависимости функцией регрессии. В случае двумерной случайной величины функция регрессии
g(x) = β0 + β1x + β2x2.
Параметры β0, β1 и β2 определяются как значения, при которых остаточная
дисперсия
регрессии Y
на X
Sост
=
становится минимальной.
Оценку значимости приближения функций регрессии выполняют с помощью критерия Фишера :
Fрасч
=
,
где k – количество факторных признаков ( k = 1 для двумерной модели) .
Если Fрасч > Fкр , гипотеза H0 : уравнение регрессии не значимо отвергается и уравнение считается не противоречащим статистическим данным. В противном случае, когда Fрасч < Fкр , гипотеза принимается. Значение Fкр(m1,m2,α ) находится по таблице в зависимости от количества факторных признаков k
( m1 = k ), объема выборки n (m2 = n ) и уровня значимости α (0,05).