- •Оглавление
- •Задача о выборе теоретического вида распределения ……………………….12
- •Задание 1 ……….………..…………………………………..………………….33
- •Выборочный метод
- •Статистические оценки параметров распределения
- •Доверительный интервал
- •Метод моментов для точечной оценки параметров распределения
- •Проверка статистических гипотез
- •6. Однофакторный анализ
- •Регрессионный анализ
- •Библиографический список
- •Приложение 1 Критические точки распределения
- •Приложение 2 Критические точки распределения Стьюдента
- •Приложение 3 Критические точки распределения Фишера
- •Задание 2
- •620364, Екатеринбург, ул. Коломогорова, 66, УрГупс
Регрессионный анализ
Пусть
изучается система признаков
.
В результате
независимых испытаний получены значения
признаков, изображенных в таблице
|
|
|
… |
|
|
|
|
… |
|
Требуется
изучить связь между признаками
и
,
а именно, коррелированность и линейную
зависимость, а также найти выборочное
уравнение прямой регрессии
,
где
и
– выборочные коэффициенты регрессии
на
,
которые являются оценками теоретических
коэффициентов регрессии.
Для
определения коррелированности признаков
и
необходимо проверить нулевую гипотезу
о значимости выборочного коэффициента
корреляции
.
Выдвигаем гипотезу
.
В качестве критерия рассматривается
величина
,
где
.
Величина
является случайной, так как зависит от
результатов испытаний. При выполнении
гипотезы
она имеет распределение Стьюдента,
которое зависит только от числа степеней
свободы
.
По результатам испытаний вычисляем
наблюдаемое значение
,
где
–
выборочный
коэффициент корреляции (является
оценкой теоретического коэффициента
корреляции
генеральной совокупности системы
признаков
),
и
– выборочные средние по каждому признаку,
и
– выборочные среднеквадратические
отклонения. Критические точки
распределения Стьюдента находятся из
специальных таблиц в зависимости от
заданного уровня значимости
и числа степеней свободы
.
Если
,
то нулевая гипотеза о равенстве нулю
коэффициента корреляции принимается,
выборочный коэффициент корреляции
незначим, признаки
и
некоррелированы. Если
,
то нулевая гипотеза отвергается,
следовательно, коэффициент корреляции
не равен нулю, значит, признаки
и
коррелированны.
Для построения прямой регрессии требуется определить параметры и . Для их нахождения используем метод наименьших квадратов, т.е. ищем минимальное значение функции суммы квадратов отклонений
.
Точки
экстремума функции двух переменных
находим из системы уравнений:
или
.
Решая систему, получаем искомые параметры
,
.
Уравнение прямой линии регрессии на запишется в виде
.
Аналогично находим уравнение прямой линии регрессии на
.
Для определения значимости линейной зависимости от в виде уравнения регрессии используется критерий Фишера. Рассмотрим следующие величины:
регрессионная сумма квадратов отклонений
характеризует отклонения наблюдений от среднего значения, объясняемых моделью регрессии. Регрессионную сумму удобно считать по формуле
,
где
– выборочная дисперсия признака
.
Остаточная сумма квадратов отклонений
характеризует разброс значений в силу случайных причин, т.е. разброс, не объясненный линейной зависимостью.
Общая сумма квадратов отклонений
характеризует исходный разброс данных. Иначе
,
где
– выборочная дисперсия признака
.
Введенные три суммы должны удовлетворять основному тождеству дисперсионного анализа
.
Найдем исправленные регрессионную и остаточную дисперсии по формулам
,
где
,
,
где
.
Для проверки нулевой гипотезы о значимости выборочного коэффициента регрессии рассмотрим величину
,
которая
является случайной, так как зависит от
заранее неизвестных испытаний. При
выполнении гипотезы
она распределена по закону Фишера с
и
степенями свободы (значение
равно единице для двумерной случайной
величины
).
Если
,
то по данным задачи вычисляем наблюдаемое
значение критерия
.
По таблице критических значений
распределения Фишера в зависимости от
уровня значимости
и числа степеней свободы
и
находим
.
Если
,
то нулевая гипотеза принимается,
выборочный коэффициент регрессии
незначим, признаки
и
не связаны линейной зависимостью. Если
,
то нулевая гипотеза отвергается,
следовательно, теоретический коэффициент
регрессии не равен нулю, значит, признаки
и
можно связать линейной зависимостью в
виде уравнения регрессии
на
.
Замечание.
Если
,
то это означает, что разброс, вызванный
случайными причинами, поглощает в себе
разброс в силу влияния регрессионной
модели, следовательно, модель линейной
регрессии незначима, и нулевая гипотеза
принимается без использования вычисления
критерия
.
Задача о зависимости системы случайных величин. Пусть известны результаты медосмотра восьми школьников: обхват груди X (см) и вес Y (кг), которые записаны в следующую таблицу
X |
76 |
80 |
82 |
84 |
85 |
86 |
88 |
91 |
Y |
40 |
41 |
43 |
45 |
47 |
48 |
52 |
55 |
Требуется записать уравнение линейной регрессии Y на X и проверить по критериям Стьюдента и Фишера наличие коррелированности и линейной зависимости при уровне значимости .
Решение
Составим выборочное уравнение линейной регрессии Y на X.
Вычислим выборочные средние
,
.
Вычисляем
выборочные дисперсии и среднеквадратические
отклонения
,
,
,
.
Вычисляем выборочный коэффициент корреляции
.
Тогда выборочное уравнение линейной регрессии Y на X запишется в виде
или
.
На
плоскости
изобразим точками полученные в результате
наблюдений пары значений и построим
линию регрессии
Проверим коррелированность X и Y, используя критерий Стьюдента. Выдвигаем нулевую гипотезу . Вычисляем наблюдаемое значение критерия Стьюдента
.
По
таблице критических точек распределения
Стьюдента в зависимости от уровня
значимости
и числа степеней свободы
находим
.
Так как
,
то нулевая гипотеза отвергается,
,
выборочный коэффициент корреляции
значим, следовательно, X
и Y
– коррелированные величины.
3. Проверим значимость линейной модели, используя критерий Фишера.
Выдвигаем
нулевую гипотезу о равенстве нулю
коэффициента регрессии. Вычисляем общую
сумму
,
регрессионную
сумму
и
остаточную сумму, используя основное
тождество дисперсионного анализа
.
Вычисляем исправленные регрессионную и остаточную дисперсии
,
.
Так
как
,
то вычисляем наблюдаемое значение
критерия Фишера
.
По
таблице критических значений распределения
Фишера в зависимости от уровня значимости
и числа степеней свободы
и
находим
.
Так как
,
то нулевая гипотеза отвергается, значит,
линейная модель значима, и вес школьников
можно представить в виде линейной
зависимости от обхвата груди. Отметим,
что выводы по обоим критериям согласованы.
