![](/user_photo/2706_HbeT2.jpg)
- •Содержание
- •Введение
- •Постановка задачи
- •Теоретическая часть
- •Регрессионный анализ
- •Исходные данные и их обработка
- •Основные характеристики выборки
- •Корреляционный анализ
- •Регрессия Линейная регрессия
- •Параболическая регрессия
- •Проверка гипотез статистиками
- •Метод доверительных интервалов
- •Заключение
- •Список литературы
Регрессия Линейная регрессия
Для нахождения коэффициентов a и b методом наименьших квадратов были посчитаны следующие необходимые параметры:
=
15318,54;
=
544,33;
=
7165,06;
=
1066,00.
В нашем случае коэффициенты а и b соответственно равны:
,
.
Следовательно, первое уравнение линейной регрессии для нашей выборки имеет вид:
y
=
x
.
Для нахождения коэффициентов с и d методом наименьших квадратов были посчитаны следующие необходимые параметры:
=
15318,54;
=
544,33;
=
7165,06;
=
1066,00.
В нашем случае коэффициенты c и d соответственно равны:
,
.
Следовательно, второе уравнение линейной регрессии для нашей выборки (см. рис. 8) имеет вид:
x = 0,08996y + 8,19269.
Рис. 8. Линейная регрессия
Параболическая регрессия
Для нахождения коэффициентов p, q и r методом наименьших квадратов были посчитаны следующие необходимые параметры:
224806,3621;
28011,4405;
=
3703,8283;
53732,2639;
=
544,33;
=
7165,0557;
=
1065,68.
В нашем случае коэффициенты p, q и r соответственно равны:
,
,
.
Следовательно, уравнение параболической регрессии для нашей выборки (см. рис. 9) имеет вид:
.
Рис. 9. Параболическая регрессия
Таким образом, мы выяснили, что:
-
Зависимость между X и Y близка к линейной.
-
Зависимость между X и Y близка к квадратичной.
-
При этом обе кривые — прямая и парабола — практически не отклоняются от точек выборки (X, Y), но все-таки точнее выборку описывает параболическая регрессия.
Теоретически утверждалось, а теперь подтвердилось на практике, что чем больше степень уравнения регрессии, тем точнее график. Это легко заметить на рисунках. Но трудность вычислений возрастает неимоверно; если, чтобы найти уравнение линейной регрессии приходилось решать систему из двух уравнений, включающих неприятные суммы, то для параболической — уже из трех, для кубической — из четырех.
Для данной выборки существует закономерность; в уравнениях регрессий, по мере возрастания степени уравнений n, коэффициенты перед переменными в этой степени стремятся к нулю. Это позволяет сделать вывод, что построение регрессий высших степеней не дало бы нам ощутимого улучшения результата.
Проверка гипотез статистиками
Для
начала рассмотрим статистику
,
которая показывает отклонение значений
от
.
Теперь обратимся к проверке гипотез
и
Заметим сразу, что значения, вычисленным
с использованием соответствующих
статистик
и
должна быть меньше значения
.
Статистика
используется для проверки гипотезы о
линейной зависимости, и показывает,
насколько величины
отклоняются от линии регрессии
.
Вычисляем
.
Аналогично для гипотезы
используем статистику
,
которая, соответственно, показывает
отклонение
от квадратной регрессии
.
Видим
.
Следовательно
и
меньше
,
что и требовалось доказать.
Метод доверительных интервалов
Рассмотренные
ранее
,
,
,
,
,
,
,
являются
точечными оценками, но наряду с ними
при изучении выборки используются
интервальные оценки, так как полезно
не только построить оценку, но и
охарактеризовать величину возможной
при её использовании ошибки.
Интервальной называют оценку, которая определяется двумя числами — концами интервала. Интервальные оценки позволяют установить точность и надежность оценок.
Величина
характеризует точность
оценки, если выполняется неравенство
,
где
— оценка некоторого параметра
генеральной совокупности. Надежностью
(доверительной вероятностью) оценки
по
называют вероятность
,
c которой осуществляется неравенство
.
Наиболее часто задают надежность, равную
0,95; 0,9; 0,999.
Доверительным
называют интервал
,
,
который покрывает известный параметр
с заданной надежностью
.
Рассмотрим
доверительный интервал для математического
ожидания генеральной совокупности.
Известен объем выборки n
= 100;
=
5,4433,
=
10,6568, исправленное выборочное
среднеквадратичное отклонение
,
.
Найдем
доверительный интервал для оценки
неизвестного математического ожидания
по X
и Y
с надежностями
= 0,95; 0,99; 0,999.
Если
наблюдаемая случайная величина имеет
нормальное распределение, но ее
среднеквадратичное отклонение нам
неизвестно, то мы можем построить
доверительный интервал по распределению
Стьюдента с
степенями свободы, то есть должно быть
справедливо неравенство:
;
где
определим по заданным
и
.
Это соотношение выражает доверительный
интервал для
,
определяемый с помощью распределения
Стьюдента.
Найдем доверительные интервалы для математического ожидания X.
При
;
:
4,9 <
< 5,9.
При
;
4,7 <
< 6,1.
При
;
4,5 <
< 6,3.
Найдем доверительные интервалы для дисперсии X.
При
;
:
9,4 <
< 11,9.
При
;
9,0 <
< 12,3.
При
;
8,5 <
< 12,7.