- •Раздел IV. Модель линейной парной регрессии 83
- •Раздел V. Множественная линейная регрессия 95 раздел I. Основные понятия теории вероятностей § 1. Элементы комбинаторики
- •§ 2. Классическое определение вероятности
- •§ 3. Теоремы сложения и произведения вероятностей
- •§ 4. Формулы полной вероятности и Байеса
- •§ 5. Схема испытаний Бернулли
- •Раздел II. Случайные величины § 1. Дискретные случайные величины
- •§ 2 Числовые характеристики дискретной случайной величины
- •§ 3. Непрерывные случайные величины
- •Из определения следует, что
- •Раздел III. Элементы математической статистики § 1. Генеральная и выборочная совокупности
- •§ 2. Выборочные характеристики
- •Точечные оценки
- •Генерирование случайных значений в Excel
- •Получение числовых характеристик средствами Excel
- •Проверка статистических гипотез
- •Испытание гипотез на основе выборочной средней
- •Испытание гипотез о двух генеральных дисперсиях
- •Ковариация и корреляция
- •Раздел IV. Модель линейной парной регрессии
- •Анализ вариации зависимой переменной
- •Предсказания и прогнозы на основе линейной модели регрессии
- •Испытание гипотезы для оценки линейности связи
- •Раздел V. Множественная линейная регрессия
Предсказания и прогнозы на основе линейной модели регрессии
Построенная
модель используется для определения
значений y
в точках x,
которых нет в исходной таблице. Поиск
значения y
для x
из исходного интервала
называется предсказанием,
а поиск значения y
для x
вне исходного интервала
называется прогнозом.
Чем дальше расположен x
от интервала
,
тем менее точным будет прогноз.
Для
прогноза значений переменной можно
воспользоваться статистической функцией
ТЕНДЕНЦИЯ(изв_значение_y;
изв_значение_x;
нов_значение_x;
константа), где нов_значение_x
ссылка на ячейки, содержащие значения
переменной x,
для которых делается прогноз. Аргумент
константа
является необязательным. Если он равен
0, то коэффициент в уравнении линейной
регрессии
.
Функция сама подбирает уравнение прямой
линии и дает прогноз.
Можно использовать функцию ПРЕДСКАЗ(x; изв_значение_y; изв_значение_x), где x это значение переменной x, для которой делается прогноз.
Испытание гипотезы для оценки линейности связи
Показатель
наличия линейной связи в генеральной
совокупности
это коэффициент корреляции. Для
генеральной совокупности он равен
.
Нам это значение неизвестно. По данным
выборки мы получаем оценку для
выборочный коэффициент корреляции r
и на основании r
проводим испытание гипотезы о наличии
линейной связи между переменными x
и y
в генеральной совокупности. Наш вывод
зависит от объема выборки. Чем больше
объем выборки, тем надежнее результат.
Выдвигаются следующие гипотезы:
H0
:
,
то есть между переменными x
и y
отсутствует линейная взаимосвязь в
генеральной совокупности;
H1
:
то есть между переменными x
и y
есть линейная взаимосвязь в генеральной
совокупности.
Задается
доверительная вероятность p,
следовательно
.
Объем равен n.
Граничные точки
определяются с помощью функции
СТЬЮДРАСПОБР(;
n
2). Статистика вычисляется по формуле
.
В
случае парной линейной регрессии
коэффициент
аналогичен коэффициенту корреляции
.
Поэтому можно проводить испытание
гипотезы на основе показателя наклона
линейной регрессии
.
Выдвигаются следующие гипотезы:
H0
:
,
то есть между переменными x
и y
отсутствует линейная взаимосвязь в
генеральной совокупности;
H1
:
то есть между переменными x
и y
есть линейная взаимосвязь в генеральной
совокупности.
Задается
доверительная вероятность p,
следовательно
.
Объем равен n.
Граничные точки
определяются с помощью функции
СТЬЮДРАСПОБР(;
n
2). Статистика вычисляется по формуле
,
где
,
.
Разница
называется ошибкой
(остатком,
отклонением).
Величина S
называется стандартной
ошибкой.
Для вычисления S
можно воспользоваться функцией
СТОШYX(изв_значение_y;
изв_значение_x).
Пример 8.
Изучается зависимость себестоимости единицы изделия (y, тыс. руб.) от величины выпуска продукции (x, тыс. шт.) по группам предприятий за отчетный период. Экономист обследовал 5 предприятий и получил результаты, представленные в таблице.
x |
2 |
3 |
4 |
5 |
6 |
y |
1,9 |
1,7 |
1,8 |
1,6 |
1,4 |
Найти
выборочное уравнение линейной регрессии;
коэффициенты корреляции и детерминации;
ожидаемое значение себестоимости y при выпуске продукции x = 5,5 тыс.шт.;
проверить гипотезу о наличии линейной взаимосвязи между переменными с доверительной вероятностью 95% на основе оценки коэффициента корреляции;
проверить гипотезу о наличии линейной взаимосвязи между переменными с доверительной вероятностью 95% на основе оценки показателя наклона линейной регрессии.
Решение.
Найдем уравнение линейной регрессии
.
Используя функции Excel:
a
= ОТРЕЗОК(изв_значение_y;
изв_значение_x)
= 2,12;
b = НАКЛОН(изв_значение_y; изв_значение_x) = 0,11.
Уравнение
имеет вид
.
Найдем коэффициент корреляции Пирсона с помощью функции ПИРСОН(массив 1; массив 2), получаем r = 0,904. Так как получили значение, близкое к 1, следовательно, связь между x и y близка к линейной.
Найдем
коэффициент детерминации с помощью
функции КВПИРСОН(изв_значение_y;
изв_значение_x),
получаем
.
Это значение показывает, что 82% вариации
переменной y
объясняется переменной x.
Найдем ожидаемое значение себестоимости y при выпуске продукции x = 5,5 тыс.шт. с помощью функции ПРЕДСКАЗ(x; изв_значение_y; изв_значение_x), получаем
тыс. руб.проверим гипотезу о наличии линейной взаимосвязи между переменными с доверительной вероятностью 95% на основе оценки коэффициента корреляции. Выдвигаем гипотезы:
H0 : , то есть между переменными x и y отсутствует линейная взаимосвязь в генеральной совокупности;
H1 : то есть между переменными x и y есть линейная взаимосвязь в генеральной совокупности.
Доверительная
вероятность p
= 0,95, следовательно
.
Объем n
= 5. Граничные точки
определяем с помощью функции
СТЬЮДРАСПОБР(0,05; 3) и получаем
.
Статистика вычисляется по формуле
.
Отметим значения на числовой оси
Отклоняем гипотезу H0 и принимаем гипотезу H1 на уровне значимости 5%. Между переменными есть линейная взаимосвязь.
проверим гипотезу о наличии линейной взаимосвязи между переменными с доверительной вероятностью 95% на основе оценки показателя наклона линейной регрессии. Выдвигаем гипотезы:
H0 : , то есть между переменными x и y отсутствует линейная взаимосвязь в генеральной совокупности;
H1 : то есть между переменными x и y есть линейная взаимосвязь в генеральной совокупности.
Доверительная
вероятность p
= 0,95, следовательно
.
Объем
.
Граничные точки
определяем с помощью функции
СТЬЮДРАСПОБР(0,05; 3) и получаем
.
Вычисляем
стандартную ошибку S
с помощью функции СТОШYX(изв_значение_y;
изв_значение_x).
Получаем
.
Далее вычисляем
.
Вычисляем статистику по формуле
.
Отметим значения на числовой оси
Отклоняем гипотезу H0 и принимаем гипотезу H1 на уровне значимости 5%. Между переменными есть линейная взаимосвязь.
