- •Предисловие
- •Введение
- •1 Первичная обработка статистических данных.
- •1.1 Проверка данных
- •1.2 Группировка статистических данных
- •1.3 Графическое представление статистических данных
- •1.4 Задача 1. Первичная обработка
- •2 Точечные оценки параметров распределения.
- •2.1 Несгруппированные статистические данные
- •2.2 Статистические дискретный и интервальный ряды
- •2.3 Метод “условного нуля”
- •2.2.4 Задача 1. Точечные оценки
- •Выборочное среднее квадратическое отклонение равно
- •Выборочное среднее квадратическое отклонение равно
- •3 Интервальные оценки параметров распределения
- •3.1 Доверительные интервалы для некоторых параметров распределения
- •3.2 Примеры построения доверительных интервалов
- •4 Проверка статистических гипотез
- •4.1 Сравнение двух дисперсий нормально распределенных генеральных совокупностей
- •4.2 Сравнение двух математических ожиданий нормально распределенных генеральных совокупностей, дисперсии которых неизвестны и одинаковы
- •4.3 Сравнение двух вероятностей биномиальных распределений
- •4.4 Проверка гипотезы о виде распределения генеральной совокупности по критерию Пирсона
- •4.5 Проверка гипотезы о виде распределения генеральной совокупности по критерию Колмогорова-Смирнова
- •4.6 Примеры
- •Выборочное среднее квадратическое отклонение равно
- •5 Элементы корреляционного и регрессионного анализа
- •5.1 Корреляционное поле
- •5.2 Эмпирическая ломаная регрессии
- •5.3 Эмпирический коэффициент детерминации и эмпирическое корреляционное отношение
- •5.4 Линейная регрессия
- •5.5 Проверка коэффициента корреляции на значимость.
- •5.6 Теоретический коэффициент детерминации и теоретическое корреляционное отношение
- •5.7 Нелинейная корреляция
- •5.8 Множественная регрессия
- •5.9 Оценка погрешности модели
- •5.10 Задача 1. Установления корреляционной зависимости
- •Реализация статистических расчетов при помощи компьютера
- •6.1 Табличный процессор Microsoft Excel
- •6.2 Пакет программ statistica
- •Задачи для самостоятельного решения
- •Вариант № 1
- •Вариант № 2
- •Вариант № 3
- •Вариант № 4
- •Вариант № 5
- •Вариант № 6
- •Вариант № 7
- •Вариант № 8
- •Вариант № 9
- •Вариант № 10
- •Вариант № 11
- •Вариант № 12
- •Вариант № 13
- •Вариант № 14
- •Вариант № 15
- •Вариант № 16
- •Вариант № 17
- •Вариант № 18
- •Вариант № 19
- •Вариант № 20
- •Вариант № 21
- •Вариант № 22
- •Вариант № 23
- •Вариант № 24
- •Вариант № 25
- •Вариант № 26
- •Вариант № 27
- •Вариант № 28
- •Вариант № 29
- •Вариант № 30
- •8. Контрольные задания по статистике для студентов дневной формы обучения
- •Основные вопросы теории математической статистики
- •Типы отборов и виды выборок.
- •8.2 Варианты контрольных работ Вариант № 1
- •Вариант № 2
- •Вариант № 3
- •Вариант № 4
- •Вариант № 5
- •Вариант № 6
- •Вариант № 7
- •Вариант № 8
- •Вариант № 9
- •Вариант № 10
- •Семестровые задания по статистике
- •9.1 Условие семестрового задания для студентов дневной формы обучения
- •9.2 Условие контрольной работы по статистике для студентов заочной формы обучения
- •9.3 Варианты заданий вариант 1
- •Вариант 2
- •Вариант 3
- •Пример выполнения контрольной работы по статистике для студентов заочной формы обучения
- •Выборочное среднее квадратическое отклонение равно
- •Выборочное среднее квадратическое отклонение равно
- •Приложения !!!! в отдельном файле “ Приложения” Рекомендуемая литература
5.9 Оценка погрешности модели
Сравнение различных моделей производится по следующим позициям:
по коэффициентам детерминации (теоретическим) и сравнение их с эмпирическим коэффициентом детерминации. Чем больше коэффициент R2теор и чем ближе он к R2эмпир, тем представленное уравнение регрессии лучше описывает зависимость между признаками Х и У.
По средней относительной погрешности аппроксимации:
(11)
где yiтеор – индивидуальные значения результативного признака У, рассчитанные по уравнению регрессии: yiтеор=f(xi); уi – значения признака У из выборки. Чем меньше средняя относительная погрешность аппроксимации, тем модель лучше описывает зависимость между признаками. Для качественной оценки модели по относительной погрешности аппроксимации используют следующую шкалу:
|
< 10% |
10 –20% |
20– 50% |
50% |
Вывод |
Высокая точность прогноза |
Хорошая точность прогноза |
Удовлетворительная точность прогноза |
Неудовлетворительная точность прогноза |
По средней квадратической погрешности уравнения:
(12)
Для расчета перечисленных характеристик нужно после того, как было получено уравнение регрессии (линейное или нелинейное), заполнить следующую таблицу:
i |
xi |
уi |
yiтеор |
δi=yiтеор – yi |
δi2 |
δi / yi |
|
1 |
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
. . . |
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
Сумма |
|
|
|
|
|
|
|
5.10 Задача 1. Установления корреляционной зависимости
Продолжим решение задачи 1. Выполним пункт 6.
Корреляционное поле имеет вид:
Для построения эмпирической ломаной регрессии сделаем расчет точек , где хj – середины интервалов разбиения признака Х; – средние групповые значения признака У в каждом интервале признака Х: = (Σ yi)/nj . Интервалы по признаку Х возьмем из п. 2.1.4. Заполним таблицу.
Интервал по Х |
0,85-0,95 |
0,95-1,05 |
1,05-1,15 |
1,15-1,25 |
1,25-1,35 |
1,35-1,45 |
1,45-1,55 |
х j |
0,9 |
1 |
1,1 |
1,2 |
1,3 |
1,4 |
1,5 |
nj |
6 |
7 |
20 |
6 |
5 |
3 |
3 |
у i |
4,8 5,6 3,2 3,7 4,1 6,2 |
5,6 6,8 6,9 6,1 6,4 3,4 7,8 |
6,9 9,6 5,1 5,8 7,9 4,9 6,8 10,1 7,6 7,7 8,4 8,5 8,7 7,1 8,2 6,1 6,2 6,4 6,5 9,8 |
6 8,3 3,5 7,1 5,5 6,2
|
6,4 6,1 8 8,2 10,7 |
9,5 12,5 13,5 |
9,2 11,4 10,9 |
|
4,6 |
6,14 |
7,42 |
6,1 |
7,88 |
11,83 |
10,5 |
Построим эмпирическую ломаную по точкам .
Анализ корреляционного поля и эмпирической ломаной позволяет предполагать наличие прямой положительной корреляционной зависимости между признаками Х и У.
Выполним
пункт 7. Для расчета эмпирического
коэффициента детерминации и эмпирического
корреляционного отношения используем
данные
(рассчитаны
в п. 2.2.4) и
–
средние групповые значения признака У
.
Найдем
межгрупповую дисперсию результативного
признака У
Dмежгр
=
((4,6–7,285)2
+ (6,14–7,285)2
+ (7,42–7,285)2
+
+ (6,1–7,285)2+(7,88–7,285)2+(11,83–7,285)2+(10,5–7,285)2) =3,119
Эмпирический коэффициент детерминации равен:
Следовательно, 62,7% вариации средней за месяц производительности рабочего объясняется вариацией мощности пласта.
Эмпирическое
корреляционное отношение равно
Оно указывает на значительную
корреляционную связь между признаками
Х и У.
Решим пункт 8. Определим параметры уравнения линейной регрессии по формулам (3), (5), пункт 2.5.4.
С этой целью, используя исходные данные (условие задачи, пункт 2.1.4), создадим таблицу. Ее заполнение и вычисление рекомендуется выполнять в Excel.
i |
X |
Y |
X^2 |
Y^2 |
XY |
|
i |
X |
Y |
X^2 |
Y^2 |
XY |
1 |
1.13 |
8.4 |
1.2769 |
70.56 |
9.492 |
|
26 |
1.15 |
6.2 |
1.3225 |
38.44 |
7.13 |
2 |
1.14 |
7.1 |
1.2996 |
50.41 |
8.094 |
|
27 |
1.12 |
4.9 |
1.2544 |
24.01 |
5.488 |
3 |
1.13 |
7.7 |
1.2769 |
59.29 |
8.701 |
|
28 |
1.15 |
6.4 |
1.3225 |
40.96 |
7.36 |
4 |
1.13 |
7.6 |
1.2769 |
57.76 |
8.588 |
|
29 |
1.15 |
6.1 |
1.3225 |
37.21 |
7.015 |
5 |
1.14 |
8.2 |
1.2996 |
67.24 |
9.348 |
|
30 |
0.88 |
5.6 |
0.7744 |
31.36 |
4.928 |
6 |
1.09 |
6.9 |
1.1881 |
47.61 |
7.521 |
|
31 |
1.28 |
6.4 |
1.6384 |
40.96 |
8.192 |
7 |
1.53 |
10.9 |
2.3409 |
118.81 |
16.68 |
|
32 |
1.12 |
6.8 |
1.2544 |
46.24 |
7.616 |
8 |
1.5 |
11.4 |
2.25 |
129.96 |
17.1 |
|
33 |
1.2 |
6 |
1.44 |
36 |
7.2 |
9 |
1.44 |
13.5 |
2.0736 |
182.25 |
19.44 |
|
34 |
1.24 |
5.5 |
1.5376 |
30.25 |
6.82 |
10 |
1.39 |
9.5 |
1.9321 |
90.25 |
13.21 |
|
35 |
0.85 |
4.8 |
0.7225 |
23.04 |
4.08 |
11 |
1.5 |
9.2 |
2.25 |
84.64 |
13.8 |
|
36 |
1.21 |
3.5 |
1.4641 |
12.25 |
4.235 |
12 |
1.35 |
10.7 |
1.8225 |
114.49 |
14.45 |
|
37 |
1.12 |
10.1 |
1.2544 |
102.01 |
11.31 |
13 |
1.4 |
12.5 |
1.96 |
156.25 |
17.5 |
|
38 |
1.24 |
6.2 |
1.5376 |
38.44 |
7.688 |
14 |
1.11 |
7.9 |
1.2321 |
62.41 |
8.769 |
|
39 |
0.91 |
3.2 |
0.8281 |
10.24 |
2.912 |
15 |
0.91 |
3.7 |
0.8281 |
13.69 |
3.367 |
|
40 |
1 |
7.8 |
1 |
60.84 |
7.8 |
16 |
0.96 |
5.6 |
0.9216 |
31.36 |
5.376 |
|
41 |
0.94 |
4.1 |
0.8836 |
16.81 |
3.854 |
17 |
0.96 |
6.8 |
0.9216 |
46.24 |
6.528 |
|
42 |
1.11 |
5.1 |
1.2321 |
26.01 |
5.661 |
18 |
0.96 |
6.9 |
0.9216 |
47.61 |
6.624 |
|
43 |
1.13 |
8.5 |
1.2769 |
72.25 |
9.605 |
19 |
1.23 |
7.1 |
1.5129 |
50.41 |
8.733 |
|
44 |
1.13 |
8.7 |
1.2769 |
75.69 |
9.831 |
20 |
0.97 |
6.1 |
0.9409 |
37.21 |
5.917 |
|
45 |
1.33 |
8 |
1.7689 |
64 |
10.64 |
21 |
1.11 |
5.8 |
1.2321 |
33.64 |
6.438 |
|
46 |
0.94 |
6.2 |
0.8836 |
38.44 |
5.828 |
22 |
0.99 |
6.4 |
0.9801 |
40.96 |
6.336 |
|
47 |
1.2 |
8.3 |
1.44 |
68.89 |
9.96 |
23 |
1 |
3.4 |
1 |
11.56 |
3.4 |
|
48 |
1.1 |
9.6 |
1.21 |
92.16 |
10.56 |
24 |
1.33 |
8.2 |
1.7689 |
67.24 |
10.91 |
|
49 |
1.15 |
9.8 |
1.3225 |
96.04 |
11.27 |
25 |
1.15 |
6.5 |
1.3225 |
42.25 |
7.475 |
|
50 |
1.29 |
6.1 |
1.6641 |
37.21 |
7.869 |
|
|
|
|
|
|
|
Сумма |
57.49 |
361.9 |
67.462 |
2873.9 |
428.6 |
|
|
|
|
|
|
|
Средние |
1.1498 |
7.238 |
1.3492 |
57.477 |
8.5727 |
Из последней строки получим:
Подставив в формулу (5) пункта 2.5.4, получим:
Сделаем
проверку:
Следовательно, уравнение линейной регрессии имеет вид :
= 9,21х
– 3,36
Пункт 9. Определим выборочный коэффициент корреляции по формуле
Проверим коэффициент корреляции на значимость.
Выдвинем гипотезы:
Основная гипотеза H 0 :, rг = 0
Конкурирующая гипотеза H 1 : rг 0.
Для проверки гипотезы H 0 вычислим наблюдаемое значение критерия:
Тнабл
По таблице критических точек распределения Стьюдента (Приложение 6) найдем критическое значение критерия при уровне значимости = 0,05 и числе степеней свободы k = n – 2 = 50 – 2 = 48
tкр = tкр (0,05; 48) = 2,01. Сравнивая, получим, что Тнабл > tкр .
Следовательно, нулевую гипотезу следует отвергнуть. Это значит, что коэффициент корреляции значимо отличается от нуля и признаки Х и У коррелированны. Таким образом, у нас нет оснований отбросить гипотезу о наличии линейной корреляционной зависимости между признаками Х и У.
Пункт 10. Исходя из вида корреляционного поля и эмпирической ломаной регрессии предположим, что признаки Х и У связаны параболической зависимостью . Для определения коэффициентов a, b, с заполним таблицу, используя Excel.
Для краткости записей расчетную таблицу приводим не полностью.
-
i
X
Y
X^2
X^3
X^4
XY
X^2Y
1
1.13
8.4
1.2769
1.443
1.6305
9.492
10.73
2
1.14
7.1
1.2996
1.482
1.689
8.094
9.227
3
1.13
7.7
1.2769
1.443
1.6305
8.701
9.832
4
1.13
7.6
1.2769
1.443
1.6305
8.588
9.704
5
1.14
8.2
1.2996
1.482
1.689
9.348
10.66
6
1.09
6.9
1.1881
1.295
1.4116
7.521
8.198
7
1.53
10.9
2.3409
3.582
5.4798
16.68
25.52
8
1.5
11.4
2.25
3.375
5.0625
17.1
25.65
9
1.44
13.5
2.0736
2.986
4.2998
19.44
27.99
10
1.39
9.5
1.9321
2.686
3.733
13.21
18.35
11
1.5
9.2
2.25
3.375
5.0625
13.8
20.7
…
…
…
…
…
…
…
…
49
1.15
9.8
1.3225
1.521
1.749
11.27
12.96
50
1.29
6.1
1.6641
2.147
2.7692
7.869
10.15
Сумма
57.49
361.9
67.4615
80.785
98.6948
428.634
518.2944
Используя формулу (9), пункт 2.5.7, составим линейную систему:
50a+ |
57,49b+ |
67,4615c |
= |
361,9 |
57,49a+ |
67,4615b+ |
80,7851c |
= |
428.634 |
67,4615a+ |
80,7851b+ |
98,6948c |
= |
518.2944 |
Решим систему по правилу Крамера. Вычислим главный и вспомогательные определители системы:
-
50
57.49
67.4615
D =
57.49
67.4615
80.7851
= 3.8868
67.4615
80.7851
98.6948
361.9
57.49
67.4615
D1 =
428.634
67.4615
80.7851
= 21.5367
518.2944
80.7851
98.6948
50
361.9
67.4615
D2 =
57.49
428.634
80.7851
= -23.8198
67.4615
518.2944
98.6948
50
57.49
361.9
D3 =
57.49
67.4615
428.634
= 25.1881
67.4615
80.7851
518.2944
Запишем решение системы по правилу Крамера:
a = D1/D=5,541; b = D2/D=–1,128; c = D3/D=6,48.
Следовательно, уравнение нелинейной параболической регрессии имеет вид :
= 5,541 –6,128х +6,48х2 .
Пункт 11. Построим полученные линии регрессии в одной системе координат.
Здесь сплошная линия представляет линейную регрессию, а пунктирная линия – параболическую регрессию.
Пункт 12. Для всех моделей рассчитаем теоретический коэффициент детерминации и теоретическое корреляционное отношение; среднюю квадратическую погрешность уравнения; среднюю относительную погрешность аппроксимации.
Используем уравнение линейной регрессии = 9,21х – 3,36
и параболической регрессии = 5,541 –6,128х +6,48х2, вычислим теоретические значения признака У. Заполним таблицы.
Для краткости записей расчетные таблицы приводим не полностью.
а) Для линейной регрессии = 9,21х – 3,36
i |
xi |
уi |
yiтеор |
δi=yiтеор – yi |
δi2 |
δi / yi |
|
1 |
1.13 |
8.4 |
7.0473 |
-1.3527 |
1.8298 |
0.1610 |
0.0364 |
2 |
1.14 |
7.1 |
7.1394 |
0.0394 |
0.0016 |
0.0055 |
0.0097 |
3 |
1.13 |
7.7 |
7.0473 |
-0.6527 |
0.4260 |
0.0848 |
0.0364 |
… |
… |
… |
… |
… |
… |
… |
… |
49 |
1.15 |
9.8 |
7.2315 |
-2.5685 |
6.5972 |
0.2621 |
0.0000 |
50 |
1.29 |
6.1 |
8.5209 |
2.4209 |
5.8608 |
0.3969 |
1.6458 |
Сумма |
57.49 |
361.9 |
361.4829 |
-0.4171 |
139.096 |
10.8476 |
115.3217 |
Для дальнейших расчетов используем формулы (8), (11), (12),
где Dобщ = σy2 = 2,25572 = 5,088 .
Получим: Dобъясн уравн = 115,3217/50 = 2,306;
теоретический коэффициент детерминации
R2 = 2,306/5,088 =0,453
теоретическое
корреляционное отношение
средняя относительная погрешность аппроксимации
ε = 10,8476100/50= 21,7%;
средняя квадратическая погрешность уравнения
т/вых.
б) Для параболической регрессии = 5,541 –6,128х +6,48х2
i |
xi |
уi |
yiтеор |
δi=yiтеор – yi |
δi2 |
δi / yi |
|
1 |
1.13 |
8.4 |
6.8907 |
-1.5093 |
2.2781 |
0.1797 |
0.1206 |
2 |
1.14 |
7.1 |
6.9765 |
-0.1235 |
0.0153 |
0.0174 |
0.0684 |
3 |
1.13 |
7.7 |
6.8907 |
-0.8093 |
0.6550 |
0.1051 |
0.1206 |
… |
… |
… |
… |
… |
… |
… |
… |
49 |
1.15 |
9.8 |
7.0636 |
-2.7364 |
7.4879 |
0.2792 |
0.0304 |
50 |
1.29 |
6.1 |
8.4192 |
2.3192 |
5.3789 |
0.3802 |
1.3953 |
Сумма |
57.49 |
361.9 |
361.9018 |
0.0018 |
136.693 |
10.6881 |
117.7176 |
Отсюда получим:
Dобъясн уравн = 117,7176/50 = 2,354;
теоретический коэффициент детерминации
R2 = 2,354/5,088 =0,463
теоретическое
корреляционное отношение
средняя относительная погрешность аппроксимации
ε = 10,6881100/50= 21,4%;
средняя квадратическая погрешность уравнения
т/вых.
Сравнив результаты, можно сделать вывод, что нелинейная параболическая модель регрессии незначительно улучшает результаты, поэтому окончательно можно оставить линейную модель зависимости между мощностью пласта Х и производительностью рабочего У:
= 9,21х – 3,36 .
Пункт
13. Используя линейное уравнение регрессии
дадим точечный прогноз для У при Х =
1,8 м:
= 9,211,8
– 3,36
= 13,2 т/вых.
Следовательно, при мощности пласта 1,8 м средняя производительность труда рабочего очистного забоя для струговых установок на антрацитовых шахтах прогнозируется равной 13,2 т/вых. Ошибка прогноза составляет не более 21,7% .
