
- •Предисловие
- •Введение
- •1 Первичная обработка статистических данных.
- •1.1 Проверка данных
- •1.2 Группировка статистических данных
- •1.3 Графическое представление статистических данных
- •1.4 Задача 1. Первичная обработка
- •2 Точечные оценки параметров распределения.
- •2.1 Несгруппированные статистические данные
- •2.2 Статистические дискретный и интервальный ряды
- •2.3 Метод “условного нуля”
- •2.2.4 Задача 1. Точечные оценки
- •Выборочное среднее квадратическое отклонение равно
- •Выборочное среднее квадратическое отклонение равно
- •3 Интервальные оценки параметров распределения
- •3.1 Доверительные интервалы для некоторых параметров распределения
- •3.2 Примеры построения доверительных интервалов
- •4 Проверка статистических гипотез
- •4.1 Сравнение двух дисперсий нормально распределенных генеральных совокупностей
- •4.2 Сравнение двух математических ожиданий нормально распределенных генеральных совокупностей, дисперсии которых неизвестны и одинаковы
- •4.3 Сравнение двух вероятностей биномиальных распределений
- •4.4 Проверка гипотезы о виде распределения генеральной совокупности по критерию Пирсона
- •4.5 Проверка гипотезы о виде распределения генеральной совокупности по критерию Колмогорова-Смирнова
- •4.6 Примеры
- •Выборочное среднее квадратическое отклонение равно
- •5 Элементы корреляционного и регрессионного анализа
- •5.1 Корреляционное поле
- •5.2 Эмпирическая ломаная регрессии
- •5.3 Эмпирический коэффициент детерминации и эмпирическое корреляционное отношение
- •5.4 Линейная регрессия
- •5.5 Проверка коэффициента корреляции на значимость.
- •5.6 Теоретический коэффициент детерминации и теоретическое корреляционное отношение
- •5.7 Нелинейная корреляция
- •5.8 Множественная регрессия
- •5.9 Оценка погрешности модели
- •5.10 Задача 1. Установления корреляционной зависимости
- •Реализация статистических расчетов при помощи компьютера
- •6.1 Табличный процессор Microsoft Excel
- •6.2 Пакет программ statistica
- •Задачи для самостоятельного решения
- •Вариант № 1
- •Вариант № 2
- •Вариант № 3
- •Вариант № 4
- •Вариант № 5
- •Вариант № 6
- •Вариант № 7
- •Вариант № 8
- •Вариант № 9
- •Вариант № 10
- •Вариант № 11
- •Вариант № 12
- •Вариант № 13
- •Вариант № 14
- •Вариант № 15
- •Вариант № 16
- •Вариант № 17
- •Вариант № 18
- •Вариант № 19
- •Вариант № 20
- •Вариант № 21
- •Вариант № 22
- •Вариант № 23
- •Вариант № 24
- •Вариант № 25
- •Вариант № 26
- •Вариант № 27
- •Вариант № 28
- •Вариант № 29
- •Вариант № 30
- •8. Контрольные задания по статистике для студентов дневной формы обучения
- •Основные вопросы теории математической статистики
- •Типы отборов и виды выборок.
- •8.2 Варианты контрольных работ Вариант № 1
- •Вариант № 2
- •Вариант № 3
- •Вариант № 4
- •Вариант № 5
- •Вариант № 6
- •Вариант № 7
- •Вариант № 8
- •Вариант № 9
- •Вариант № 10
- •Семестровые задания по статистике
- •9.1 Условие семестрового задания для студентов дневной формы обучения
- •9.2 Условие контрольной работы по статистике для студентов заочной формы обучения
- •9.3 Варианты заданий вариант 1
- •Вариант 2
- •Вариант 3
- •Пример выполнения контрольной работы по статистике для студентов заочной формы обучения
- •Выборочное среднее квадратическое отклонение равно
- •Выборочное среднее квадратическое отклонение равно
- •Приложения !!!! в отдельном файле “ Приложения” Рекомендуемая литература
5.8 Множественная регрессия
Поскольку в горном деле важные производственные показатели чаще всего объясняются несколькими факторами, то для их прогноза применяется множественная регрессия, параметры которой определяются также по методу наименьших квадратов.
Общий
вид модели:
,
где
х1,
х2,
…, хk
– независимые
факторы, а у
– результирующий показатель. При этом
функция множественной регрессии
может быть как линейная, так и нелинейная.
Очень важным является вопрос о том, сколько независимых факторов может быть в уравнении множественной регрессии при заданном объеме выборки n. Обычно используют такое правило: число наблюдений должно быть не менее чем в 8-10 раз больше числа факторов в уравнении регрессии.
Наиболее удобная форма расчета линейной множественной регрессии – матричная. Приведем расчетные формулы, которые можно легко реализовать в компьютере при помощи пакета программ Mathcad.
Пусть
искомое уравнение регрессии имеет вид:
.
Введем
матрицу оценок параметров регрессии
.
Она неизвестна.
Для составления регрессии возьмем выборку объема n и запишем наблюдаемые значения признаков Х1, Х2, …, Хk и У.
На основании полученных данных запишем матрицы:
,
. Здесь хij
обозначает наблюдаемое значение i
- го признака для j-го
наблюдения.
В матричной форме уравнение регрессии имеет вид: ХА = У
Умножим обе части уравнения слева на транспонированную матрицу ХТ.
Получим: ХТХА = ХТ У. Обозначим матрицу моментов В = ХТХ. Тогда из матричного уравнения ВА = ХТ У можно найти матрицу оценок:
А = В–1 (ХТ У).
Расчет коэффициента детерминации производится по формуле:
.
Корреляционное отношение находится по формуле: .
Проверка
модели на адекватность осуществляется
по критерию Фишера:
, где n
– объем выборки,
k
– число переменных в уравнении
регрессии. Затем по таблице критические
точки распределения Фишера – Снедекора
(Приложение 7) находим критическое
значение критерия
Fкр = F( , k1 , k2),
где - значимость ошибки первого рода, k1 = k , k2, = n – k –1.
Если наблюдаемое значение критерия F окажется больше критического, то признаем полученную множественную регрессию адекватной; если же наблюдаемое значение критерия F окажется меньше критического, то делаем вывод, что построенная модель не адекватной реальной.
Замечание 1 Данный способ проверки модели на адекватность можно применять и для двумерных как линейных, так и нелинейных моделей.
Замечание 2 Матричный подход в составлении уравнения регрессии можно также использовать для случая линейной регрессии с одной переменной.
Рассмотрим пример составления множественной регрессии.
Задача. Исследуется зависимость месячной добычи угля по участку от мощности разрабатываемого пласта и глубины проведения работ.
Введем обозначения факторов:
У – месячная добыча угля; Х1 – мощность пласта, Х2 – глубина проведения работ.
Используя физическую сущность факторов, определим зависимые и независимые признаки.
Результативный (зависимый) признак – У ;
независимые признаки – Х1 и Х2 .
Исходные данные по 20 лавам, работающие примерно в одинаковых условиях, приводятся в таблице:
-
i
Y, тыс.тонн
X1 , м
X2 , м
1
22,260
1,37
1080
2
27,608
1,11
698
3
14,056
0,96
895
4
22,288
1,45
400
5
21,420
1,56
952
6
25,088
1,21
550
7
56,588
1,49
402
8
31,530
1,1
406
9
35,240
1,2
508
10
29,764
1,25
480
11
21,224
1,16
730
12
23,856
1,05
450
13
46,270
1,52
420
14
19,292
0,91
750
15
10,332
0,85
1560
16
13,972
0,92
1060
17
26,656
1,1
490
18
16,744
1,05
762
19
24,360
0,96
460
20
38,640
1,33
545
В данной задаче объем выборки равен n = 20.
Число независимых переменных равно k = 2.
Уравнение линейной регрессии имеет вид:
Расчеты осуществим при помощи пакета программ Mathcad.
Реализация расчетов всех необходимых параметров и характеристик данной задачи в среде Mathcad демонстрируется ниже.
Используя результаты расчетов, сделаем выводы.
1) Уравнение линейной регрессии имеет вид:
Значит, с увеличением мощности пласта (Х1) месячная добыча угля увеличивается, а с увеличением глубины работ (Х2) месячная добыча угля уменьшается.
2) Коэффициент детерминации равен R2 = 0,612. Следовательно, вариации признаков Х1 и Х2 объясняют 61,2% общей дисперсии результативного признака У. Остальная часть дисперсии У (38,8%) объясняется другими факторами, неучтенными в данной модели. Пользуясь шкалой Чеддока, можно утверждать, что между месячной добычей угля и независимыми факторами, такими как мощность пласта и глубина проведения работ существует заметная связь.
3) Корреляционное отношение для линейной множественной модели равно
R = 0,782.
4) Проверка модели на адекватность по критерию Фишера при уровне значимости ошибки первого рода = 0,05 подтверждает адекватность модели, так как наблюдаемое значение критерия F=13,389 больше критического значения Fкр = 3,592.