- •Содержание
- •Введение
- •РазделI. Статистические методы обработки данных
- •Глава 1. Вариационные ряды и их характеристики
- •1.1. Первичная обработка результатов наблюдений
- •1.2. Графическое представление статистических данных
- •1.3. Расчет выборочных характеристик статистического распределения
- •1.4. Интервальные (доверительные) оценки параметров распределения
- •Контрольные вопросы
- •Глава 2. Проверка статистических гипотез
- •2.1. Построение кривой нормального распределения
- •2.2. Классический метод проверки гипотез
- •2.3. Проверка гипотез о законе распределения
- •Критерий Пирсона
- •Критерий Колмогорова
- •Контрольные вопросы
- •Глава 3. Парная регрессия и корреляция
- •3.1. Понятие функциональной, статистической и корреляционной зависимости
- •3.2. Линейная модель парной регрессии и корреляции
- •3.3. Нелинейные модели парной регрессии и корреляции
- •Контрольные вопросы
- •Глава 4. Множественная регрессия и корреляция
- •4.1.Спецификация модели. Отбор факторов при построении уравнения множественной регрессии
- •4.2. Метод наименьших квадратов (мнк). Свойства оценок на основе мнк
- •4.3. Проверка существенности факторов и показатели качества регрессии
- •Контрольные вопросы
- •Раздел II. Лабораторный практикум
- •Выполнение работы
- •Лабораторная работа № 2. Построение модели линейной регрессии (случай несгруппированных данных)
- •Выполнение работы
- •Лабораторная работа № 3. Построение уравнения модели линейной регрессии (случай сгруппированных данных)
- •Выполнение работы
- •Лабораторная работа № 4. Изучение модели нелинейной регрессии
- •Выполнение работы
- •Лабораторная работа № 5. Построение модели множественной регрессии
- •Выполнение работы
- •Лабораторная работа № 6. Прогнозирование. Анализ аддитивной модели
- •Выполнение работы
- •Варианты индивидуальных заданий Варианты заданий к лабораторной работе № 1.
- •Варианты заданий к лабораторной работе № 2.
- •Варианты заданий по лабораторной работе № 3
- •Варианты заданий по лабораторной работе № 4
- •Варианты заданий к лабораторной работе № 5.
- •Варианты заданий к лабораторной работе № 6.
- •Тестовые задания
- •Список литературы
- •Приложения
- •Статистические методы обработки данных
- •Библиотечно-издательский комплекс
- •625000, Тюмень, ул. Володарского, 38. Типография библиотечно-издательского комплекса.
- •625039, Тюмень, ул. Киевская, 52.
Выполнение работы
Обозначим через Х – число рабочих дней без простоя буровых бригад Тюменского региона.
1. По данным выборки строим интервальный вариационный ряд. Для этого найдем максимальное и минимальное значение данной выборки. Поскольку xmax = 272, xmin = 248, то размах варьирования признака Х (ф.1.1) равен R = xmax – xmin = 272 – 248 = 24.
Далее
определим число k
интервалов (число столбцов в таблице)
вариационного ряда (ф.1.2), положим
.
Длина
h
каждого частичного интервала равна
.
Так как исходные данные мало отличаются
друг от друга и содержат целые числа,
то величину h
округляем до целого:
.
В других случаях округлять не рекомендуется.
Подсчитываем число
вариант, попадающих в каждый интервал,
по данным выборки. Значение
,
попадающее на границу интервала, относим
к левому концу. За начало
первого интервала берем величину
.
Конец
последнего интервала находим по формуле
.
Сформированный интервальный вариационный
ряд записываем в виде табл. 2.2.
Таблица 2.2
Варианты- интервалы |
246- 249 |
249- 252 |
252- 255 |
255- 258 |
258- 261 |
261- 264 |
264- 267 |
267- 270 |
270- 273 |
Частоты, ni |
1 |
2 |
5 |
21 |
77 |
45 |
21 |
9 |
1 |
Выполним
контроль вычислений:
,
и объем выборки
.
Записываем дискретный вариационный ряд. В качестве вариант берем середины интервалов интервального вариационного ряда.
Таблица 2.3
варианты, |
247,5 |
250,5 |
253,5 |
256,5 |
259,5 |
262,5 |
265,5 |
268,5 |
271,5 |
частоты, ni |
1 |
2 |
5 |
21 |
77 |
45 |
21 |
9 |
1 |
Изображаем интервальный и дискретный вариационные ряды графически, построив гистограмму и полигон частот в одной системе координат (рис. 2.1).
2. Строим график накопленных частот — кумуляту.
Предварительно составляем расчетную табл. 2.4
Таблица 2.4
Варианты, |
247,5 |
250,5 |
253,5 |
256,5 |
259,5 |
262,5 |
265,5 |
268,5 |
271,5 |
относительные частоты, wi = ni/ n |
0,0055 |
0,0110 |
0,0275 |
0,1154 |
0,4231 |
0,2473 |
0,1154 |
0,0495 |
0,0055 |
накопительные относительные частоты, Wi = Wi – 1 + wi |
0,0055 |
0,0165 |
0,0440 |
0,1593 |
0,5824 |
0,8297 |
0,9451 |
0,9945 |
1 |
Рис. 2.1. Гистограмма и полигон
3. Находим эмпирическую функцию распределения. Воспользуемся формулой (ф.1.6):
Fв
(x)
.
Если х247,5, то Fв (x) = 0 – по свойству эмпирической функции распределения.
Если 247,5< х250,5,
то Fв (x)
.
Если 250,5< х253,5,
то Fв (x)
.
Если 253,5< х256,5,
то Fв (x)
.
Если 256,5< х259,5,
то Fв (x)
.
Если 259,5< х262,5,
то Fв (x)
.
Если 262,5< х265,5,
то Fв (x)
.
Если 265,5< х268,5,
то Fв (x)
.
Если 268,5< х271,5,
то Fв (x)
.
Если
,
то Fв (x)
= 1 – по свойству эмпирической функции
распределения.
Записываем полученную эмпирическую функцию в виде:
Fв
(x)
График функции Fв (x) представлен на рис. 2.3.
Соединив
середины вертикальных частей ступенчатой
кусочно-постоянной кривой, являющейся
графиком функции Fв
(x), получаем плавную
кривую (на рис. 2.3 это штриховая линия).
Абсциссами точек этой кривой служат
значения чисел рабочих дней без простоя,
а ординатами – значения эмпирической
функции распределения, характеризующей
оценку вероятности события X
,
т.е. вероятности попадания возможных
значений чисел рабочих дней без простоя
для пятидесяти буровых бригад на
промежуток
.
Для
нахождения числовых характеристик
признака Х – чисел рабочих дней без
простоя (несмещенных оценок для
,
,
а также
,
,
,
)
воспользуемся табл. 2.3.
Так
как варианта
в табл. 2.3 встречается с наибольшей
частотой
,
то
,
т.е. это значение чисел рабочих дней без
простоя, встречающееся в данной выборке
с наибольшей частотой.
Находим
.
Так как табл. 2.3 содержит нечетное число
столбцов, то
.
Это значение чисел рабочих дней без
простоя, которое делит данные выборки
признака Х на равные части.
Рис. 2.2. Кумулятивная кривая
Для
нахождения остальных статистик,
характеризующих число рабочих дней без
простоя, воспользуемся методом
произведений. Введем условные варианты
(что существенно облегчит расчеты)
;
,
.
Составим расчетную табл. 2.5.
Таблица 2.5
|
|
|
|
|
|
|
контрольный столбец
|
247,5 |
1 |
-4 |
-4 |
16 |
-64 |
256 |
9 |
250,5 |
2 |
-3 |
-6 |
18 |
-54 |
162 |
8 |
253,5 |
5 |
-2 |
-10 |
20 |
-40 |
80 |
5 |
256,5 |
21 |
-1 |
-21 |
21 |
-21 |
21 |
0 |
259,5 |
77 |
0 |
0 |
0 |
0 |
0 |
77 |
262,5 |
45 |
1 |
45 |
45 |
45 |
45 |
180 |
265,5 |
21 |
2 |
42 |
84 |
168 |
336 |
189 |
268,5 |
9 |
3 |
27 |
81 |
243 |
729 |
144 |
271,5 |
1 |
4 |
4 |
16 |
64 |
256 |
25 |
|
182 |
0 |
77 |
301 |
341 |
1885 |
637 |
После расчетов необходимо выполнить контроль вычислений. Для этого воспользуемся формулой:
т.е.
.
С
ледовательно,
вычисления выполнены верно.
Рис. 2.3. Кумулята и эмпирическая функция распределения
Пользуясь результатами последней строки табл. 2.5, находим условные начальные моменты (ф.1.29 – 1.32):
,
,
,
.
Далее находим выборочную среднюю. Можно воспользоваться формулой средней арифметической, но в случае большой выборки можно использовать следующую формулу (ф.1.33):
.
Данная формула характеризует среднее число рабочих дней без простоя и составляет 261 рабочий день.
Находим выборочную дисперсию и выборочное среднее квадратичное отклонение (ф.1.34, 1.35):
.
Величина
выборочного среднего квадратичного
отклонения
характеризует степень рассеяния значений
числа рабочих дней без простоя относительно
среднего числа рабочих дней.
Далее вычислим коэффициент вариации (ф.1.40):
.
Величина коэффициента вариации мала (составляет 1%), что означает достаточно тесную сгруппированность значений числа рабочих дней без простоя около центра рассеяния, т.е. около средней.
Для предварительной оценки отклонения значений числа рабочих дней без простоя от нормального распределения вычисляем асимметрию и эксцесс (ф.1.36, 1,37). Сначала находим центральные моменты третьего и четвертого порядков (ф.1.38, 1.39):
.
.
Тогда в соответствии с этими расчетами находим:
,
.
Таким образом, получили что, значения и мало отличаются от нуля. Поэтому можно предположить близость данной выборки, характеризующей число рабочих дней без простоя, к нормальному распределению.
4. Произведем оценку генеральной средней и генерального среднеквадратического отклонения = S по выборочным статистикам и используя теорию доверительных интервалов для нормального распределения.
Доверительный
интервал для истинного значения числа
рабочих дней без простоя с надежностью
находим, согласно следующей формуле:
.
Согласно
приложению 1, при
и
находим
.
Записываем доверительный интервал:
,
или
.
Но
условия задачи таковы, что необходимо
записать интервал с целочисленными
значениями, то есть
.
Таким образом, среднее число рабочих дней без простоя (в количестве дней) по данным выборки должна находиться в промежутке .
Запишем
доверительный интервал для генерального
среднеквадратического отклонения
.
При заданных
и
по приложению 2 находим
.
Так как
,
то доверительный интервал записываем
в виде:
,
или
,
или
;
следовательно,
отклонения истинных значений число
рабочих дней без простоя не должны
выходить за пределы промежутка
.
Этот интервал поможет нам правильно подобрать и построить график нормального распределения.
5. Продолжим вероятностно-статистическую обработку результатов эксперимента. Значения полученных характеристик дают нам возможность предположить, что данная выборка подчиняется нормальному распределению. Для подтверждения (или опровержения) данной гипотезы выполним следующие действия.
Построим
теоретическую кривую. За основу берем
дискретный вариационный ряд в табл. 2.3
и значения
и
.
Эмпирическая
кривая распределения представляет
собой полигон частот. Для построения
теоретической (нормальной) кривой найдем
координаты точек
,
для чего рассчитаем теоретические
частоты
(табл. 2.6).
Таблица 2.6
|
ni |
|
|
|
|
|
247,5 |
1 |
-13 |
-3,642 |
0,00053 |
0,07875966 |
1 |
250,5 |
2 |
-10 |
-2,819 |
0,00751 |
1,125948282 |
1 |
253,5 |
5 |
-7 |
-1,995 |
0,05452 |
8,170837687 |
8 |
256,5 |
21 |
-4 |
-1,172 |
0,20084 |
30,0987358 |
30 |
259,5 |
77 |
-1 |
-0,348 |
0,37555 |
56,28121406 |
56 |
262,5 |
45 |
2 |
0,475 |
0,35646 |
53,42102176 |
53 |
265,5 |
21 |
5 |
1,298 |
0,17175 |
25,73916502 |
26 |
268,5 |
9 |
8 |
2,122 |
0,04201 |
6,295210389 |
6 |
271,5 |
1 |
11 |
2,945 |
0,00522 |
0,781555052 |
1 |
- функция, значения которой находят по приложению 3.
Строим эмпирическую и теоретическую кривые.
Рис. 2.4. Эмпирическая и теоретическая кривые
Проверим
согласованность эмпирического
распределения (число рабочих дней без
простоя) с теоретическим нормальным по
критерию Пирсона. Вычислим величину
по формуле:
.
Для нахождения суммы составляем расчетную табл. 2.7.
Таблица 2.7
|
|
|
|
|
1 |
1 |
0 |
0 |
0 |
2 |
1 |
1 |
1 |
1 |
5 |
8 |
-3 |
9 |
1,125 |
21 |
30 |
-9 |
81 |
2,7 |
77 |
56 |
21 |
441 |
7,875 |
45 |
53 |
-8 |
64 |
1,20754717 |
21 |
26 |
-5 |
25 |
0,961538462 |
9 |
6 |
3 |
9 |
1,5 |
1 |
1 |
0 |
0 |
0 |
|
|
|||
Находим
число степеней свободы
.
Выбираем уровень значимости
и по таблице критических точек
распределения
(приложение 4) находим
.
Так как,
,
то делаем вывод, что данные выборки,
характеризующие число рабочих дней без
простоя, не подчиняются нормальному
закону распределения.
Проведём
проверку близости эмпирического
распределения к нормальному по критерию
Романовского. Вычислим величину
.
Так как,
,
,
то
,
т.е. расхождение между эмпирическим и
теоретическим распределением
несущественно, что позволяет утверждать,
что данные выборки, характеризующие
число рабочих дней без простоя по
критерию Романовского подчиняются
нормальному закону распределения.
Итак, для проверки согласованности эмпирического распределения с теоретическим нормальным мы применили два критерия, один из них подтвердил близость выборочной совокупности к нормальному распределению. В данном случае необходимо применить еще один или несколько критериев, для того чтобы сделать окончательный вывод.
Магистрам предлагается сделать это самостоятельно.
