
- •Предисловие
- •Введение
- •1 Первичная обработка статистических данных.
- •1.1 Проверка данных
- •1.2 Группировка статистических данных
- •1.3 Графическое представление статистических данных
- •1.4 Задача 1. Первичная обработка
- •2 Точечные оценки параметров распределения.
- •2.1 Несгруппированные статистические данные
- •2.2 Статистические дискретный и интервальный ряды
- •2.3 Метод “условного нуля”
- •2.2.4 Задача 1. Точечные оценки
- •Выборочное среднее квадратическое отклонение равно
- •Выборочное среднее квадратическое отклонение равно
- •3 Интервальные оценки параметров распределения
- •3.1 Доверительные интервалы для некоторых параметров распределения
- •3.2 Примеры построения доверительных интервалов
- •4 Проверка статистических гипотез
- •4.1 Сравнение двух дисперсий нормально распределенных генеральных совокупностей
- •4.2 Сравнение двух математических ожиданий нормально распределенных генеральных совокупностей, дисперсии которых неизвестны и одинаковы
- •4.3 Сравнение двух вероятностей биномиальных распределений
- •4.4 Проверка гипотезы о виде распределения генеральной совокупности по критерию Пирсона
- •4.5 Проверка гипотезы о виде распределения генеральной совокупности по критерию Колмогорова-Смирнова
- •4.6 Примеры
- •Выборочное среднее квадратическое отклонение равно
- •5 Элементы корреляционного и регрессионного анализа
- •5.1 Корреляционное поле
- •5.2 Эмпирическая ломаная регрессии
- •5.3 Эмпирический коэффициент детерминации и эмпирическое корреляционное отношение
- •5.4 Линейная регрессия
- •5.5 Проверка коэффициента корреляции на значимость.
- •5.6 Теоретический коэффициент детерминации и теоретическое корреляционное отношение
- •5.7 Нелинейная корреляция
- •5.8 Множественная регрессия
- •5.9 Оценка погрешности модели
- •5.10 Задача 1. Установления корреляционной зависимости
- •Реализация статистических расчетов при помощи компьютера
- •6.1 Табличный процессор Microsoft Excel
- •6.2 Пакет программ statistica
- •Задачи для самостоятельного решения
- •Вариант № 1
- •Вариант № 2
- •Вариант № 3
- •Вариант № 4
- •Вариант № 5
- •Вариант № 6
- •Вариант № 7
- •Вариант № 8
- •Вариант № 9
- •Вариант № 10
- •Вариант № 11
- •Вариант № 12
- •Вариант № 13
- •Вариант № 14
- •Вариант № 15
- •Вариант № 16
- •Вариант № 17
- •Вариант № 18
- •Вариант № 19
- •Вариант № 20
- •Вариант № 21
- •Вариант № 22
- •Вариант № 23
- •Вариант № 24
- •Вариант № 25
- •Вариант № 26
- •Вариант № 27
- •Вариант № 28
- •Вариант № 29
- •Вариант № 30
- •8. Контрольные задания по статистике для студентов дневной формы обучения
- •Основные вопросы теории математической статистики
- •Типы отборов и виды выборок.
- •8.2 Варианты контрольных работ Вариант № 1
- •Вариант № 2
- •Вариант № 3
- •Вариант № 4
- •Вариант № 5
- •Вариант № 6
- •Вариант № 7
- •Вариант № 8
- •Вариант № 9
- •Вариант № 10
- •Семестровые задания по статистике
- •9.1 Условие семестрового задания для студентов дневной формы обучения
- •9.2 Условие контрольной работы по статистике для студентов заочной формы обучения
- •9.3 Варианты заданий вариант 1
- •Вариант 2
- •Вариант 3
- •Пример выполнения контрольной работы по статистике для студентов заочной формы обучения
- •Выборочное среднее квадратическое отклонение равно
- •Выборочное среднее квадратическое отклонение равно
- •Приложения !!!! в отдельном файле “ Приложения” Рекомендуемая литература
1.3 Графическое представление статистических данных
Графически статистические данные представляются гистограммой и полигоном относительных частот, а также кумулятой. При построении гистограммы на оси абсцисс откладывают интервалы разбиения признака Х, при построении полигона – середины интервалов разбиения признака х i . По оси ординат в каждом случае откладывают ординаты wi/h. Полученную ступенчатую фигуру называют гистограммой, ломаную линию – полигоном.
При построении кумуляты на оси абсцисс откладывают интервалы разбиения признака Х, а по оси ординат откладывают рассчитанные ординаты кумуляты, причем крайняя левая точка имеет нулевую ординату, остальные значения ординат берутся из таблицы и соответствуют границам интервалов.
1.4 Задача 1. Первичная обработка
В качестве примера возьмем задачу об установлении корреляционной зависимости между мощностью пласта и производительностью рабочего. В дальнейшем эта задача будет использоваться нами как основная учебная на всех этапах исследования.
Задача1. В нижеследующей таблице собраны сведения о производительности труда рабочего очистного забоя для струговых установок на антрацитовых шахтах. Обозначения: Х – мощность пласта, м; У – производительность рабочего (средняя за месяц), т/вых.
Таблица1
Х |
1,13 |
1,14 |
1,13 |
1,13 |
1,14 |
1,09 |
1,53 |
1,5 |
1,44 |
1,4 |
1,5 |
1,35 |
1,4 |
У |
8,4 |
7,1 |
7,7 |
7,6 |
8,2 |
6,9 |
10,9 |
11,4 |
13,5 |
9,5 |
9,2 |
10,7 |
12,5 |
Х |
1,11 |
0,91 |
0,96 |
0,96 |
0,96 |
1,23 |
0,97 |
1,11 |
0,99 |
1 |
1,33 |
1,15 |
1,15 |
У |
7,9 |
3,7 |
5,6 |
6,8 |
6,9 |
7,1 |
6,1 |
5,8 |
6,4 |
3,4 |
8,2 |
6,5 |
6,2 |
Х |
1,12 |
1,15 |
1,15 |
0,88 |
1,28 |
1,12 |
1,2 |
1,24 |
0,85 |
1,2 |
1,12 |
1,24 |
0,91 |
У |
4,9 |
6,4 |
6,1 |
5,6 |
6,4 |
6,8 |
6 |
5,5 |
4,8 |
3,5 |
10,1 |
6,2 |
3,2 |
Х |
1 |
0,94 |
1,11 |
1,13 |
1,13 |
1,33 |
0,94 |
0,83 |
1,1 |
1,5 |
1,2 |
1,15 |
1,29 |
У |
7,8 |
4,1 |
5,1 |
8,5 |
8,7 |
8 |
6,2 |
14 |
9,6 |
1 |
8,3 |
9,8 |
6,1 |
1. Провести первичную обработку статистических данных (включая проверку данных). Результаты представить в виде таблиц. Построить статистические ряды для каждого признака.
2. Построить гистограмму, полигон относительных частот и кумуляту по каждому признаку.
3. Используя метод “условного нуля”, определить числовые характеристики выборок по каждому признаку: выборочное среднее; выборочную дисперсию; исправленную выборочную дисперсию; исправленное выборочное среднее квадратическое отклонение. Дать объяснение полученным результатам.
4. Для каждого признака построить 99% или 95% доверительные интервалы для оценки генеральных средних, генеральных средних квадратических отклонений. Дать объяснение полученным результатам.
5. При уровне значимости =0,05 или =0,1 проверить гипотезы о нормальных законах распределения генеральных совокупностей по каждому признаку.
6. Для признаков X и Y построить корреляционное поле, эмпирическую ломанную регрессии и дать предварительный анализ зависимости между признаками.
7. Для признаков X и Y вычислить эмпирический коэффициент детерминации и эмпирическое корреляционное отношение.
8. Определить параметры уравнения линейной регрессии.
9. Определить коэффициент корреляции и проверить его на значимость. Сделать вывод о наличии линейной связи между признаками.
10. Составить нелинейное уравнение регрессии, выбрав подходящий тип нелинейности.
11. Построить полученные линии регрессии в одной системе координат.
12. Для всех моделей рассчитать теоретический коэффициент детерминации и теоретическое корреляционное отношение; среднюю квадратическую погрешность уравнения; среднюю относительную погрешность аппроксимации.
13. Используя лучшее из полученных уравнений регрессии дать точечный прогноз значения У при мощности пласта X = 1,8м .
Р
ешение
задачи начнем с проверки исходных
данных. Построим корреляционное поле,
в котором будут представлены 52 точки
(объем выборки n
= 52).
Из построенной диаграммы видим, что две точки (0,83; 14) и (1,5; 1) “выскакивают” из общей совокупности. Анализ исходных данных с позиции возможности большой производительности (у=14 т/вых) при малой мощности пласта (х = 0,83 м) и малой производительности (у=1 т/вых) при большой мощности пласта (х=1,5 м) позволяет отнести эти точки к ошибочным и исключить их из дальнейшего рассмотрения. Следовательно, объем выборки на этом этапе принимается n = 50.
Продолжим решение задачи.
а) Для признака Х определим наибольшее и наименьшее значение признака: Xmin=0,85 ; Xmax=1,53 ;
Число интервалов разбиения определим по формуле Стэрджесса:
k =1 + 3,322 lg n = 1 + 3,322 lg 50 = 6,6 7.
Найдем шаг разбиения h = (Хmax – Xmin) / k.
В данном случае h = (1,53 – 0,85) / 7 = 0,097. Примем h = 0,1.
Произведем группировку данных для признака Х. Для этого подсчитаем, сколько значений признака Х попадет в каждый из интервалов разбиения. Причем, при совпадении значения признака с одной из границ интервала, включаем это значение в левый интервал. Результаты группировки заносим в табл.2. В третьем столбце таблицы заносятся штриховые отметки. Это удобный прием подсчета частот. Начинают с первого элемента выборки. В нашем случае он равен 1,13. Затем находят интервал (1,05 – 1,15), в который это наблюдение попадает, и ставят в третьем столбце штриховую отметку. Остальные наблюдения обрабатывают аналогично в том порядке, в котором они представлены в начальной выборке.
Если пользователь может использовать табличный процессор Excel, то после ввода признака Х можно данные рассортировать в порядке возрастания, и тогда штриховые отметки не понадобятся.
б) Для признака У определим наибольшее и наименьшее значение признака: уmin=3,2 ; уmax=13,5 Число интервалов разбиения определим по формуле Стэрджесса:
k =1 + 3,322 lg n = 1 + 3,322 lg 50 = 7
Найдем шаг разбиения h = (ymax – ymin) / k.
В данном случае h = (13,5 – 3,2) / 7 = 1,471. Примем h = 1,48.
Произведем группировку данных для признака У. Результаты группировки заносим в табл.3
Таблица 2 Обработка признака Х
№
|
Интервалы |
Штриховая отметка |
Частоты ni |
Середина интервала хi |
Частости |
Ордината гистогр. |
Накопленные частоты |
Ордината кумуляты |
1 |
0,85 - 0,95 |
IIIIII |
6 |
0,9 |
0,12 |
1,2 |
6 |
0,12 |
2 |
0,95 -1,05 |
IIIIIII |
7 |
1 |
0,14 |
1,4 |
13 |
0,26 |
3 |
1,05 -1,15 |
IIIIIIIIIIIIIIIIIIII |
20 |
1,1 |
0,4 |
4 |
33 |
0,66 |
4 |
1,15 -1,25 |
IIIIII |
6 |
1,2 |
0,12 |
1,2 |
39 |
0,78 |
5 |
1,25 -1,35 |
IIIII |
5 |
1,3 |
0,1 |
1 |
44 |
0,88 |
6 |
1,35 -1,45 |
III |
3 |
1,4 |
0,06 |
0,6 |
47 |
0,94 |
7 |
1,45 -1,55 |
III |
3 |
1,5 |
0,06 |
0,6 |
50 |
1 |
|
|
|
50 |
|
1 |
10 |
|
|
Таблица 3 Обработка признака У
№
|
Интервалы |
Штриховая отметка |
Частоты ni |
Середина интервала yi |
Частости |
Ордината гистогр. |
Накопленные частоты |
Ордината кумуляты |
1 |
3,2 - 4,68 |
IIIII |
5 |
3,94 |
0,1 |
0,068 |
5 |
0,1 |
2 |
4,68 - 6,16 |
IIIIIIIIIIII |
12 |
5,42 |
0,24 |
0,162 |
17 |
0,34 |
3 |
6,16 - 7,64 |
IIIIIIIIIIIIII |
14 |
6,9 |
0,28 |
0,189 |
31 |
0,62 |
4 |
7,64 - 9,12 |
IIIIIIIIII |
10 |
8,38 |
0,2 |
0,135 |
41 |
0,82 |
5 |
9,12 - 10,6 |
IIII |
4 |
9,86 |
0,08 |
0,054 |
45 |
0,9 |
6 |
10,6 -12,08 |
III |
3 |
11,34 |
0,06 |
0,041 |
48 |
0,96 |
7 |
12,08-13,56 |
II |
2 |
12,82 |
0,04 |
0,027 |
50 |
1 |
|
|
|
50 |
|
1 |
0,676 |
|
|
По результатам таблиц записываем статистические ряды для признаков Х и У.
Таблица 4. Признак Х
Интервал |
0,85-0,95 |
0,95-1,05 |
1,05-1,15 |
1,15-1,25 |
1,25-1,35 |
1,35-1,45 |
1,45-1,55 |
х i |
0,9 |
1 |
1,1 |
1,2 |
1,3 |
1,4 |
1,5 |
ni |
6 |
7 |
20 |
6 |
5 |
3 |
3 |
Таблица 5. Признак У
Интервал |
3,2- 4,68 |
4,68-6,16 |
6,16-7,64 |
7,64-9,12 |
9,12-10,6 |
10,6-12,08 |
12,08-13,56 |
y i |
3,94 |
5,42 |
6,9 |
8,38 |
9,86 |
11,34 |
12,82 |
ni |
5 |
12 |
14 |
10 |
4 |
3 |
2 |
Графически статистические данные представляем гистограммой и полигоном относительных частот, а также кумулятой. При построении гистограммы на оси абсцисс откладывают интервалы разбиения признака Х, при построении полигона – середины интервалов разбиения признака х i . По оси ординат в каждом случае откладывают ординаты wi/h.. Полученную ступенчатую фигуру называют гистограммой, ломаную линию – полигоном.