
- •Предисловие
- •Введение
- •1 Первичная обработка статистических данных.
- •1.1 Проверка данных
- •1.2 Группировка статистических данных
- •1.3 Графическое представление статистических данных
- •1.4 Задача 1. Первичная обработка
- •2 Точечные оценки параметров распределения.
- •2.1 Несгруппированные статистические данные
- •2.2 Статистические дискретный и интервальный ряды
- •2.3 Метод “условного нуля”
- •2.2.4 Задача 1. Точечные оценки
- •Выборочное среднее квадратическое отклонение равно
- •Выборочное среднее квадратическое отклонение равно
- •3 Интервальные оценки параметров распределения
- •3.1 Доверительные интервалы для некоторых параметров распределения
- •3.2 Примеры построения доверительных интервалов
- •4 Проверка статистических гипотез
- •4.1 Сравнение двух дисперсий нормально распределенных генеральных совокупностей
- •4.2 Сравнение двух математических ожиданий нормально распределенных генеральных совокупностей, дисперсии которых неизвестны и одинаковы
- •4.3 Сравнение двух вероятностей биномиальных распределений
- •4.4 Проверка гипотезы о виде распределения генеральной совокупности по критерию Пирсона
- •4.5 Проверка гипотезы о виде распределения генеральной совокупности по критерию Колмогорова-Смирнова
- •4.6 Примеры
- •Выборочное среднее квадратическое отклонение равно
- •5 Элементы корреляционного и регрессионного анализа
- •5.1 Корреляционное поле
- •5.2 Эмпирическая ломаная регрессии
- •5.3 Эмпирический коэффициент детерминации и эмпирическое корреляционное отношение
- •5.4 Линейная регрессия
- •5.5 Проверка коэффициента корреляции на значимость.
- •5.6 Теоретический коэффициент детерминации и теоретическое корреляционное отношение
- •5.7 Нелинейная корреляция
- •5.8 Множественная регрессия
- •5.9 Оценка погрешности модели
- •5.10 Задача 1. Установления корреляционной зависимости
- •Реализация статистических расчетов при помощи компьютера
- •6.1 Табличный процессор Microsoft Excel
- •6.2 Пакет программ statistica
- •Задачи для самостоятельного решения
- •Вариант № 1
- •Вариант № 2
- •Вариант № 3
- •Вариант № 4
- •Вариант № 5
- •Вариант № 6
- •Вариант № 7
- •Вариант № 8
- •Вариант № 9
- •Вариант № 10
- •Вариант № 11
- •Вариант № 12
- •Вариант № 13
- •Вариант № 14
- •Вариант № 15
- •Вариант № 16
- •Вариант № 17
- •Вариант № 18
- •Вариант № 19
- •Вариант № 20
- •Вариант № 21
- •Вариант № 22
- •Вариант № 23
- •Вариант № 24
- •Вариант № 25
- •Вариант № 26
- •Вариант № 27
- •Вариант № 28
- •Вариант № 29
- •Вариант № 30
- •8. Контрольные задания по статистике для студентов дневной формы обучения
- •Основные вопросы теории математической статистики
- •Типы отборов и виды выборок.
- •8.2 Варианты контрольных работ Вариант № 1
- •Вариант № 2
- •Вариант № 3
- •Вариант № 4
- •Вариант № 5
- •Вариант № 6
- •Вариант № 7
- •Вариант № 8
- •Вариант № 9
- •Вариант № 10
- •Семестровые задания по статистике
- •9.1 Условие семестрового задания для студентов дневной формы обучения
- •9.2 Условие контрольной работы по статистике для студентов заочной формы обучения
- •9.3 Варианты заданий вариант 1
- •Вариант 2
- •Вариант 3
- •Пример выполнения контрольной работы по статистике для студентов заочной формы обучения
- •Выборочное среднее квадратическое отклонение равно
- •Выборочное среднее квадратическое отклонение равно
- •Приложения !!!! в отдельном файле “ Приложения” Рекомендуемая литература
1.1 Проверка данных
Очень важно, чтобы данные, полученные при статистическом анализе, были тщательно проверены и отредактированы до начала более сложного анализа. Никогда не следует забывать пословицу статистиков: «Мусор на входе – мусор на выходе».
Проверка данных может осуществляться на многих этапах статистических исследований:
по корреляционному полю до первичной обработки данных при двумерном статистическом анализе;
по статистическому ряду при одномерном анализе;
по закону распределения при одномерном анализе.
Для проверки по корреляционному полю случайных величин Х и У, не разбитых на дискретные категории, необходимо построить точки в прямоугольной системе координат (х1 ;y1), (х2 ;y2), ..., (хi ;yi), …, (хn ;yn) . Полученное поле точек (диаграмма рассеяния) позволяет определить грубые ошибки и выбросы, не замеченные одномерным анализом каждой из переменных.
Для примера приведем корреляционное поле, где отмечены две точки, которые явно являются ошибочными.
выбросы
В случаях выявления подобных точек не следует автоматически исключать их из выборки. Сначала надо проанализировать ситуацию, выявить возможные пути ошибок в каждом конкретном случае, а затем принимать решение по исключению данных из выборки. Если таких точек будет много, то, возможно, их надо выделить в отдельную группу.
В некоторых случаях с помощью корреляционного поля можно выявить не только аномальности в числовых данных, но и установить некоторые закономерности.
Возьмем такой пример. Пусть требуется установить, как мощность разрабатываемого пласта влияет на суточную участковую добычу угля. Была взята простая случайная бесповторная выборка по ряду показателей из нескольких шахт. Построено корреляционное поле.
В
Н
Из данной диаграммы видно, что множество точек корреляционного поля четко распадается на два подмножества (верхнее В и нижнее Н). Последующий анализ данных с учетом других, в том числе и качественных признаков, выявил, что множество Н соответствует выбросоопасным пластам угля, а множество В – не выбросоопасным пластам. Поэтому, на данном этапе исследования целесообразно проводить обработку статистических данных отдельно для выбросоопасных и не выбросоопасных пластов.
1.2 Группировка статистических данных
Первичная обработка статистических данных позволяет получить из исходного материала путем группировки статистический ряд (точечный или интервальный), а также эмпирическую плотность распределения и эмпирическую функцию распределения признака Х. Основные этапы первичной обработки:
а) определение минимального (хmin) и максимального (хmах) элементов выборки;
б) определение рационального числа интервалов разбиения. Здесь нужно использовать формулу Стэрджесса:
k = 1 + 3,322 lg n при n <100;
k 10 при n 100.
в) определение шага интервала h = (хmax – хmin) / k
*допускается округлять в удобную для пользователя сторону.
г) подсчет числа частот ni (можно при помощи штриховой отметки);
д) заполнение таблицы. Шаблон таблицы приводится ниже.
№
|
Интервалы |
Штриховая отметка |
Частота ni |
Середина интервала хi |
Частости wi |
Ордината гистограммы |
Накопленные частоты |
Ордината кумуляты |
1 |
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
… |
|
|
|
|
|
|
|
|
|
|
|
S1 |
|
S2 |
S3 |
|
|
Частости вычисляются по формуле: wi= ni/n.
Гистограмма характеризует эмпирическую плотность распределения, и ординаты ее точек определяются по формуле: yi= wi/h. Также по этим точкам строят полигон относительных частот. Если плотность распределения генеральной совокупности является достаточно гладкой функцией, то полигон относительных частот является более хорошим приближением плотности, чем гистограмма.
Накопленные частоты для каждого i –го интервала находятся как суммы частот ni , начиная с первого интервала по i –ый.
Кумулята является графиком эмпирической функции распределения и ее ординаты равны накопленным частотам, деленным на объем выборки n.
Последняя строка таблицы содержит суммы элементов некоторых столбцов и используется для контроля. При правильном заполнении таблицы должны выполняться следующие равенства:
S1 = n ; S2 = 1 ; S3h =1 .
Заполненная таблица позволяет записать статистический ряд (точечный или интервальный), а также построить гистограмму, кумуляту и полигон для данного распределения.