- •Основы статистического анализа
- •1 Основные задачи статистического анализа
- •1.1 Выборочный метод
- •1.2 Основные задачи статистического анализа
- •Задача 1
- •Пример 1
- •2 Первичная статистическая обработка результатов наблюдений
- •2.1 Графическое представление данных
- •2.2 Числовые характеристики вариационного ряда
- •2.3 Интервальные оценки (доверительные интервалы)
- •2.4 Определение достаточного объема выборки
- •3 Сравнение двух выборок.
- •4. Статистическая оценка расхождения между выборочными частотами.
- •5. Сравнение долей
- •6. Исследование зависимостей
- •6.1. Постановка задачи
- •6.2. Линейная зависимость
- •6.4. Множественная линейная зависимость
2 Первичная статистическая обработка результатов наблюдений
Пусть имеется выборка из . Обработку результатов наблюдений начинают с построения общей статистической модели, которая включает в себя:
-
графическое представление данных (полигон, гистограмма);
-
нахождение оценок для неизвестных параметров наблюдаемого признака .
Построение общей модели позволяет ответить на 2 вопроса:
а) решить в первом приближении поставленную задачу относительно ГС или изучаемого процесса;
б) нужна ли более точная модель.
Саму обработку данных начинают с исключения ошибочных (неоднородных) данных, для чего используется «правило 3 6», используя это правило, мы исключим из рассмотрения неоднородные данные.
2.1 Графическое представление данных
Пусть - выборка из ГС, причем могут совпадать. Обозначим - число элементов выборки, равных . Тогда .
Расположим выборку в порядке возрастания: - вариационный ряд. Удобно вариационный ряд представлять в виде таблицы:
-
. . .
где - частота появления признаков, равного .
Пример 1. Выборка: 5, 7, 8, 8, 9, 10, 10, 10, 2, 2, 2, 8, 2, 4. Это могут быть длины предложений, состоящие из 5, 7,…, 4 слов. Имеем вариационный ряд:
-
2
4
5
7
8
9
10
4
1
1
1
3
1
3
14.
Пусть - дискретный изучаемый признак с неизвестным распределением {}, .
Выше мы сформулировали задачу установления закона распределения признака . Решим задачу в первом приближении. Известно, что - относительная частота появления , причем , n, т.е. при неограниченном числе наблюдений, когда объем выборки стремится к объему ГС. Итак, относительные частоты мы можем использовать для оценки в первом приближении неизвестного закона распределения изучаемого признака , т.е. имеем . Графическое представление есть полигон (многоугольник) относительных частот.
Этот полигон есть оценка неизвестного многоугольника вероятностей:
Еще раз: если бы мы могли просмотреть все ГС, то сразу бы имели истинное распределение признака , но из-за невозможности делать это, мы строим полигон относительных частот, как приближенный вариант теоретического (неизвестного) распределения .
При большом объеме выборки целесообразно производить группировку данных. Для этого область , где , , разбивается на интервалов одинаковой длины и подсчитывается число элементов , попавших в интервал. Наиболее простой способ группирования состоит в следующем:
-
выбирается число интервалов , где - целая часть числа ;
-
Определяется длина интервала , причем округляется в сторону увеличения.
Тогда , тем самым учитываются все наблюдения .
Такой выбор , а, следовательно, и наиболее эффективен, т.к. полученные интервалы данной длины будут наиболее информативными.
Далее строится функция:
, при интервалу.
Ее называют гистограммой.
Очевидно,
Поскольку , то гистограмма есть оценка неизвестной плотности , задающей закон распределения непрерывного признака .
Можно построить гистограмму и для вариационного ряда:
-
. . .
.
Для этого строится функция
, , где . Тогда имеем:
Как правило, нас будет интересовать второй вид гистограммы, задающий оценку неизвестного распределения, т.к. мы в основном будем рассматривать дискретные признаки.
Пример 2 Дана выборка: 2, 3, 3, 1, 4, 3, …, 0, 0, …, 6, 4, …, 1,7; .
Построим вариационный ряд:
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
|
4 |
13 |
14 |
24 |
17 |
3 |
3 |
2 |
|
0.05 |
0.165 |
0.172 |
0.3 |
0.21 |
0.035 |
0.035 |
0.025 |
1.
Полигон относительных частот:
Гистограмма:
Вспомним, что теоретическое распределение (которое неизвестно для ) можно так же задать через функцию распределения : ее вид однозначно задает распределение признака . Поэтому задачу оценки теоретического распределения можно решать, строя оценку для . Для этого используется эмпирическая функция распределения (кумулята) .