- •Основы статистического анализа
- •1 Основные задачи статистического анализа
- •1.1 Выборочный метод
- •1.2 Основные задачи статистического анализа
- •Задача 1
- •Пример 1
- •2 Первичная статистическая обработка результатов наблюдений
- •2.1 Графическое представление данных
- •2.2 Числовые характеристики вариационного ряда
- •2.3 Интервальные оценки (доверительные интервалы)
- •2.4 Определение достаточного объема выборки
- •3 Сравнение двух выборок.
- •4. Статистическая оценка расхождения между выборочными частотами.
- •5. Сравнение долей
- •6. Исследование зависимостей
- •6.1. Постановка задачи
- •6.2. Линейная зависимость
- •6.4. Множественная линейная зависимость
2.2 Числовые характеристики вариационного ряда
Пусть наблюдается с.в. : - результаты наблюдений (выборка). Признак характеризуется своими числовыми характеристиками: . Обозначим - произвольный неизвестный параметр. Одна из важнейших задач, которую мы сформулировали выше, следующая: как по результатам наблюдений оценить неизвестный параметр .
Обозначим - произвольную оценку параметра . Естественный вопрос: какие требования следует предъявить к оценкам и какую оценку следует выбрать из множества всех оценок. Коль скоро мы определили, что такое оценка, то надо научиться сравнивать разные оценки и научиться отыскивать наилучшие оценки. Представляется довольно очевидным, что поскольку в разных опытах выборки , вообще говоря, различны, то сравнивать надо не по их значениям для отдельных выборок , а по некоторым их суммарным характеристикам. Очевидно, любая оценка как функция от наблюдений является с.в. Рассмотрим две оценки:
Какая оценка лучше? Очевидно та, которая в среднем ближе к . Таким образом, из всех оценок нужно выбирать те, которые в среднем совпадают с оцениваемым параметром . Итак, имеем первое требование к оценкам - несмещенность, т.е. .
К акие еще требования необходимо предъявить к оценкам, чтобы еще более сузить класс оценок.
Снова обратимся к рисунку:
Ясно, что вторая оценка предпочтительнее, т.к. она имеет меньший разброс значений вокруг , а, следовательно, является более точной. Как мы помним, мерой разброса является дисперсия; чем меньше дисперсия, тем точнее в среднем оценка. Поэтому естественно из множества несмещенных оценок выбрать оценку с минимальной дисперсией, т.е. такую оценку , что
где - несмещенная оценка.
Такую оценку будем называть эффективной. Итак, имеем:
Наконец, нетрудно увидеть еще одно естественное требование к оценкам: Если , то (должна!). Такую оценку будем называть состоятельной.
И так:
Итак, найти «хорошую» оценку для неизвестного параметра - это найти несмещенную, эффективную и состоятельную оценку. Как ее найти? Существуют различные методы нахождения, например, метод максимального правдоподобия.
Пример3. Приведем «хорошие» оценки для основных числовых характеристик ГС:
-
- среднее арифметическое;
-
- выборочная дисперсия;
-
- выборочная вариация;
-
- выборочный коэффициент асимметрии;
-
- выборочный коэффициент эксцесса;
Замечание 1. Для простоты вычислений в случае равностоящих () удобно вводить в рассмотрение «ложный» нуль (центр), который расположен приблизительно в середине ряда наблюдений. Тогда вместо исходного вариационного ряда рассматривают вспомогательный, который получается заменой переменных , где - «ложный» нуль, - расстояние между соседними вершинами ряда наблюдений.
Тогда:
,
и, следовательно,
.
Пример 4. Выборка 250, 260, 250, 270, 260, 280, 280, 300, 300, 290, 290, 300, 250, 270, 280.
Вариационный ряд:
;
|
250 |
260 |
270 |
280 |
290 |
300 |
4 |
2 |
2 |
3 |
2 |
3 |
Используем преобразование исходного ряда: , где , . Тогда будем иметь новый вариационный ряд:
-3 |
-2 |
-1 |
0 |
1 |
2 |
|
4 |
2 |
2 |
3 |
2 |
3 |
Следовательно, . И тогда , , .
.
Очевидно, прямой подсчет данных характеристик без рассмотрения вспомогательного вариационного ряда вызвал бы значительно больше затраты вычислительного плана.