Добавил:
СПбГУТ * ИКСС * Программная инженерия Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Камартина Н. М. Теория вероятностей и математическая статистика. Часть 2. Статистика.pdf
Скачиваний:
18
Добавлен:
17.06.2020
Размер:
1.15 Mб
Скачать

ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ ВЫБОРОЧНОЙ СОВОКУПНОСТИ

«Вариация» – это изменчивость, изменение. Наиболее распространенной оценкой вариации признака является выборочное среднее. Это обобщающий показатель совокупности, характеризующий уровень изучаемого явления или процесса. Средняя величина обобщает количественное выражение признака и погашает индивидуальные различия статистических величин совокупности, вызванные случайными обстоятельствами.

Выборочной средней называется среднее арифметическое всех наблюдаемых в выборке значений:

 

 

x1m1 x2m2 ...xk mk

k

 

 

 

xk mk .

(1)

x

n

 

 

i 1

 

 

 

 

 

Для интервального статистического ряда эта формула приобретает вид

 

k

 

 

 

xi mi

n

 

x

i 1

ximi*.

(2)

n

 

i 1

 

 

 

 

Здесь используются середины интервалов и относительные частоты. Выборочное среднее – это несмещенная оценка генерального матема-

тического ожидания и состоятельная оценка генеральной средней. С доказательством этого факта можно ознакомиться в [1].

Для решения вопроса о количественной характеристике степени рассеивания наблюдаемых значений относительно их среднего используют выборочную дисперсию. Это среднее арифметическое квадратов отклонений наблюдений относительно их средней.

Выборочной дисперсией называется значение случайной величины

 

n

x

x 2

 

 

Dв

 

i

.

(3)

 

i 1

 

 

n

 

 

 

 

 

 

Для ее вычисления используют известные из теории вероятностей

свойства:

 

 

 

 

для дискретного вариационного ряда

 

 

n

 

 

 

 

 

xi x 2 mi

 

n

 

Dв

i 1

 

xi x 2 mi*;

 

n

 

 

 

 

 

i 1

 

 

 

 

 

 

для интервального вариационного ряда

8

 

k

 

 

 

xi x 2 mi

k

 

Dв

i 1

xi x 2 mi*,

(4)

n

 

i 1

 

 

 

 

где xi – середина i-го интервала.

Свойством несмещенности эта оценка НЕ обладает [1]. Для того чтобы «исправить» этот недостаток, нужно умножить выборочную дисперсию

на число

n

. Тогда получится величина

 

 

 

 

 

 

 

 

n 1

 

 

 

 

 

 

s2

n

D ,

 

 

(5)

 

 

 

 

 

 

 

 

 

 

n 1

 

 

 

 

 

 

в

 

 

 

называемая исправленной выборочной дисперсией. Коэффициент

n

на-

 

 

n 1

зывается поправкой Бесселя. Дисперсия уже описывает разброс значений относительного среднего. Вот только ее размерность отличается от размерности самого признака. Поэтому более удобной мерой рассеивания являет-

ся среднее квадратическое отклонение s.

Величины x, s2 являются несмещенными, состоятельными и эффективными точечными оценками математического ожидания и дисперсии генеральной совокупности.

Медианой называется такое значение признака, которое делит весь ряд значений пополам. Медиана не зависит от величины крайних вариантов. Поэтому ее часто используют как более надежный, чем выборочное среднее, показатель типичного значения признака. Особенно это важно, если ряд значений неоднороден, в нем встречаются резкие отклонения от среднего. В интервальном ряду распределения для нахождения медианы применяется формула:

 

 

 

 

 

 

Ме X

0

h

0,5n mМе 1

,

(6)

mМе

 

 

 

 

 

 

 

 

 

где Ме – медиана;

X0 – нижняя граница интервала, в котором находится медиана; h – величина (размах) интервала;

m – накопленная частота в интервале, предшествующем медианному;

Ме 1

mМе – частота в медианном интервале.

Важное значение имеет такая величина признака, которая встречается в изучаемом ряду распределения чаще всего. Такую величину принято называть модой. В дискретном ряду мода определяется без вычисления, как значение признака с наибольшей частотой. Обычно встречаются ряды с одним модальным значением признака. Если в ряду распределения встречаются два или несколько равных значений признака, то он считается соответственно бимодальным или мультимодальным. Это свидетельствует о неоднородности выборки.

9

В интервальном ряду распределения интервал с наибольшей частотой называется модальным. Внутри этого интервала находят условное значение признака, вблизи которого плотность распределения достигает максимума. Это условное значение и считается точечной модой. Такая точечная мода располагается ближе к той из границ интервала, за которой частота в соседнем интервале больше частоты в интервале за другой границей модального интервала. Отсюда получаем формулу

Мо X 0

h

mМо

mМо 1

,

(7)

mМо mМо 1

mМо mМо 1

 

 

 

 

где Мо – мода; Х0 – нижнее значение модального интервала;

mМо – частота в модальном интервале; mМо 1 – частота в предыдущем интервале;

mМо 1 – частота в следующем интервале за модальным; h – длина интервала.

Для дальнейшего изучения характера вариации используют такие характеристики, как асимметрия и эксцесс.

Коэффициент асимметрии вычисляется двумя разными способами. Один вариант, называемый «третий центральный момент» [1], –

As

3

,

(8)

s3

 

 

 

 

 

 

k

x 3 mi

 

 

 

xi

где

3

 

i 1

 

.

 

 

 

 

 

n

 

 

 

 

Английским статистиком К. Пирсоном на основе разности между средней арифметической величиной и модой был предложен другой показатель асимметрии:

 

 

 

Мо

 

 

As

X

.

(9)

П s

Он зависит от степени асимметричности в средней части ряда распределения, а показатель асимметрии As – от крайних значений признака.

Показатель эксцесса распределения рассчитывается по формуле

Ex 4

3,

(10)

s4

 

 

k

xi x 4

где

4

 

i 1

 

.

 

 

 

 

 

n

 

 

 

 

10

Наличие положительного эксцесса означает присутствие слабоварьирующего «ядра» и сильно рассеянного вокруг него окружения в генеральной совокупности. Отрицательный эксцесс означает отсутствие такого ядра.

По значениям асимметрии и эксцесса можно судить о близости распределения к нормальному. Для такой оценки используют неравенства:

 

 

 

 

 

 

 

 

24n n 1 2

 

 

2

6n n 1

 

2

As

 

;

Ex

 

.

n 2 n 1 n 3

n 3 n 2 n 3 n 5

 

 

 

 

 

 

 

 

Свойства нормального закона распределения изучаются в теории вероятностей [1]. При использовании статистических методов весьма полезны визуально определяемые свойства графика стандартного нормального распределения – кривой Гаусса [4].

ИНТЕРВАЛЬНЫЕ ОЦЕНКИ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ

Точечные оценки, найденные по выборке объемом n, не позволяют непосредственно ответить на вопрос, какую ошибку мы допускаем, принимая вместо точного значения неизвестного параметра его приближенное значение.

Поэтому во многих случаях выгоднее пользоваться интервальной оценкой, основанной на определении некоторого интервала, внутри которого с определенной вероятностью находится неизвестное значение параметра.

Пусть найденная по результатам выборки объема n статистическая ха-

рактеристика x1, x2 ,..., xn является точечной оценкой неизвестного

параметра . Чем меньше разность , тем лучше качество оценки, тем

она точнее. Таким образом, положительное число характеризует точность

оценки .

Однако статистический метод не позволяет категорически утверждать, что оценка удовлетворяет данному неравенству в смысле математического анализа. Можно говорить только о вероятности (1 – ), с которой это неравенство выполняется. Такую вероятность называют доверительной.

Доверительной вероятностью оценки называют вероятность γ = 1 –

выполнения неравенства . Обычное значение задается заранее.

Наиболее часто полагают γ = 1 – равной одному из чисел: 0,95; 0,99; 0,9975.

11

Неизвестный параметр заключен внутри интервала

 

 

 

 

 

, .

 

 

 

 

 

Этот интервал называется доверительным интервалом. Границы интервала определяются по выборочным данным, они являются статистиками. Поэтому доверительный интервал случаен. Он может накрывать параметр или нет.

В практических приложениях важную роль играет длина доверитель-

ного интервала. Чем меньше длина доверительного интервала

 

 

 

 

,

 

,

 

 

 

 

 

 

тем, очевидно, точнее оценка. Длина доверительного интервала равна 2 . Величины , (1 – ) и n тесно взаимосвязаны, и, задавая определенные значения двум из них, можно определить величину третьей.

В решении практических задач для оценки генерального математического ожидания используют различные подходы. Если есть основания считать распределение приближенно нормальным, используется формула

 

 

 

 

s

 

 

 

 

s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P x t1

 

 

 

m x t1

 

 

 

 

,

(11)

 

 

 

 

 

 

 

 

n 1

 

 

n 1

 

 

 

 

 

 

 

 

 

 

 

2

2

 

 

 

 

 

 

 

 

 

 

 

 

где γ – доверительная вероятность оценивания;

s – исправленное среднее квадратическое отклонение;

t1 n 1 – квантиль распределения Стьюдента с n – 1 степенями сво-

2

боды порядка 1 . 2

Таблица квантилей распределения Стьюдента приведена в приложении (табл. П3).

Если предположение о нормальном распределении генеральной совокупности не подтвердилось, то при большом объеме выборки (n > 30) можно использовать формулу

 

 

 

s

 

 

 

 

s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P x u1

 

 

 

 

m x u1

 

 

 

 

 

,

(12)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

n

 

 

2

2

 

 

 

 

 

 

 

 

 

 

 

 

 

где u1 – квантиль стандартного нормального распределения (табл. П2

2

в приложении);

s – исправленное выборочное среднее квадратическое отклонение; γ – доверительная вероятность.

Анализируя формулу доверительного интервала, можно заметить, что: а) увеличение объема выборки n приводит к уменьшению длины дове-

рительного интервала;

12