Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Matematicheskaya_statistika_v_meditsine

.pdf
Скачиваний:
120
Добавлен:
19.02.2016
Размер:
5.63 Mб
Скачать

4.3. Выборочные характеристики и точечные оценки характеристик генеральной совокупности

Выборочные характеристики – числа, являющиеся параметрами выборки:

Средняя выборочная среднее арифметическое значений x1, x2, …, xn признака выборочной совокупности:

x

B

=

 

 

xB =

1 n

1

n

n

i=1

k

i=1

xi

– для несгруппированных данных (n – объем выборки),

 

 

k

 

 

x m x p

*

– для сгруппированных данных (k – количество вариант).

i

i

i i

 

 

 

 

i 1

 

 

Выборочная дисперсия – квадрат среднего отклонения значений x1, x2, …, xn признака от математического ожидания признака:

D =

B

 

D

 

B

 

1 n 1 n

n

x

 

 

i

i=1

k

 

(x

i 1

i

 

x x

B

B

 

2

)

2

 

– для несгруппированных данных,

mi

– для сгруппированных данных.

Выборочное среднее квадратическое отклонение – корень квадратный из среднего отклонения значений x1, x2, …, xn признака от математического ожидания (корень квадратный из выборочной дисперсии):

 

B

 

D

 

 

B

.

Характеристики генеральной совокупности – математическое ожидание, генеральная дисперсия, генеральное среднее квадратическое отклонение. Данные характеристики можно посчитать только при проведении сплошного исследования. Если проведение такого исследования невозможно, тогда используют выборочный метод, и по выборочным данным мы можем сделать оценки указанных параметров. Точечная оценка определяется одним числом. Она должна удовлетворять определенным требованиям: быть несмещенной, эффективной и

состоятельной. Наиболее важным является требование несмещенности.

Выборочная средняя является несмещенной оценкой математического ожидания:

xВ x .

 

 

 

 

 

 

 

 

 

 

 

 

Выборочная дисперсия является смещенной оценкой генеральной дисперсии; домно-

жив ее на множитель

n

получим исправленную дисперсию несмещенную оценку гене-

n 1

 

 

 

 

 

 

 

 

 

 

 

 

 

ральной дисперсии:

 

 

 

 

 

 

 

 

 

S

2

=

n

1 n

2

 

1

n

2

 

 

 

 

 

 

x xB

 

x xB .

 

 

 

 

 

 

 

n 1 n i=1

 

 

n 1 i=1

 

 

 

 

 

Несмещенная оценка генерального среднего квадратического отклонения

S

S

2

назы-

 

вается стандартным отклонением.

Оценками S и S2 пользуются обычно при малых выборках (n<30), при больших объемах можно пользоваться выборочными характеристиками Dв и B .

Оценка среднего квадратического отклонения выборочной средней (ошибка среднего) характеризует то, как меняется оценка математического ожидания при различных способах извлечения выборки из генеральной совокупности:

 

 

 

 

 

n

 

 

Sx

S

 

 

xi xB

2

 

=

i=1

 

.

 

 

 

 

 

 

 

n n 1

 

 

n

 

 

 

 

 

 

31

4.4. Доверительный интервал для оценки математического ожидания нормального распределения

Интервальной оценкой называют множество точечных оценок, которое зависит от результатов наблюдений и, следовательно, является случайным. Поэтому каждой интервальной оценке ставится в соответствие вероятность (доверительная вероятность или надежность), с которой эта оценка накроет неизвестный параметр. Наиболее часто пользуются значениями : 0.9; 0.95; 0.99; 0.999. При исследованиях в фармации, медицине, биологии доверительную вероятность принимают 0.95. Интервальной оценкой является так называемый доверительный интервал. Говорят, что доверительная вероятность характеризует

степень нашей уверенности в том, что доверительный интервал покроет неизвестный параметр.

Нахождение доверительного интервала для оценки математического ожидания нормального распределения.

Полуширина доверительного интервала:

 

x x t ( f ) Sx .

 

 

 

 

t ( f ) – коэффициент Стьюдента, который зависит от числа степеней свободы

f

n 1

и доверительной вероятности , его находят по таблицам (см. таблицу 3).

 

 

 

 

Из формулы x x получаем интервал, в котором с доверительной вероятностью

 

находится математическое ожидание :

 

 

 

 

x x x x .

 

 

 

 

При этом можно заметить, чем больше доверительная вероятность, тем

t ( f )

будет

больше, и тем шире будет доверительный интервал.

4.5. Оценка случайных погрешностей при прямых и косвенных измерениях

Следует помнить, что никакое измерение не может быть выполнено абсолютно точно. Его результат содержит всегда некоторую ошибку. Поэтому в задачу измерений входит не только нахождение самой величины, но также и оценка допущенной при измерении погрешности.

4.5.1. Типы ошибок измерений

Ошибки измерений принято подразделять на систематические, случайные и промахи. Систематические ошибки вызваны факторами, действующими одинаковым обра-

зом при многократном повторении одних и тех же измерений. Причиной систематических погрешностей может быть: несовершенство приборов, неточная установка стрелки прибора в нужной плоскости, смещение шкалы прибора, неточной установкой стрелки в нулевое положение, недостаточной чувствительностью прибора, не учет электрических, магнитных и тепловых полей и т.д.

Эти погрешности не описываются методами математической статистики. Их оценивают путем сопоставления показания приборов с эталонным, учетом факторов, влияющих на результат измерений.

Случайные ошибки порождаются неточностью отсчетов, которую может допустить всякий экспериментатор из-за несовершенства измерительных приборов. Они обнаруживаются путем повторных измерений, дающих зачастую ряд различных числовых значений.

Грубые ошибки или промахи. Под промахом понимается ошибка, сделанная вследствие неверной записи показаний прибора или другого просчета, связанного с неаккуратностью

32

экспериментатора. Они заметно отличаются от других измерений и весьма легко выявляются повторными измерениями или др. экспериментатором.

Часто стараются произвести измерения с наибольшей достижимой точностью, т.е. сделать ошибку измерения по возможности малой. Однако следует иметь в виду, что чем точнее мы хотим измерить, тем труднее это сделать. Поэтому не следует требовать от измерений большей точности, чем это необходимо для решения поставленной задачи. Для того чтобы этого достичь, нужно руководствоваться определенными правилами и приемами при производстве самих измерений и обработке полученных результатов. Всякий эксперимент включает чаще всего несколько измерений.

Принято различать прямые и косвенные измерения. При прямых (непосредственных) измерениях находится данная величина путем сравнения ее с однородной с ней величиной принятой за единицу. При косвенных измерениях определяемая величина вычисляется по результатам прямых измерений других величин, которые связаны с ней какой-либо функциональной зависимостью.

При математической обработке экспериментальных данных широко применяют методы теории вероятностей. Теория вероятностей изучает закономерности случайных явлений, поэтому она применима при расчете случайных погрешностей, так как дает возможность не только найти наиболее вероятное значение измеряемой величины, но и оценить отклонение полученного результата от истинного значения измеряемой величины.

Поскольку случайные ошибки отмечаются видом закона распределения, будем дальнейшие рассуждения проводить для случая нормального закона.

Для оценки величины случайной ошибки измерения существует несколько способов. Наиболее распространена оценка с помощью стандартной или среднеквадратичной ошибки (стандарт измерения).

4.5.2. Анализ результатов прямых измерений

Допустим, что мы произвели n прямых измерений некоторой величины X, истинное значение этой величины .

Предлагается следующий порядок операций:

1.Результаты каждого измерения записываются в таблицу.

2.Вычисляется среднее значение из n измерений

 

 

 

1

n

 

x x

x

... x

 

 

x =

 

xi

1

2

3

n

.

 

 

 

 

 

n

 

 

 

 

 

n i=1

 

 

 

 

 

 

 

3. Находится погрешность отдельных измерений

 

xi

xi x .

 

 

 

 

 

 

 

4. Вычисляются квадраты погрешностей отдельных измерений: xi 2 .

5. Находится исправленная (для n 30 ) или неисправленная (для

n 30 ) дисперсия из-

меряемой величины:

 

 

 

 

 

 

S

2

 

1

n

 

2

 

при n 30 ,

 

 

 

 

xi

 

 

 

 

 

 

n 1 i 1

 

 

 

 

 

 

 

S

2

 

1 n

 

2

при n 30 .

 

 

 

xi

 

 

 

 

 

 

n i 1

 

 

 

 

 

 

 

 

6. Вычисляются исправленное среднее квадратическое отклонение, равное средней

квадратичной ошибке отдельного измерения (или стандарт отклонения):

 

S

 

 

 

 

при n 30 ,

 

 

 

1

x 2

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

n 1 i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S

 

 

при n 30 .

 

 

 

1 x 2

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

n i 1 i

33

7. *Вычисляют среднюю квадратическую ошибку среднего арифметического (ошибку среднего):

Sx

 

S

 

 

 

1

n

2

при n 30 ,

 

 

n

 

 

 

xi

 

 

 

 

 

 

n(n 1) i 1

 

 

 

S

S

1

 

 

 

при

n 30 .

 

 

 

x 2

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

x

 

 

 

 

 

 

n

 

 

 

i

 

 

 

 

 

n

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

Отсюда видно, чтобы уменьшить S x требуется увеличить число измерений.

8. Определяется приборная погрешность S0

(по умолчанию – половина цены деления)

и находится полная погрешность:

 

 

S

S

2

S

 

2

.

 

 

 

 

0

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9. Находят точность прямого измерения – абсолютную величину разности между ис-

тинным значением измеряемой величины (т.е.

ее математическим ожиданием ) и

средним значением (абсолютную ошибку измерений):

x x t

( f ) S

x

.

 

 

 

Здесь вместо математического ожидания можно использовать обозначение x истин-

ного значения измеряемой величины. В дальнейшем мы так и поступим.

При небольшом числе измерений средняя квадратическая среднего арифметического

измерений

может оказаться грубой. Поэтому Стьюдент (англ. математик и

химик

У. Госсет)

указал на возможность и при малом количестве измерений определить

x для

любой доверительной вероятности.

10. Находим доверительный интервал, в который попадает истинное значение измеренной величины x. Доверительный интервал – интервал, в который попадает истинное

значение x измеряемой величины с заданной вероятностью: x x x x x .

Надежностью результата серии измерений называется вероятность того, что истинное значение x измеряемой величины попадает в данный доверительный интервал. Она выражается в долях единицы или в %.

11. Окончательный результат записывают так: x x x .

12. Относительную ошибку определяют по формуле:

x x

100%

.

Примеры решения задач

Пример 14. При проведении измерений систолического давления в группе пациентов были получены следующие результаты (в мм. рт. ст.): 123, 121, 125, 130, 115, 118. Найти математическое ожидание, дисперсию, среднее квадратическое отклонение. Найти оценки характеристик генеральной совокупности. Построить доверительный интервал для мате-

матического ожидания давления при доверительной вероятности

γ =

0.95

, считая, что ве-

личина давления распределена нормально.

Решение:

Для определения точечных характеристик будем использовать стандартные формулы:

x

B

=

 

 

1

n

 

x =

 

i

n i=1

1 6

123+121+125+130+115+118 =122.0

.

* Часто для экономии времени пп. 3–6 пропускаются, и сразу же вычисляется ошибка среднего из п. 7.

34

 

1 n

 

 

2

1

123

2

 

2

 

 

D =

x x

 

 

+ 121

 

 

B

=

 

122

122

 

B

n i=1

 

 

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

23.3

 

2

 

 

 

 

2

 

2

 

2

125 122

+ 130 122

+ 115 122

+ 118 122

σB =

DB =

23.3 = 4.8 .

 

 

 

 

 

Для определения оценок характеристик генеральной совокупности будем использовать соотношения между выборочными характеристиками и оценками характеристик ГС:

x = x

B

=

 

 

 

 

 

 

S

2

=

 

n

 

 

 

 

 

n

 

 

 

S =

S

2

 

 

 

Sx =

S

 

 

 

 

 

n

 

 

 

 

122.0 ,

 

 

 

D =

6

23.3=

 

1

B

6 1

 

 

 

 

 

=

28 = 5.3

,

= 5.36 = 2.2 .

28.0

,

Для построения доверительного интервала найдём сначала его полуширину по формуле (значение коэффициента Стьюдента берем из таблицы 3):

Δx = tγ f Sx = t0.95 6 1 2.2 = 2.57 2.2 = 5.65.

Строим доверительный интервал по формуле: x Δx; x + Δx . Подставляя числа, полу-

чаем:

x Δx; x + Δx 122.0 5.65;122.0+5.65 116.35;127.65

Пример 15. При проведении измерений диастолического давления в большой группе испытуемых (44 человека) были получены результаты, сгруппированные в следующей таблице:

x

78

79

80

81

82

n

3

9

16

11

5

Найти математическое ожидание, дисперсию, среднее квадратическое отклонение.

Решение:

Так как данные в таблице представлены в сгруппированном виде, то будем использовать формулы для сгруппированных данных:

x

B

=

 

 

D

B

 

 

 

(80

σB =

1

n

 

 

 

1

78 3+ 79 9+80 16+81 11+82 5 = 80.1

 

x n =

 

 

 

i

 

i

44

 

 

 

 

 

 

 

 

 

 

 

 

 

N i=1

 

 

 

 

 

(78 80.1)

 

 

 

 

 

 

 

1 n

 

 

x

 

 

2

n

1

2

3 (79 80.1)

2

9

 

 

(x

 

 

)

 

 

 

B

 

 

 

 

N i 1

i

 

 

 

i

44

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5 0.23

 

 

80.1)

2

 

16 (81

80.1)

2

11 (82 80.1)

2

 

 

 

 

 

 

 

DB =

 

0.23 = 0.48 .

 

 

 

 

 

 

 

 

 

 

.

Примечание. В случае представления данных в сгруппированном виде удобно использовать таблицу данных, вписав в неё дополнительные строки и столбец, содержащий суммы по строкам:

 

x

78

79

80

81

82

 

 

n

 

 

3

9

16

11

5

44

 

 

 

 

 

 

 

 

 

 

 

x n

234

711

1280

891

410

3526

 

i i

xi xB

-2.1

-1.1

-0.1

0.9

1.9

 

 

 

 

 

 

 

 

 

 

 

xi xB 2

4.41

1.21

0.01

0.81

3.61

10.05

 

 

 

 

 

 

35

 

 

 

Используя столбец с суммами, получаем:

xB =

1

n

 

1

3526 = 80.1,

 

 

xi ni =

 

 

 

N i=1

 

44

 

 

 

 

DB =

1 n

 

 

2

ni =

1

10.05 = 0.23

 

 

xi xB

44

,

 

N i=1

 

 

 

 

 

 

σB =

 

DB =

0.23 = 0.48 .

 

 

Пример 16. При измерении массы таблеток, случайно выбранных с конвейера, были получены следующие результаты (в мг): 298, 300, 302, 300, 302, 299, 301, 300. Найти доверительный интервал для математического ожидания массы таблеток. Доверительную ве-

роятность принять равной

γ = 0.99 .

Решение:

Δx = tγ f Sx . По табли-

Полуширина доверительного интервала находится по формуле

це

коэффициентов

Стьюдента (см. таблицу 3) находим значение коэффициента

t0.99

8 1 = t0.99 7 = 3.0

. Так как осталось найти только ошибку среднего, то будем сразу ис-

пользовать готовую формулу:

 

 

 

n

x

 

2

 

 

 

x

B

 

 

 

 

i

 

 

S

 

=

i=1

 

 

 

x

n n 1

 

 

 

 

 

 

 

 

 

 

.

Предварительно вычисляем выборочное среднее:

x

 

=

1

(298+ 300+ 302+ 300+ 302+ 299 301+ 300)

B

8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

2402

= 300.3

 

 

 

 

 

 

 

 

 

 

 

8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Находим ошибку среднего:

 

 

 

 

 

 

 

 

 

 

 

n

 

x

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

x

B

 

 

2

 

 

 

2

 

 

 

 

 

i=1

i

 

 

298 300.3

+ 300 300.3

 

S

 

=

 

n n 1

=

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

2

 

 

2

+

 

+ 302 300.3

 

+ 300 300.3 + 302

300.3

 

 

 

 

 

 

 

 

 

 

 

8 8 1

 

 

 

 

 

 

299

 

 

 

2

 

 

 

2

300

 

2

 

 

 

300.3 + 301

300.3

300.3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

13.5

= 0.5

 

 

 

 

 

 

 

 

 

 

 

 

56

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Находим, наконец, полуширину доверительного интервала:

Δx = tγ f Sx = 2.37 0.5 = 1.19.

Строим доверительный интервал:

x

B

Δx; x

B

+ Δx 300.3 1.19;300.3+1.19

299.11;301.49

Пример 17. При проведении серии измерений стандартной температуры эталонным термометром были получены следующие результаты (в ºС): 36.6, 36.6, 36.5, 36.5, 36.6. Найти абсолютную и относительную случайную погрешность прямых измерений.

Решение:

36

Абсолютная случайная погрешность прямых измерений находится аналогично доверительному интервалу по формуле:

Δx = tγ f Sx .

По таблице критических значений находим значение коэффициента Стьюдента (см. таблицу 3):

t0.95 4 = 2.78 .

Находим выборочное среднее:

xB

=

1

36.6+36.6+36.5+36.5+36.6 =

182.8

5

5

 

=

36.56

.

Находим по «короткому методу» ошибку среднего:

 

 

 

n

 

x

 

2

 

 

 

 

 

 

 

 

x

B

 

 

2

 

2

 

 

 

 

i=1

i

 

 

36.6 36.56

+ 36.6 36.56

+

S

 

=

 

 

 

=

x

n n 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

2

 

2

 

 

36.5 36.56

++ 36.5 36.56

+ 36.6 36.56

 

 

 

 

 

 

 

 

 

 

5 5 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0.012

= 0.024.

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Находим

Δx = t

γ

f

 

 

Находим

абсолютную погрешность измерений:

Sx 2.78 0.024 0.07 .

относительную погрешность измерений:

36.560.07 100% 0.2% .

Записываем истинное значение измеряемой величины:

x

(36.56 0.07)

°С,

0.2%

.

37

ГЛАВА 5. ЭЛЕМЕНТЫ ОПИСАТЕЛЬНОЙ СТАТИСТИКИ

5.1. Меры центральной тенденции (показатели положения центра распределения)

5.1.1. Среднее (выборочное среднее)

Среднее (выборочное среднее) – среднее арифметическое значений признака. Вычисляется следующим образом:

а) Для несгруппированных данных:

 

 

 

 

 

k

 

x + x

 

+...+ x

 

x

 

2

 

i

x =

1

k

=

i=1

 

 

N

N

 

 

 

 

б) Для дискретного ряда

, где

N

– объём выборки (количество измерений).

(сгруппированных данных):

 

 

 

 

 

 

 

 

k

 

 

 

k

 

 

 

n x + n x

 

+...+ n x

 

 

n x

 

n x

 

 

2

k

 

i=1

i

i

 

i

i

 

x =

 

1 1

2

k

=

 

 

=

i=1

, где

N

 

 

n + n

+...n

 

k

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

1

2

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

рений), ni

– частота варианты xi ,

k

– число вариант.

в) Для интервального ряда:

 

 

 

 

 

 

– объём выборки (количество изме-

 

n x + n x

2

+...+ n x

k

x =

1

1

2

k

 

 

n + n

+...n

 

 

 

 

 

 

 

 

1

2

k

 

 

k

 

 

k

 

 

n x

 

n x

 

i

i

 

i

i

=

i=1

 

=

i=1

 

k

 

N

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

i=1

 

 

 

 

, где

N

– объём выборки (количество изме-

рений), ni – частота интервала с номером i , xi – середина

i -го интервала, k – число интер-

валов.

 

 

Важное свойство среднего заключается в том, что сумма квадратов отклонений значе-

2

min .

ний признака от среднего будет наименьшей, т. е. xi x

 

5.1.2. Мода распределения

Мода – наиболее часто встречающееся значение признака в ряду: а) Для несгруппированных данных:

Наиболее часто встречающееся значение варианты в ряду. б) Для сгруппированных данных:

Варианта с максимальной частотой.

Примечание: если для двух или трёх вариант в ряду (встречаемости) частоты отличаются незначительно, то мод может быть несколько – распределение в этом случае будет называться многомодальным, и для такого ряда мода не вычисляется.

в) Для интервального ряда:

Вначале определяется интервал с максимальной частотой – он будет называться модальным. Далее моды вычисляется по формуле:

Mo = xн + Δx

nMo nMo 1

, где

nMo nMo 1

+ nMo nMo+1

 

 

xн

– нижняя граница модального интервала,

Δx – шаг интервала, nMo – шествующего модальному;

частота модального интервала, nMo 1 – частота интервала, пред-

nMo+1

– частота интервала, следующего за модальным.

38

5.1.3. Медиана

Медиана – точка делящая ряд на две равновероятные части: а) Для несгруппированных данных:

В начале выполняется ранжирование – данные располагаются по возрастанию или по убыванию. Если число элементов в ряду объёмом N – нечётное, то медиана – это варианта,

стоящая на позиции с номером

n

Me

=

 

 

N +1 2

. Если число элементов в ряду объёмом

N

– чёт-

ное, то медиана определяется как среднее арифметическое вариант, стоящих в ряду на пози-

циях

n

 

=

N

Me1

2

 

 

 

 

 

и nMe2 =

N+ 2 2

.

б) Для сгруппированных данных:

В начале определяется накопленная к данной варианте частота (абсолютная или отно-

сительная). Первая варианта, на которую приходится накопленная частота более

N / 2

(более

0.5

, если частота – относительная) – и есть медиана. Если на некоторое значение варианты

выпадает накопленная частота равная N / 2 (или 0.5 , если частота – относительная), то медиана в данном случае есть среднее между данной и следующей вариантой.

в) Для интервального ряда:

В начале определяется накопленная к данной варианте частота (абсолютная или относительная). Первый интервал, на который приходится накопленная частота более либо равная N / 2 (более либо равная 0.5 , если частота – относительная) – есть медианный интервал. Если на медианный интервал приходится накопленная абсолютная частота большая N / 2 (или большая чем 0.5 , если частота – относительная), то медиана вычисляется по формуле:

 

 

 

 

N

SMe 1

Me = X

 

+ Δx

2

MeH

 

,

 

 

 

 

 

 

nMe

 

 

 

 

 

где

X MeH

– нижняя граница медианного интервала, Δx – ширина медианного интерва-

ла,

SMe 1

– накопленная частота интервала, предшествующего медианному,

nMe

– частота

медианного интервала.

Если на медианный интервал приходится накопленная абсолютная частота равная (или 0.5 , если частота – накопленная), то медиана вычисляется по формуле:

N / 2

 

 

 

N +1

S

 

 

 

 

 

 

 

 

2

 

Me 1

Me = X

MeH

+ Δx

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

Me

Важное свойство медианы заключается в том, признака от медианы будет наименьшей, т. е. xi

что сумма модулей отклонений значений

Me min .

Мода и медиана являются более надёжными показателями центральной тенденции, чем среднее, в том случае, если данные неоднородны; если же распределение несимметрично, то более надёжным показателем будет медиана.

5.2. Структурные точки ряда распределения

Квантили – точки ряда (варианты), делящие накопленную частоту на равные части). Квартили делят накопленную частоту на 4 равные части, квинтили – на 5, децили – на

10, процентили – на 100.

Способы определения квартилей:

39

а) Для несгруппированных данных:

Вначале выполняется ранжирование ряда. Далее определяется медиана – это и есть второй квартиль. Далее, если число элементов в ряду – четное, то ряд делится на две равные части, если число элементов в ряду – нечётное, то ряд делится на две части, в каждую из которых включают медиану. Для полученных двух рядов находят свои медианы: медиана для первого ряда – есть 1-й (нижний квартиль), медиана для второго ряда – есть 3-й (верхний квартиль). Описанный выше метод называется методом Тьюки.

б) Для дискретного ряда:

Вначале определяют накопленную к данной варианте частоту – т. н. накопленную частоту (абсолютную или относительную). Далее по таблице накопленной частоты определяют

варианту, для которой накопленная частота впервые превосходит N / 4 (или 0.25 , если частота – относительная) – это будет 1-й (нижний квартиль). Если на варианту выпадает ровно четверть накопленной суммы, то первый (нижний) квартиль будет средним арифметическим между данной вариантой и следующей. Для нахождения 3-го (верхнего) квартиля находят варианту, для которой накопленная частота впервые будет больше 3N / 4 (или 0.75 , если частота – относительная) – это и будет 3-й (верхний) квартиль. Если на варианту выпадает ровно три четверти накопленной частоты, то 3-й квартиль будет средним арифметическим между данной вариантой и следующей.

в) Для интервального ряда:

Для интервального ряда первый квартиль рассчитывается по формуле:

 

 

 

N

S

 

 

 

 

 

 

 

4

Q1 1

Q1= x

minQ1

+ Δx

 

 

n

 

 

 

 

 

 

 

 

 

 

 

Q1

, где

xminQ1

– нижняя граница интервала, содержащего пер-

вый квартиль,

Δx

– ширина данного интервала,

SQ1 1

– накопленная частота интервала,

предшествующего данному,

nQ1

– частота данного интервала.

Третий квартиль будет считаться по формуле:

 

 

 

3N

S

 

 

 

 

4

Q3 1

 

 

 

 

Q3 = x

minQ3

+ Δx

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Q3

 

, где

xminQ3

– нижняя граница интервала, содержащего тре-

тий квартиль,

Δx

– ширина данного интервала,

SQ3 1

– накопленная частота интервала,

предшествующего данному, nQ3 – частота данного интервала.

С помощью квартилей можно определять, какими значениями признака обладают 25%, 50%, 75% объектов.

5.3. Меры разброса (вариации)

Меры вариации позволяют оценит степень разброса данных, т. е. степень неоднородности выборки.

5.3.1. Размах вариации

Размах (вариации) – является простейшим показателем вариации, чувствительным только к крайним значениям признака в ряду, вычисляется как разница между максимальным и минимальным значением признака:

R = xmax xmin .

5.3.2. Квартильный (межквартильный) размах

40

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]