Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

3a

.pdf
Скачиваний:
13
Добавлен:
09.05.2015
Размер:
820.54 Кб
Скачать

отличающееся от основной массы значений в выборке. Стоит ли выскакивающую варианту включать в дальнейший анализ или же лучше сразу с ней расстаться?

Если выборка большая, то с выбросами поступают просто – их, как правило, в анализ не включают. Обычно это всего лишь 1-2 значения, которые «не делают погоды», т.е. не могут существенно повлиять на результат расчетов, а значит и на выводы. Например, в выборке из 843 значений одно является выбросом. Среднее арифметическое, рассчитанное из 843 значений, почти не будет отличаться от среднего арифметического, рассчитанного из 842 значений. Выборка, оставшаяся после исключения из нее «выскакивающих» вариант, называется «цензурированная выборка» (т.е. подвергнутая цензуре).

Если выборка невелика, то проблема «выскакивающей» варианты сразу же становится очень важной. Каждое значение признака вносит очень большой вклад в общую характеристику совокупности. Результаты расчетов будут разными, если включить в анализ «выскакивающую» варианту, и если ее не включить. Например, в выборке 8 единиц наблюдения, и одно из значений является выбросом. На долю каждого значения признака приходится, как минимум, 12,5% «относительного веса», относительной частоты, частости. Потеря даже одной варианты может исказить результаты всех последующих вычислений. В этих случаях можно воспользоваться

формулой:

| |

Другими словами, «выскакивающая» варианта должна отличаться от среднего арифметического менее чем на 3σ. В этом случае она входит в число 99,7% всех наблюдений. Если же результат расчетов будет больше или равен 3, то варианту следует отбросить. Это значение – величайшая редкость в генеральной совокупности. Оно попало в нашу выборку совершенно случайно, и только исказит анализ – результаты расчетов получатся смещенными (появится систематическая ошибка).

V. КОЭФФИЦИЕНТ ВАРИАЦИИ

Несмотря на широкое применение в параметрической статистике дисперсия (D) и среднеквадратическое отклонение (σ) имеют ряд недостатков:

1)Несмотря на то, что величина дисперсии и сигмы прямо пропорционально зависит от разнообразия признака (чем выше разнообразие, тем больше значения D и σ), эти критерии не позволяют оценить разнообразие в изолированном ряду. Они могут использоваться только для сравнения двух или более рядов распределения.

2)Величина дисперсии и сигмы будет зависеть не только от вариабельности количественного признака, но и от значения среднего арифметического. Например, при одинаковой вариабельности признаков D и σ будут больше в ряду, где средняя масса тела равна 90 кг, и меньше в ряду, где средняя масса тела равна 60 кг.

3)Дисперсия и сигма являются именованными величинами, поэтому их нельзя использовать для сравнения вариабельности разнородных рядов (сантиметры нельзя сравнить с килограммами, дни лечения нельзя сравнить со случаями острых заболеваний и т.д.)

Этих недостатков лишен коэффициент вариации (СV). Коэффициент вариации представляет собой процентное отношение среднеквадратического отклонения (σ) к среднему арифметическому

(М).

Арифметически отношение σ и М нивелирует влияние величины этих характеристик, а процентное отношение делает коэффициент вариации величиной неименованной. Кроме того, коэффициент вариации позволяет оценивать вариабельность признака в изолированном ряду:

СV < 10% – разнообразие признака невелико

10% ≤ СV ≤ 20% – среднее разнообразие признака

СV > 20% – признак очень разнообразный

11

В качестве примера рассчитаем коэффициент вариации для распределения студентовпервокурсников по массе тела. Средняя масса тела (М) равна 60,7 кг, среднеквадратическое отклонение (σ) 2,0 кг.

Как видим, разнообразие массы тела студентов-первокурсников низкое – коэффициент вариации (СV) меньше 10% и составляет всего лишь 3,3%.

VI. КВАНТИЛИ

Среднее арифметическое (М) и среднеквадратическое отклонение (σ) являются параметрами, которые могут охарактеризовать ТОЛЬКО (!!!) нормальное распределение. Если эмпирическое распределение признака не соответствует нормальному (например, оно резко асимметрично), то «пользы» от расчета среднего арифметического (М) и среднеквадратического отклонения (σ) нет никакой. Это будут ничего не выражающие величины. В таком ряду среднее арифметическое не отражает обобщенный размер признака, а сигма – разнообразие этого признака. В этих случаях распределение описывают с помощью квантилей, которые являются величинами непараметрической статистики.

Квантиль – это значение признака, которое отграничивает некоторую долю единиц наблюдения от начала ранжированного ряда. Ранжированный ряд числовых данных условно делят на 100 равных частей. Такая сотая доля ряда называется процентиль (синонимы: «персентиль», «перцентиль», «центиль»). Какая именно доля ряда отграничивается, указывается в названии процентиля и в его обозначении (в виде нижнего индекса рядом с заглавной латинской буквой V). Например:

Значение признака, до которого расположен 1% единиц наблюдения ранжированного ряда (и выше которого – 99%), называется 1-м процентилем (V0,01)

Значение признака, до которого расположено 2% единиц наблюдения ранжированного ряда (и выше которого – 98%), называется 2-м процентилем (V0,02)

Значение признака, до которого расположено 3% единиц наблюдения ранжированного ряда (и выше которого – 97%), называется 3-м процентилем (V0,02) и т.д.

Некоторые процентили имеют свои особые названия:

10-й, 20-й, 30-й, …, 90-й процентили называются децили, т.е. «десятые»; они делят ранжированный ряд на 10 равных частей (обозначаются соответственно V0,1; V0,2; V0,3; …… V0,9)

25-й, 50-й и 75-й процентили называются квартили, т.е. четверти; они делят ранжированный ряд на четыре равные части (обозначаются V0,25; V0,5; V0,75)

50-й процентиль – это знакомая нам медиана, которая делит ранжированный ряд пополам (V0,5)

Квантили отсчитываются по накопленным относительным частотам (накопленным частостям). Посмотрим, как это можно сделать на уже известном нам примере распределения студентов-первокурсников по массе тела (таблица 6)

12

Таблица 6

Распределение студентов-первокурсников по массе тела (с накопленными частостями)

Варианта, V

Частота, Р

Частость

Накопленные

(масса тела, кг)

(абс.)

(%)

частости (%)

1

2

3

4

57

3

5,5%

5,5%

58

6

10,9%

16,4%

59

7

12,7%

29,1%

60

11

20,0%

49,1%

61

9

16,4%

65,5%

62

7

12,7%

78,2%

63

7

12,7%

90,9%

64

4

7,3%

98,2%

65

1

1,8%

100,0%

 

n=Рi=55

100,0%

 

 

 

 

 

Первые пять процентилей (V0,01, V0,02, V0,03, V0,04, V0,05) равны 57 кг, т.к. все указанные доли «попадают» именно в эту группу. А вот 6-й процентиль (V0,06) уже будет равен 58 кг, т.к. накопленная частость 6% выходит за пределы группы значений «57 кг».

Первый дециль (V0,1) будет равен 58 кг (накопленная частость 10% попадает на группу значений «58 кг»). Второй дециль (V0,2) будет равен 59 кг (накопленная частость 20% попадает на группу значений «59 кг»).

Первый квартиль (V0,25) тоже будет равен 59 кг (накопленная частость 25% попадает на группу значений «59 кг»). Третий квартиль (V0,75) будет равен 62 кг (накопленная частость 75% попадает на группу значений «62 кг»).

Медиана (V0,5) будет равна 61 кг, т.к. накопленная частость 50% попадает на группу значений

«61 кг».

Выше было отмечено, что для оценки физического развития детей в настоящее время применяют центильные таблицы. Данные центильных таблиц были получены на огромных выборках здоровых детей разного пола и возраста в ходе наблюдательных поперечных исследований. Центильные таблицы учитывают такие показатели как рост, масса тела, окружность головы и окружность грудной клетки. При их составлении используются следующие центили: 3-й, 10-й, 25-й, 50-й, 75-й, 90-й и 97-й. Стандартом физического развития является не среднее арифметическое (М), а медиана (Ме), т.е. 50-й процентиль (V0,5). Средними значениями (т.е. нормальными для данного пола и возраста) считаются значения в интервале от первого до третьего квартиля (от V0,25 до V0,75), т.к. эти величины характерны ровно для половины детей. Оценка фактических данных по каждому ребенку выполняется путем их сопоставления со значениями выше названных процентилей (рисунок 9).

Рисунок 9

Оценка физического развития детей путем сопоставления со значениями процентилей

V0,03

V0,10

V0,25

Ме

V0,75

V0,90

V0,97

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Резко

Понижен-

Ниже

Средние значения

 

 

Выше

Повышен-

Резко

понижен-

ные

среднего

 

 

 

среднего

 

ные

повышен-

ные

 

 

 

 

 

 

 

 

 

 

ные

13

Эти же процентили формируют основные интервалы (размахи), использующиеся при описании количественного признака, распределение которого отличается от нормального. Обычно говорят о следующих интервалах (рисунок 10):

Межквартильный интервал: это интервал между между 25-м и 75-м процентилями (т.е. между первым и третьим квартилями). В него входят центральные 50% наблюдений ранжированного ряда. Ниже и выше этого интервала находятся по 25% наблюдений.

Интердецильный интервал: это интервал между между 10-м и 90-м процентилями (т.е. между первым и девятым децилями). Он содержит в себе центральные 80% наблюдений ранжированного ряда. Ниже и выше этого интервала располагается по 10% наблюдений.

Референтный интервал: этот интервал содержит центральные 95% наблюдений ранжированного ряда. Он исключает 2,5% минимальных значений и 2,5% максимальных значений признака.

Рисунок 10

Интервалы, формируемые процентилями

V0,025

V0,10

V0,25

Ме

V0,75

V0,90

V0,975

Межквартильный

интервал (50% наблюдений)

Интердецильный интервал (80% наблюдений)

Референтный интервал (95% наблюдений)

С помощью процентилей можно примерно оценить, похоже ли эмпирическое распределение на теоретическое нормальное распределение. Суть метода заключается в сравнении сигмальных интервалов и интервалов, рассчитанных по процентилям. Если они совпадают, то, следовательно, эмпирическое распределение близко к нормальному:

среднее арифметическое (М) совпадает с медианой (Ме)

интервал M±1σ, содержащий 68,3% ( 68%) единиц наблюдения, совпадает с интервалом V0,16 - V0,84 (в нем находятся срединные 68% наблюдений)

интервал M±2σ, содержащий 95,5% ( 95%) единиц наблюдения, совпадает с референтным интервалом V0,025 - V0,975 (в нем находятся срединные 95% наблюдений)

Проверим, соответствует ли нормальному распределению эмпирическое распределение студентов-первокурсников по массе тела (таблица 7).

 

 

 

 

 

 

Таблица 7

Соответствие интервалов, рассчитанных по процентилям, сигмальным интервалам

 

(распределение студентов-первокурсников по массе тела)

 

Среднее (М=60,7)

М 2σ

М 1σ

М

М + 1σ

М + 1σ

и сигма (σ=2,0)

 

56,7

58,7

60,7

62,7

64,7

Процентили

 

V0,025

V0,16

V0,5

V0,84

V0,975

 

57

58

61

63

64

 

 

Как видим из данных таблицы 7, границы сигмальных интервалов, рассчитанные с учетом «закона трех сигм», практически совпадают с соответствующими процентилями. Это уже весьма весомый аргумент в пользу нормальности эмпирического распределения.

Как и любой статистический метод, квантили имеют ряд недостатков, в частности:

1.У квантилей нет алгебраического выражения, поэтому их нельзя использовать в последующем анализе.

2.Квантили неудобно использовать для малых выборок.

14