Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Зайцев Лифляндский Медицинская_статистика 2000г...doc
Скачиваний:
21
Добавлен:
01.07.2025
Размер:
6.02 Mб
Скачать

4.1 Ряды распределений. Вариационные ряды.

Значительную долю статистических данных составляют количественные признаки, принимающие некоторое числовое значение у каждой единицы статистического наблюдения. Эти числовые значения выражаются в виде различных вариант. Например: В качестве статистической совокупности рассматривается группа студентов вуза. Каждый студент - отдельная единица наблюдения. Если нас интересует вопрос, о каком либо показателе физического развития (учетном признаке единицы наблюдения), скажем, массе тела, то масса каждого студента является в данном случае вариантой. Масса тела колеблется, варьирует от одного студента к другому. У первого студента масса тела 51 кг, у второго - 67 кг и .д. Таким образом, варьирующий признак встречается в различных вариантах.

Варьирующие признаки (варианты) могут быть двух видов - прерывные и непрерывные.

Прерывный или дискретный признак-признак, принимающий конкретные значения в виде целых конечных чисел, между которыми нет промежутков. Например: число ударов пульса, число дней госпитализации и т.п. Прерывный признак всегда является результатом счета.

Непрерывный - это признак, варианты которого могут принимать любые значения в некоторых пределах и выражаются лишь приближенно, с определенным приближением (точностью). Получаются эти признаки в результате измерения и могут выражаться дробно: вес, рост, длина и т.д.

Первым шагом статистического анализа является построение ряда распределения. Строго говоря, при использовании современной вычислительной техники и специальных программ статистической обработки данных, построение рядов распределения, а также проведение других вспомогательных операций почти полностью исключено. Однако ключевые понятия и термины, используемые в процессе статистического анализа и при толковании отдельных результатов, могут быть поняты только на основе усвоения логической последовательности основных «ручных» операций статистической обработки данных

При наблюдении какого либо варьирующего признака так или иначе ведется регистрация полученных значений. Например, масса тела у обследованных студентов составила: 64, 57, 63, 62, 57, 61, 61, 59, 60, 60, 63, 59, 62, 59, 64, 60, 59, 60, 60, 60, 60, 63, 60, 59, 59, 61, 61, 58, 61, 61, 65, 61, 61, 58, 64, 62, 62, 60, 62, 62, 62, 58, 63, 63, 59, 60, 58, 63, 58, 60, 64, 63, 58, 61 и 57 кг.

Здесь числа расположены в порядке регистрации данных. Такой ряд называется неупорядоченным рядом отдельных наблюдений. Проводить какой либо анализ такого ряда «вручную» практически невозможно.

Рисунок 46. Неупорядоченный ряд исходных данных

Началом статистического анализа числовых рядов является их упорядочение -ранжирование - в возрастающем или убывающем порядке: 57, 57, 57, 58, 58, 58, 58, 58, 58, 59, 59, 59, 59, 59, 59, 59, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 61 , 61 , 61 , 61 , 61 , 61 , 61 , 61 , 61 , 62, 62, 62, 62, 62, 62, 62, 63, 63, 63, 63, 63, 63, 63, 64, 64, 64, 64, 65.

В ранжированном ряду каждый отдельный случай еще сохраняет свою индивидуальность. Более компактной формой описания вариации является образование рядов распределений, которые состоят из групп с одинаковыми или близкими значениями варьирующего признака. По своей конструкции ряд распределения состоит из двух столбцов (граф). В одном столбце располагаются варианты (V), в другом - частоты (Р). Частоты указывают, сколько раз встречаются одинаковые значения признака в этом ряду т.е. сколько студентов имели одинаковый вес (Таблица 25).

Показатели частостеи выражаются в относительных единицах: процентах от общего числа наблюдений или долях от единицы. Частости показывают долю частот отдельных вариант от общего числа наблюдений. Они могут выражаться в процентах или долях от единицы (Р). Иногда бывает уместным осуществить еще одно преобразование вариационного ряда: построение ряда накопленных частот или частостеи. Накопленные частоты и частости позволяют при оценке распределений игнорировать неравную величину интервала в отдельных группа.

Таблица 25

Пример вычисления накопленных частот и частостей

Вес

V (кг)

Частоты (Р)

Частости

Число студенто в (частоты)

Накопленные частоты

%

Р

Накопленные частости

1

2

3

4

5

б

57

3

3

5.5

0,05

0.05

58

6

9

10,9

0,11

0,16

59

7

16

12,7

0,13

0,29

60

11

2/

20.0

0,20

0.49

61

9

36

16.4

0,16

0,65

62

7

43

12,7

0,13

0,78

63

7

50

12,7

0,13

0,91

64

4

54

7,3

0,07

0.98

65

1

55

1,8

0,02

1.00

n=ΣР=55

-

100.0

1,00

-

Если ряд распределения состоит из дискретных величин, он называется дискретным вариационным рядом. Наглядность тенденций распределений в статистических рядах повышается при графическом изображении. Графически дискретный вариационный ряд изображается в системе прямоугольных координат как многоугольник, так называемый полигон распределения (Рисунок 47). По оси абсцисс откладываются различные возможные значения варьирующего признака (V), по оси ординат - частоты (Р), число случаев. Иногда в диаграмму включаются накопленные частоты или частости. Например:

Рисунок 47. Полигон распределения

Приведенная форма ряда распределения применима лишь для тех случаев, когда дискретный варьирующий признак принимает небольшое количество значений. Если таких вариант большое количество или бесконечно большое (в случае непрерывного ряда), то для каждой варианты образовать свою группу невозможно. Объединение отдельных наблюдений в группы на базе интервала (класса, разряда), т.е. в группы, имеющие определенные пределы значений. Эти группы образуют интервальный сгруппированный вариационный ряд. Графически такой ряд изображается гистограммой распределения (Рисунок 48).

Рисунок 48. Гистограмма распределения студентов по весу

Всякая сводка или группировка уничтожает очертания отдельных единиц, растворяет их в группе, поэтому соблюдение правил формирования групп является необходимым условием сохранения основных тенденций распределения признака в сгруппированном ряду.

В группах пределы обозначаются или подразумеваются «от» (верхняя граница) и «до» (нижняя граница). Желательно, чтобы интервалы во всех группах конкретного ряда были одинаковы. Ряды распределений, где группировка данных проведена в неодинаковых интервалах, требуют применения специальных методик дальнейшей статистической обработки.

Универсального ответа о величине интервала и соответственно, о числе групп не существует. Этот вопрос решается отдельно, в каждом конкретном случае. Главное, чтобы характерные особенности распределения не были завуалированы, не характерные, случайные колебания были бы сглажены. Лучше допустить некоторую потерю в точности, но зато выиграть в наглядности, в аналитических возможностях.

В принципе, рекомендуется руководствоваться следующими соображениями: во первых, число групп должно быть нечетным; во вторых, желательно, чтобы при большом объеме наблюдений (более 100) число групп было больше (9-11-13), а при малом -меньше (5-7-9). Если величина интервала берется равной для всех групп ряда, то размер интервала обычно устанавливается на основе крайних значений ранжированного ряда. Чтобы определить наиболее оптимальный интервал группировки, необходимо:

1 . Найти разность между максимальным и минимальным значением вариант в ряду и разделить на число групп, которое хотят получить.

2. Полученную в результате деления величину округлить и таким образом получить интервал.

Иногда, при незначительном разбросе вариант, для определения интервала группировки пользуются формулой Стерджесса , где n – число наблюдений, Vmax и Vmin – соответственно, минимальное и максимальное значения вариант.

Для, подобных целей можно использовать и формулу, оснванную на рекомендациях К.Брукса и Н.Краузерса:

Интервалы могут быть открытыми. Такие интервалы имеют одну границу, либо верхнюю, либо-нижнюю. Например: «От 100 лет и более». Или «До 10 лет». Закрытые интервалы имеют обе границы, нижнюю и верхнюю. Соответственно, формируются открытые или закрытые вариационные ряды (Таблица 26)

Таблица 26

Примеры группировок вариант в вариационных рядах

Открытые ряды

Закрытые

ряды

Обозначения границ совпадают

Границы групп не совпадают

до 80

75-80

от 75 до 80

75-79

80-90

81-89

от 80 до 85

80-84

более 90

90-95

от 85 до 90

85-89

*В столбце приведен пример ряда с неравными интервалами в группа

Чтобы не возникало сомнений, в какую группу относится та или иная варианта, границы интервала (границы групп) не должны пересекаться, т.е. границы каждой группы должны отличаться от границ соседних групп Например: если имеются группы 180-185,185-5 см, то непонятно, в какую группу следует отнести варианту 185-189 см. Для исключения этой неопределенности, когда границы групп по каким-то причинам все же совпадают, делаются специальные оговорки («от» и «до»), которые однозначно указывают, в какую группу попадают пограничные значения вариант.

Иногда, в случаях неопределенности границ групп или неопределенности отдельной варианты, вызванной сомнениями в точности измерений, допускается использование половинных частот. Например: если не понятно, куда отнести варианту 80 при групповых границах 75-80 и 80-85, то в обе группы добавляют по 0,5 частоты. Варианта как бы делится между двумя группами.

Таблица 27

Исходный ряд

V

P

75-80

5

80-84

6

Итого:

11

Таблица 28

После добавления одной варианты

V

P

75-80

5,5

80-84

6,5

Итого:

12

В тех случаях, когда вариационный ряд представлен сгруппированными рядом распределения, для проведения дальнейшей статистической обработки (определение среднего взвешенного т.п.), необходимо определить середину в каждой группе ряда, ели группа состоит из дискретных величин, то середина группы определяется как полусумма крайних значений группы. Если ряд распределения непрерывный, то середина группы определяется как полусумма начальных вариант данной и последующей групп.

Таблица 29

Приметы определения середины групп

Дискретный ряд

Непрерывный ряд

Исходные группы V

Середина группы Vср

Исходные группы

V

Середина группы Vср

150-151

(150+151)/2=150,5

150-151

(150+1 52)/2=151

152-153

(152+153)/2=152,5

152-153

(152+154)/2=153

154-155

(154+155)/2=154,5

154-155

(154+156)/2=155

Правильное применение интервалов позволяет построить компактный и наглядный сгруппированный вариационный ряд.

Различные группировки интервального ряда распределения женщин по росту

Таблица 30 Таблица 31 Таблица 32

Рост (см.) V

Частота Р

Рост (см.) V

Частота

Р

Рост (см) V

ЧЧастота Р

151.0-151,4

1

151

1

151-153

6

151,5-151.9

0

152

2

154-156

16

152,0-152,4

2

153

3

157-159

16

152,5-152,9

0

154

4

153,0-153,4

2

155

5

153,5-153,9

1

156

7

154,0-154.4

0

157

9

154,5-154.9

4

158

4

155,0-155.4

1

159

3

155,5-155.9

4

156,0-156,4

5

156,5-156,9

2

157,0-157,4

5

Наиболее оптимальной из приведенных группировок является средняя группировка (Таблица 31)

157,5-157,9

4

158,0-158,4

3

158,5-158,9

1

159,0-159,4

2

159,5-159,9

1

Группировка, в которой величины интервалов завышены (Таблица 32), приводит к образованию крупных групп, в которых основные тенденции распределения теряются. Мелкая группировка (Таблица 30) перегружает распределение частными деталями, не отражающими основных тенденций, что неизбежно затрудняет понимание характера вариации. Кроме того, измерение роста с такой точностью, как правило, не производится, поскольку не имеет смысла