
- •Часть I
- •Введение
- •Глава 1. Первичная обработка эксперимента
- •1.1. Статистическое наблюдение
- •1.2. Группировка статических данных
- •1.2.1. Виды группировок
- •1.2.2. Методика проведения группировок
- •1.2.3. Статистические ряды распределения
- •1.3. Формы представления статистических данных
- •1.3.1. Статистические таблицы
- •1.3.2. Статистические графики
- •1.4. Первичная обработка выборки
- •1.4.1. Построение вариационного ряда на основе группировочного признака
- •1.4.2. Графические представления вариационного ряда
- •1.4.3. Построение аналитической группировки
- •1.5. Задания для самостоятельной работы
- •2. Статистические показатели
- •2.1. Классификация статистических показателей
- •2.2. Абсолютные и относительные величины
- •2.2.1. Абсолютные величины (показатели)
- •2.2.2. Относительные величины (показатели)
- •2.3. Средние показатели
- •2.3.1. Сущность и значение средней величины
- •2.3.2. Виды средних величин
- •Распределение цветков лютиков по числу чашелистиков
- •Распределение студентов по росту
- •Рассмотрим основные свойства средней арифметической:
- •2.3.3. Структурные средние величины
- •Распределение проданной обуви по размерам
- •2.4. Показатели вариации
- •2.4.1. Абсолютные показатели вариации
- •2.4.2. Относительные показатели вариации
- •2.5. Показатели формы распределения
- •2.5.1. Асимметрия
- •2.5.2. Эксцесс
- •2.6. Расчет числовых характеристик
- •2.6.1. Числовые характеристики вариационного ряда
- •2.6.2. Анализ взаимосвязи
- •2.7. Задачи для самостоятельной работы
- •Рекомендуемая Литература
- •Приложение
2.3.3. Структурные средние величины
Для характеристики структуры совокупности применяются структурные средние: мода, медиана и квантили различных порядков.
Мода. Модой (Мо) называется величина изучаемого признака, повторяющаяся с наибольшей частотой. Ее можно найти только для сгруппированных данных.
Мода представляет собой наиболее часто встречающееся (типичное) значение. Особенность моды как меры центральной тенденции заключается в том, что она не изменяется при изменении крайних членов ранжированного ряда, т. е. обладает определенной устойчивостью к вариации признака. В дискретном вариационном ряду мода – это вариант с наибольшей частотой.
Пример 2.11. Данные о продаже обуви по размерам указаны в табл. 2.7.
Таблица 2.7
Распределение проданной обуви по размерам
Размер обуви |
37 |
38 |
39 |
40 |
41 |
42 |
43 |
44 |
45 |
Число пар, % к итогу |
1 |
6 |
8 |
22 |
30 |
20 |
11 |
1 |
1 |
В этом вариационном ряду мода равна 41, так как именно этот размер обуви пользовался наибольшим спросом покупателей.
Для интервального ряда определяется модальный интервал, имеющий наибольшую частоту. Значение моды на этом интервале найдем по формуле
,
(2.19)
где xМо – нижняя граница модального интервала; hМо – величина модального интервала; nМо – частота модального интервала; nМо – 1 – частота интервала, предшествующего модальному; nМо + 1 – частота интервала, следующего за модальным.
Пример 2.12. Вычислим моду вариационного ряда распределения роста студентов (пример 2.7). Модальным является интервал от 166 до 170 см, так как частота этого интервала – 28 – является наибольшей в данном вариационном ряду. Следовательно, имеем: xМо = 166, hМо = 4, nМо = 28, nМо–1 = 26, nМо+1 = 12. Вычислим моду по формуле (2.19):
см.
Моду можно определить графическим способом с помощью гистограммы. Для этого на гистограмме сначала находим прямоугольник с наибольшей частотой. Соединяя отрезками прямых вершины этого прямоугольника с соответствующими вершинами двух соседних прямоугольников, получим точку пересечения этих отрезков (диагоналей), абсцисса которой и будет модой вариационного ряда.
Пример 2.13. Гистограмма распределения студентов по росту (пример 2.7) и способ определения моды вариационного ряда представлены на рис. 2.1.
Рис. 2.1. Графическое определение моды
Многовершинность (полимодальность) графика ряда распределения свидетельствует, как правило, о неоднородности совокупности, наличии каких-либо группировок в ее пределах, например, смешении разных возрастов. В этом случае, возможно, следует провести стратификацию (расслоение) данных, разбив исходную совокупность на две или более однородные подсовокупности. Иногда полимодальность может быть результатом различий в методике измерения различных частей совокупности или слишком дробной группировки при небольших объемах выборок.
Медиана. Медиана (Ме) – значение признака, приходящееся на середину ранжированного ряда наблюдений (до и после которого располагается равное количество вариантов).
Преимущество медианы как меры центральной тенденции заключается в том, что на нее не влияет изменение крайних членов вариационного ряда, если любой из них, меньший медианы, остается меньше ее, а любой, больший медианы, продолжает быть больше ее. Медиана предпочтительнее средней арифметической для ряда, у которого крайние варианты по сравнению с остальными оказались чрезмерно большими или малыми.
Для определения медианы необходимо упорядочить данные по возрастанию или убыванию (ранжировать). Для несгруппированных данных или для дискретного вариационного с нечетным числом членов медиана равна серединному варианту, а для ряда с четным числом членов – полусумме двух серединных вариантов.
Пример 2.14. Результаты определения количества миксоспоридий в тканях капустной белянки таковы:
1) самки: 84, 58, 135, 107, 129, 97, 51, 132, 71, 178, 89;
2) самцы: 317, 298, 312, 277, 328, 319, 299, 345, 285, 320.
Найдем медиану для каждого ряда данных.
Упорядочим имеющиеся данные, например, по возрастанию:
1) самки: 51, 58, 71, 84, 89, 97, 107, 129, 132, 135, 178;
2) самцы: 277, 285, 298, 299, 312, 318, 319, 320, 328, 345.
Первый ряд (самки) содержит нечетное число членов – 11. Следовательно, в данном случае медианой является шестой вариант, т. е. Ме = 97.
Второй
ряд (самцы) содержит четное число членов.
Следовательно, медиана будет равна
полусумме пятого и шестого членов
ранжированного ряда, т. е.
.
Для интервального вариационного ряда сначала определяется медианный интервал, накопленная частота которого составляет половину или больше половины всей суммы частот, а накопленная частота предыдущего интервала меньше половины численности совокупности. Значение медианы на этом интервале находим по формуле
,
(2.20)
где
xМе
– нижняя граница медианного интервала;
hМе
– величина медианного интервала;
– полусумма частот ряда;
– сумма накопленных частот, предшествующих
медианному интервалу; nМе
– частота медианного интервала.
Пример 2.15. Данные о весе зерен пшеницы-ежовки и накопленная частота представлены в табл. 2.8.
Таблица 2.8
Распределение зерен пшеницы-ежовки по весу
Вес, мг |
5–10 |
10–15 |
15–20 |
20–25 |
25–30 |
30–35 |
35–40 |
Количество зерен |
3 |
21 |
48 |
86 |
56 |
9 |
3 |
Накопленная частота |
3 |
24 |
72 |
158 |
214 |
223 |
226 |
Медианным будет интервал, накопленная частота которого превышает половину суммы всех частот вариационного ряда.
Определим
половину объема выборки:
.
Следовательно, медианным будет являться
интервал от 20 до 25, так как его накопленная
частота 158 превышает половину объема
выборки 113. Тогда xМе
= 20, hМе
= 5,
= 72, nМе
=
86. Медиану
найдем по формуле 2.20:
Me
= 20 + 5
= 22,4 мг.
Также как и моду, медиану можно найти графическим методом с помощью кумуляты. Для ее определения из точки на шкале накопленных частот (частостей), соответствующей 50 %, проводится прямая, параллельная оси абсцисс, до пересечения с кумулятой. Абсцисса точки пересечения является медианой.
Квантили. Аналогично с нахождением медианы можно определить квантили – варианты, занимающие определенное место в вариационном ряду. Они делятся:
– на квартили – варианты, делящие ранжированный ряд наблюдений на четыре равновеликие части;
– децили – варианты, делящие ряд на десять равных частей;
– перцентили – варианты, делящие ряд на сто частей.