- •Глава 6 статистические показатели
- •Понятие, формы выражения и виды статистических показателей
- •6.2 Абсолютные показатели
- •6.3 Относительные показатели
- •Сущность и значение средних показателей
- •Средняя арифметическая и ее свойства
- •Продажа акций ао «Дока-хлеб» на торгах фондовой секции тмб «Гермес»
- •Заработная плата работников предприятия за май 2002 г.
- •Другие виды средних
- •Валовой сбор и урожайность зерновых культур по Уральскому федеральному округу в 2000 г.
- •Основные понятия
- •Аналитическая статистика
- •Глава 7 показатели вариации и анализ .Частотных распределений
- •Вариация признака в совокупности и значение ее изучения
- •Доля мальчиков, родившихся у матерей до 45 лет
- •Показатели центра распределения
- •Распределение рабочих по тарифному разряду
- •Распределение коммерческих банков по сроку функционирования
- •Вычисление о2 и а по несгруппированным данным
- •Вариации альтернативного признака. Энтропия распределения
- •Виды дисперсий в совокупности, разделенной на группы. Правило сложения дисперсий
- •2. Определим средние объемы выполненных работ по предприятиям каждой формы собственности:
- •5. Найдем общую дисперсию по правилу сложения дисперсий:
- •Удельный вес основных рабояях фирмы
- •Структурные характеристики вариационного ряда распределения. Показатели дифференциации
- •Распределение оценок учеников за диктант при 100-балльной оценке*
- •7.7 Моменты распределения
- •7.8 Изучение формы распределения
- •Распределение коммерческих банков по размеру выданных кредитов
- •Теоретические распределения в анализе вариационных рядов
- •Расчет критерия Колмогорова поданным крепости одиночной нити в 500 образцах
- •Основные понятия
Распределение коммерческих банков по сроку функционирования
(на начало года)
Группы банков по сроку функционирования, лст.д
|
Число банков, % к итогу, /
|
Накопленная частота, S
|
А
|
1
|
2
|
1-2
|
10
|
10
|
2-3
|
15
|
25
|
! 3-4
|
21
|
46
|
! 4-5
|
25
|
71
|
5-6
|
12
|
83
|
6-7
|
7
|
90
|
7-8
|
5
|
95
|
свыше 8
|
5
|
100
|
Итого
|
100,0
|
^
|
, СП. •
|
||
'•чта.',
|
дагся в середине упорядоченного вариационного ряда. Главное свойство медианы в том, что сумма абсолютных отклонений значений признака от медианы меньше, чем от любой другой величины:
(7.5)
Если в вариационном ряду 2т+1 случаев, то значение признака у случая т+\ будет медианным. Если в ряду четное число 2т случаев, то медиана равна средней арифметической из двух данных значений.
Формулы для исчисления медианы при нечетном числе вариантов
(7.6)
220
Пример. Рассмотрим определение медианы по данным вариационного ряда из 11 рабочих, имеющих тарифный разряд: 5,4,3,4,5,5, 6,2, 6, 3, 5. Для определения медианы проведем ранжирование рабочих по тарифному разряду: 23344555566.
Центральным в этом ряду будет рабочий 5-го разряда, следовательно, данный разряд и будет медианным.
Если ранжированный ряд включает 12 рабочих: 2 3 3 3 4 4 5 5 5 5 6 6, то медиана определяется как средняя арифметическая из двух центральных значений, т.е. в данном ряду медианой будет тарифный разряд, равный
4+5 , -
——=4,5 разряд а.
Если мода отражает типичный, наиболее распространенный вариант значения признака, то медиана практически выполняет функцию средней величины для неоднородной совокупности, не подчиняющейся нормальному закону распределения. Проиллюстрируем ее познавательное значение.
Таблица 7.4
•;s&>'' .ко'" ('!•"") Доходы исследуемой группы людей за месяц
№ п/п
|
1
|
2
|
3
|
4
|
|
50
|
51
|
|
99
|
100
|
Доход,долл.
|
100
|
104
|
104
|
107
|
|
162
|
164
|
|
200
|
50000
|
Пример. Допустим, нам необходимо дать характеристику среднего дохода группы людей из 100 человек, 99 из которых имеют доход в интервале от 100 до 200 долл. в месяц, а месячный доход последнего" человека из группы составляют 50 000 долл. (табл. 7.4).
Если мы воспользуемся формулой средней арифметической, то получим средний доход, равный примерно 600-700 долл., который не только в несколько раз меньше дохода 100-го человека, но и имеет мало общего с доходами остальных членов группы. Медиана же, равная в данном случае 163 долл., позволит дать объективную характеристику уровня дохода 99% данной группы людей.
Рассмотрим определение медианы по сгруппированным данным (рядам распределения).
221
Положение медианы в ряду распределения определяется ее номером:
(7.8)
где л - число единиц совокупности.
Пример. Используя данные табл. 7.2, определим номер медианы:
n. -215±l щя
^6=—,—=108-
Полученное значение указывает, что середина ряда приходится' на 108-й номер рабочего. Необходимо определить, к какой группе от-1 носится рабочий с этим порядковым номером. Это можно сделать, ''• рассчитав накопленные частоты (табл. 7.2 графа 2). Очевидно, что рабочих с таким номером нет в первой группе, где всего 20 человек, нет их и во второй группе (20 + 50). 108-й номер рабочего находится в третьей группе (20 + 50 + 60 = 130), следовательно, медианным является 4-й тарифный разряд.
В интервальном ряду распределения сразу можно указать только интервал, в котором будет находиться медиана. Для определения ее | величины используется специальная формула:
(7.9)
где х^ - нижняя граница медианного интервала;
/ - величина медианного интервала;
5^_, - накопленная частота интервала, предшествующего медианному;
f^ - частота медианного интервала.
Пример. Используя данные табл. 7.3, рассчитаем медиану. По накопленным частотам (графа 2) определим, что медиана находится в интервале 4-5. Тогда:
Me=4+150^46=4,2roдa. 25
Таким образом, 50% банков имеет срок функционирования мене
4,2 года, а 50% банков - более 4,2 года.
222
Моду и медиану в интервальном ряду распределения можно определить графически. Мода определяется по гистограмме распределения. Для этого выбирается самый высокий прямоугольник, который в данном случае является модальным. Затем правую вершину модального прямоугольника соединяют с правым верхним углом предыдущего прямоугольника. А левую вершину модального прямоугольника - с левым верхним углом последующего прямоугольника. Далее из точки их пересечения опускают перпендикуляр на ось абсцисс.
Рис. 7.1. Гистограмма распределения коммерческих банков по сроку функционирования
Абсцисса точки пересечения этих прямых и будет модой распределения (рис. 7.1).
Медиана рассчитывается по кумуляте (рис.7.2). Для ее определения из точки на шкале накопленных частот (частостей), соответствующей 50%, проводится прямая, параллельная оси абсцисс, до пересечения с кумулятой. Затем из точки пересечения указанной прямой с кумулятой опускается перпендикуляр на ось абсцисс. Абсцисса точки пересечения является медианой.
Таким образом, в качестве обобщенной характеристики значений определенного признака у единиц ранжированной совокупности могут быть использованы средняя арифметическая, мода и медиана. Каждая из них имеет свои особенности.f/
223
Рис. 7.2. Кумулята распределения коммерческих банков по сроку функционирования
Основной характеристикой центра распределения является средняя арифметическая, для которой характерно то, что все отклонения от нее (положительные или отрицательные) в сумме равняются нулю; для медианы характерно, что сумма отклонений от нее по модулю является минимальной, а мода представляет собой значение признака, которое наиболее часто встречается. Поэтому в зависимости от цели исследования распределения должна выбираться одна из упомянутых характеристик либо же для сравнения вычисляться все три.
Соотношение моды, медианы и средней арифметической указывает на характер распределения признака в совокупности, позволяет оценить его асимметрию.
В симметричных распределениях все три характеристики совпадают. Чем больше расхождение между модой и средней арифметической, тем более асимметричен ряд. Для умеренно асимметричных рядов разность между модой и средней примерно в три раза превышает разность между медианой и средней, т.е.
(7.10)
224
7.3
ПОКАЗАТЕЛИ ВАРИАЦИИ И СПОСОБЫ ИХ РАСЧЕТА
Средняя величина дает обобщающую характеристику всей совокупности изучаемого явления. Однако, исчислив среднюю арифметическую по данным вариационного ряда, мы еще ничего не знаем о том, как отдельные значения изучаемого признака группируются вокруг средней. В этом отношении наблюдаются существенные различия. В одних случаях отдельные значения признака весьма близки к средней арифметической и мало чем от нее отличаются. В этом случае средняя хорошо представляет всю совокупность. В другом случае, наоборот, отдельные значения далеки от средней, и тогда средняя не будет представлять всю совокупность. Возьмем, например, средний уровень доходов населения. Он может быть исчислен как средняя арифметическая из доходов граждан какой-либо страны. Однако значение средней величины для стран, в которых нет резких различий в уровне доходов, буцет гораздо выше, чем для стран, в которых наблюдаются резкие различия.
Поэтому нельзя ограничиться вычислением одной средней величины. Надо изучать не только среднюю, но и отклонения от нее, потому что именно в отклонениях виден весь процесс явления в его диалектическом развитии. Отклонение в одну сторону от средней для некоторых показателей следует рассматривать как ростки нового, отклонения в противоположную сторону - как пережитки старого. Для вариационного ряда важно изучать степень сплоченности всех отдельных значений признака вокруг его среднего значения, степень разбросанности этих значений, степень колеблемости их. Для этого в теории статистики используются показатели вариации.
Показатели вариации делятся на две группы: абсолютные и относительные. К абсолютным показателям относятся: размах вариации, среднее линейное отклонение, дисперсия и среднее квадратическое отклонение. К относительным показателям вариации относятся: коэффициенты осцилляции, вариации, относительное линейное отклонение и др. Относительные показатели вычисляются как отношение абсолютных показателей вариации к средней арифметической (или медиане).
Вариационный размах. Вариационный размах (R) (или, как еще говорят, амплитуда колебаний) показывает, насколько велико различие между единицами совокупности, имеющими самое маленькое и самое большое значение признака.
Размах рассчитывают как разность между наибольшим (хmax ) наименьшим (хmin) значениями варьирующего признака, т.е.:
(7.11)
Пример. Рассмотрим возраст студентов какого-нибудь вуза: самому молодому студенту - 17 лет, самому старшему - 25 лет. Разность составляет 8 лет.
Значение подобного рода величины необходимо в практической и хозяйственной деятельности, а также в научных исследованиях. Например, размах вариации применяется для контроля качества продукции при определении влияния систематически действующих причин на производственный процесс. Дня этого через определенные промежутки времени отбирают несколько деталей и проводят их измерение. Рассчитав по данным этих выборок показатели размаха вариации и сопоставив результаты вычислений, судят об устойчивости режима производственного процесса.
В учебной литературе по статистике обычно указывается, что размах имеет существенный недостаток. Его величина всецело зависит от крайних значений признака, и он не учитывает всех изменений варьирующего признака в пределах совокупности. Этот упрек в адрес размаха является не совсем верным. Какой же это недостаток, когда именно в этом заключается суть показателя.
Размах вариации для того и существует, чтобы измерять расстояние между крайними точками. Другое дело, что в изучении вариации нельзя ограничиться определением одного лишь ее размаха. Но это не исключает необходимости определения величины этого показателя, не умаляет его значения.
К действительным недостаткам размаха вариации можно отнести следующее: очень низкое и очень высокое значения признака по сравнению с основной массой его значений в совокупности могут быть обусловлены какими-либо сугубо случайными обстоятельствами, т.е. эти значения являются аномальными в совокупности. В этих случаях размах вариации даст искаженную амплитуду колебания признака против, так сказать, нормальных его размеров, так как в данную совокупность включены единицы другой совокупности с аналогичным признаком. Поэтому прежде чем определить величину размаха вариации, следует очистить совокупность от аномальных наблюдений. Например,
226
нельзя вычислять размах вариации заработков работников какого-либо частного предприятия, если наряду с заработками наемных работников в совокупность включен «заработок» владельца.
Итак, размах вариации - важный показатель колеблемости признака, но он не исчерпывает характеристику вариации.
Среднее линейное отклонение. Для анализа вариации необходим показатель, который бы отражал все колебания варьирующего признака и давал обобщенную его характеристику. Для многих варьирующих признаков возможно допущение, что при прочих равных условиях все единицы совокупности в соответствии с основными законами своего развития имеют одинаковую и при том вполне определенную величину в данных условиях места и времени. Вполне логично в качестве такой величины условно принять среднюю величину из всех значений признака, поскольку в ней более или менее погашаются случайные отклонения от закономерного развития явления, и средняя тем самым отражает типичный размер признака у данной однородной совокупности единиц. Но условия существования и развития отдельных единиц совокупности в определенной степени различны, что сказывается на различии значений признака. Средняя величина отражает эти средние условия.
Следовательно, средняя применяется в качестве своего рода центра тяжести, вокруг которого происходит колебание, рассеяние значений признака. При обобщении этих колебаний необходимо прибегать к методу средних величин - искать среднюю величину этих отклонений.
Такая средняя называется средним линейным отклонением (3). Эта величина вычисляется как средняя арифметическая из абсолютных значений отклонений вариант х и х (простая (формула 7.12) или взвешенная (формула 7.13), в зависимости от исходных условий):
(7.12)
(7.13)
227
ой' Поскольку сумма отклонений значений признака от средней величины равна нулю, приходится все отклонения брать по модулю, на что указывают прямые скобки в числителе формул.
Пример. Покажем расчет среднего линейного отклонения по данным табл. 7.5.
Таблица 7.5 Обеспеченность населения города общей жилой площадью
Алгоритм расчета среднего линейного отклонения следующий:!
1. Найдем середину интервалов (х\) по исходным данным (гр^ фа А) и запишем в таблицу (графа 2).
2. Определим произведения значений середины интервалов (х[) на соответствующие им веса (^) (графа 3). В итоге получим 1 206. Рассчитаем среднюю величину по формуле средней арифметической взвешенной:
228
3. Для расчета линейного отклонения найдем абсолютные отклонения середины интервалов, принятых нами в качестве вариантов признака (х,) от средней величины (х) (графа 4).
4. Наконец, вычислим произведения отклонений \х'i-х\ на их веса (Л и подсчитаем сумму их произведений. Она равна 236,6. Результаты записываем в графу 5.
Делим эту сумму на сумму весов, чтобы получить искомую величину 3:
Таково в среднем отклонение вариантов признака от их средней величины. Это отклонение по сравнению со средней величиной признака небольшое. Оно отличается от средней на 9,694 кв. м. Это свидетельствует о том, что данная совокупность в отношении нашего признака однородна, а средняя - типична.
Таким образом, среднее линейное отклонение дает обобщенную характеристику степени колеблемости признака в совокупности. Однако при его исчислении приходится допускать некорректные с точки зрения математики действия, нарушать законы алгебры. Математики и статистики искали иной способ оценки вариации для того, чтобы иметь дело только с положительными величинами. Был найден очень простой выход - возвести все отклонения во вторую степень. Это столь простое решение привело в последующем к большим научным результатам. Оказалось, что обобщающие показатели вариации, найденные с использованием вторых степеней отклонений, обладают замечательными свойствами; позднее на их основе были разработаны новые методы исследования, а также новые показатели количественной характеристики большого класса явлений. Полученную меру вариации назвали дисперсией и обозначили D или о2.
Дисперсия. Дисперсия представляет собой средний квадрат отклонений индивидуальных значений признака от их средней величины и в зависимости от исходных данных вычисляется по формулам простой дисперсии (формула 7.14) и взвешенной дисперсии (формула 7.15);
(7.14)
229
(7.15)
Расчет дисперсии может быть упрощен. В случае равных интервалов в вариационном ряду распределения используется способ отсчета от условного нуля (способ моментов). Для его понимания необходимо знать математические свойства дисперсии:
1. Дисперсия постоянной величины равна нулю.
2. Уменьшение всех значений признака на одну и ту же величину А не меняет величины дисперсии:
(7.16)
Значит, средний квадрат отклонений можно вычислить не по заданным значениям признака, а по их отклонениям от какого-то постоянного числа.
3. Уменьшение всех значений признака в k раз уменьшает дисперсию в А-2 раз, а среднее квадратическое отклонение - в k раз:
(7.17)
Значит, все значения признака можно разделить на какое-то постоянное число (скажем, на величину интервала ряда), исчислить среднее квадратическое отклонение, а затем умножить его на постоянное число:
(7.18)
4. Если исчислить средний квадрат отклонений от любой величины Л, в той или иной степени отличающейся от средней арифметической (х), то он всегда будет больше среднего квадрата отклонений, исчисленного от средней арифметической:
(7.19)
Средний квадрат отклонений при этом будет больше на вполне определенную величину - на квадрат разности средней и этой условно взятой величины, т.е. на (х-А)1:
или
(7.20)
Значит, дисперсия от средней всегда меньше дисперсий, исчисленных от любых других величин, т.е. она имеет свойство минимальности.
В случае когда А приравнивается нулю и, следовательно, отклонения не вычисляются, формула принимает такой вид:
или
(7.21)
Значит, средний квадрат отклонений равен среднему квадрату значений признака минус квадрат среднего значения признака.
На приведенных математических свойствах дисперсии основан Метод расчета дисперсии по способу моментов, или способу отсчета от условного нуля, который применялся при исчислении средней величины. Расчет производится по формуле
231
(7.22)
где
* А
условный нуль, в качестве которого удобно использовать середину интервала, обладающего наибольшей частотой;
_ Дисперсия есть средняя величина квадратов отклонений, а вари-| анты признака выражены в первой степени. ;
Среднее квадратическое отклонение (<т). Среднее квадратичео| кое отклонение равно корню квадратному из дисперсии. Оно может! быть простым (формула 7.23) или взвешенным (формула 7.24).
(7.23)
или
(7.24)1
Среднее квадратическое отклонение, как и среднее линейное от-' клонение, показывает, на сколько в среднем отклоняются конкретные варианты признака от среднего значения. Они выражаются в тех же единицах измерения, что и признак (в метрах, тоннах, рублях и т.д.).
232
Среднее квадратическое отклонение часто используется в качестве единицы измерения отклонений от средней арифметической. В зарубежной литературе этот показатель называется нормированным, или стандартизованным, отклонением.
По свойству мажорантности средних величин (см. глава 6) среднее квадратическое отклонение всегда больше среднего линейного отклонения. Если распределение признака близко к нормальному или симметричному распределению, то между с и d существует взаимосвязь: ~а = 0,8о или ст = 1,25 ~а .
Среднее квадратическое отклонение играет важную роль в анализе вариационных рядов распределения. В условиях нормального распределения существует следующая взаимосвязь между величиной среднего квадратического отклонения и количеством наблюдений:
• в пределах х ± 1о располагается 0,683, или 68,3% количества наблюдений;
• в пределах х ± 20 - 0,954, или 95,4%;
• в пределах х ± Зо - 0,997, или 99,7% количества наблюдений. В действительности на практике почти не встречаются отклонения, которые превышают ±3ст. Отклонение 3(7 может считаться максимально возможным. Это положение называют правилом трех сигм.
Пример. Рассмотрим расчет дисперсии и среднего квадратического отклонения по данным табл. 7.6 о выпуске промышленной продукции фирмами отрасли.
Таблица 7.6