
Теор.вер. (лекции) / Лекция 15
.docЛЕКЦИЯ 15
Числовые характеристики выборки
В качестве одной из важнейших характеристик вариационного ряда применяют среднюю величину. Математическая статистика различает несколько типов средних величин: арифметическую, геометрическую, гармоническую, квадратическую, кубическую и др. Все перечисленные типы средних могут быть рассчитаны для случаев, когда каждая из вариант вариационного ряда встречается только один раз (тогда средняя называется простой, или невзвешенной) и когда варианты или интервалы повторяются. При этом число повторений вариант или интервалов называют частотой, или статистическим весом, а среднюю, вычисленную с учётом статистического веса, – взвешенной средней.
Для характеристики вариационного ряда один из перечисленных типов средних выбирается не произвольно, а в зависимости от особенностей изучаемого явления и цели, для которой среднее вычисляется.
Практически при выборе того или иного типа средней следует исходить из принципа осмысленности результата при суммировании или при взвешивании. Только тогда средняя применена правильно, когда в результате взвешивания или суммирования получаются величины, имеющие реальный смысл.
Обычно затруднения при выборе типа средней возникают лишь в использовании средней арифметической, или гармонической. Что же касается геометрической и квадратической средних, то их применение обусловлено особыми случаями (см. далее).
Следует иметь в виду, что средняя только в том случае является обобщающей характеристикой, если она применяется к однородной совокупности. В случае использования средней для неоднородных совокупностей можно прийти к неверным выводам. Научной основой статистического анализа является метод статистических группировок, то есть расчленения совокупности на качественно однородные группы.
Все указанные типы
средних величин можно получить из формул
степенной средней. Если имеются варианты
,
то среднюю из данных вариант можно
рассчитать по формуле простой невзвешенной
степенной средней порядка
:
.
При наличии
соответствующих частот
средняя рассчитывается по формуле
взвешенной степенной средней:
Здесь
– степенная средняя;
– показатель степени, определяющий тип
средней;
–
варианты;
–
частоты или статистические веса
вариантов.
Средняя
арифметическая
получается из формулы степенной средней
при подстановке значения
:
-
невзвешенная (простая)
;
-
взвешенная
.
Средняя
гармоническая
получается при подстановке в формулу
степенной средней значения
:
-
невзвешенная (простая)
;
-
взвешенная
.
Средняя гармоническая
вычисляется тогда, когда средняя
предназначается для расчёта сумм
слагаемых, обратно пропорциональных
величине данного признака, то есть,
когда суммированию подлежат не сами
варианты, а обратные им величины
.
Средняя
квадратическая
получается из формулы степенной средней
при подстановке
:
-
невзвешенная (простая)
;
-
взвешенная
.
Средняя квадратическая используется только тогда, когда варианты представляют собой отклонения фактических величин от их средней арифметической или от заданной нормы.
Средняя
геометрическая
получается из формулы степенной средней
при предельном переходе
:
-
невзвешенная (простая)
;
-
взвешенная
.
Вычисления средней геометрической в значительной мере упрощаются, если воспользоваться логарифмированием. В этом случае получаем:
-
для невзвешенной (простой) средней геометрической
,
-
для взвешенной
.
Таким образом, логарифм средней геометрической есть средняя арифметическая из логарифмов вариант. Средняя геометрическая используется главным образом при изучении динамики. Средние коэффициенты и темпы роста также рассчитывают по формулам средней геометрической.
Если вычислить
различные типы средних для одного и
того же вариационного ряда, то числовые
их значения будут различаться. При этом
средние по своей величине расположатся
в определённом порядке. Наименьшей из
перечисленных средних окажется средняя
гармоническая, затем геометрическая и
т. д., наибольшей будет средняя
квадратическая. При этом порядок
возрастания средних определяется
показателем степени
в формуле степенной средней. Так, при
получаем среднюю гармоническую, при
– геометрическую, при
– арифметическую, при
– квадратическую:
.
В качестве
характеристики вариационного ряда
используют медиану
,
то есть такое значение варьирующего
признака, которое приходится на середину
упорядоченного вариационного ряда.
Если в вариационном ряду
случаев, то значение признака у случая
будет медианным. Если в ряду чётное
число
случаев, то медиана равна средней
арифметической из двух серединных
значений. Таким образом, медиана
рассчитывается по формуле
-
при нечётном количестве вариантов:
,
-
при чётном:
.
При расчёте медианы интервального вариационного ряда сначала находят интервал, содержащий медиану, путём использования накопленных частот (или относительных частот). Медианному интервалу соответствует первая из накопленных частот (или относительных частот), превышающая половину всего объёма совокупности. Для нахождения медианы при постоянстве плотности внутри интервала, содержащего медиану, используют формулу:
,
где
– нижняя граница медианного интервала;
– величина медианного интервала;
– накопленная частота интервала,
предшествующая медианному;
–
частота медианного интервала.
Медиану можно также определить графически – по кумуляте. Для этого последнюю ординату, пропорциональную суме всех частот (или относительных частот), делят пополам. Из полученной точки восстанавливают перпендикуляр до пересечения с кумулятой. Абсцисса точки пересечения – значение медианы.
Медиана обладает таким свойством: сумма абсолютных величин отклонений вариантов от медианы меньше, чем от любой другой величины (в том числе и от средней арифметической). Другими словами:
.
Это свойство медианы можно использовать при проектировании расположения трамвайных и троллейбусных остановок, бензоколонок и т. д.
ПРИМЕР. На шоссе 100км имеется 10 гаражей. Для проектирования строительства бензоколонки были собраны данные о числе предполагаемых поездок на заправку с каждого гаража. Результаты обследования приведены в следующей таблице:
На каком километре шоссе расположен гараж |
7 |
26 |
28 |
37 |
40 |
46 |
60 |
78 |
86 |
92 |
Всего поездок |
Проектируемое число поездок |
10 |
15 |
5 |
20 |
5 |
25 |
15 |
30 |
10 |
65 |
200 |
Бензоколонку нужно поставить так, чтобы общий пробег машин на заправку был наименьшим.
Решение.
Если бензоколонку поставить на середине шоссе, то есть на 50-м километре (средняя арифметическая), то пробеги с учётом числа поездок составят
-
в одном направлении:
;
-
в противоположном:
.
Общий пробег в оба направления окажется равным 5390 км.
2-й способ:
Уменьшения пробега можно достичь, если бензоколонку поставить на 63,85-м километре, то есть на среднем участке шоссе с учётом числа поездок (средняя арифметическая взвешенная). В этом случае пробеги составят по 2475,75 км в оба направления. Таким образом, общий пробег составит 4951,5 км и окажется меньше, чем в первом способе решения, на 438,5 км.
3-й способ:
Наилучший результат,
то есть минимальный общий пробег,
получим, если поставить бензоколонку
на 78-м километре, что будет соответствовать
медиане. Заметим, что медиана вычислена
по формуле:
.
При этом вариационный ряд записываем
в виде
.
Следовательно
.
Тогда пробеги
составят 3820 км и 990 км соответственно.
Общий пробег, в этом случае, равен 4810
км, то есть
он оказался меньше общих пробегов,
рассчитанных в предыдущих способах.
Модой
()
называется варианта, наиболее часто
встречающаяся в данном вариационном
ряду. Для дискретного ряда мода, являющаяся
характеристикой вариационного ряда,
определяется по частотам вариант и
соответствует варианте с наибольшей
частотой. В случае интервального
распределения с равными интервалами,
модальный интервал (то есть интервал,
содержащий моду) определяется по
наибольшей частоте, а при неравных
интервалах – по наибольшей плотности.
Мода рассчитывается по формуле:
,
где
–
нижняя граница модального интервала;
–
величина модального интервала;
–
частота модального интервала;
–
частота интервала, предшествующего
модальному;
– частота интервала, следующего за
модальным.
Вариационные ряды, в которых частоты вариант, равноотстоящих от средней, равны между собой, называются симметричными. Особенность симметричны вариационных рядов состоит в равенстве трёх характеристик – средней арифметической, моды и медианы, то есть:
(это необходимое, но не достаточное, условие симметричности вариационного ряда).
Вариационные ряды, в которых расположение вариант вокруг средней не одинаково, то есть частоты по обе стороны от средней изменяются по-разному, называются асимметричными, или скошенными. Различают асимметрию – левостороннюю и правостороннюю.
Средние величины, характеризую вариационный ряд одним числом, не учитывают вариацию признака, между тем эта вариация существует. Для измерения вариации признака в математической статистике применяют ряд способов.
Вариационный
размах (),
или широта
распределения,
есть разность между наибольшим и
наименьшим значениями вариационного
ряда:
Вариационный размах представляет собой величину неустойчивую, чрезвычайно зависящую от случайных обстоятельств; применяется для приблизительной оценки вариации.
Среднее линейное
отклонение1
(обозначается
)
представляет собой среднюю арифметическую
из абсолютных значений отклонений
вариант от средней. В зависимости от
отсутствия или наличия частот вычисляют
среднее линейное отклонение невзвешенное
или взвешенное:
.
Средний квадрат
отклонения, или дисперсия (обозначается
)
наиболее часто применяется как мера
колеблемости признака. Дисперсии
невзвешенную и взвешенную вычисляют
по формулам:
.
Таким образом, дисперсия есть средняя арифметическая из квадратов отклонений вариант от их средней арифметической.
Квадратный корень
из дисперсии
называется среднеквадратическим
отклонением.
Обобщающими характеристиками вариационных рядов являются моменты распределения. Характер распределения можно определить с помощью небольшого количества моментов.
Средняя из
-
х степеней отклонений вариант
от некоторой постоянной величины
(ложный ноль) называется моментом
-го
порядка:
.
При расчёте средних
в качестве весов можно использовать
частоты, относительные частоты или
вероятности. При использовании в качестве
весов частот или относительных частот
моменты называются эмпирическими,
а при использовании вероятностей –
теоретическими.
Порядок момента определяется величиной
.
Эмпирический момент
-го
порядка находится как отношение суммы
произведений
-х
степеней отклонений вариант
от постоянной величины
на соответствующие частоты
к сумме частот
(объём выборки), то есть
.
В зависимости от
выбора постоянной величины
различают следующее моменты:
-
Если
, то моменты называются начальными. Будем обозначать их через
и вычислять по формуле:
.
Тогда:
-
при
получаем начальный момент нулевого порядка
;
-
при
получаем начальный момент первого порядка
;
-
при
получаем начальный момент второго порядка
;
-
при
получаем начальный момент третьего порядка
;
-
при
получаем начальный момент четвёртого порядка
;
и так далее. На практике чаще всего используют моменты первых четырёх порядков.
-
Если
(
– начало отсчёта), то моменты называются начальными относительно
, обозначаются
и рассчитываются по формуле:
.
-
Если
(
– средняя), то моменты называются центральными, обозначаются
и вычисляются так:
.
Тогда:
-
при
получаем центральный момент нулевого порядка
;
-
при
получаем центральный момент первого порядка
;
-
при
получаем центральный момент второго порядка
(служит мерой колеблемости признака);
-
при
получаем центральный момент третьего порядка
,
который служит
мерой асимметрии распределения признака.
Так, если распределение симметрично,
то
;
-
при
получаем центральный момент четвёртого порядка
.
Коэффициентом
асимметрии
называется отношение центрального
момента третьего порядка к кубу
среднеквадратического отклонения:
.
Если полигон вариационного ряда скошен, то есть одна из его ветвей, начиная от вершины, зримо короче другой, то такой ряд называют асимметричным.
Эксцессом называют уменьшенное на три единицы отношение центрального момента четвёртого порядка к четвёртой степени среднеквадратического отклонения:
.
Кривые распределения,
у которых
,
менее крутые, имеют более плоскую вершину
и называются плосковершинными.
Кривые распределения, у которых
,
более крутые, имеют более острую вершину
и называются островершинными.
1 или простое среднее отклонение.