- •Обобщающие показатели: интерпретация типических значений и перцентилей
- •Чему равно наиболее типическое значение?
- •Среднее: типическое значение для количественных данных.
- •Взвешенное среднее: учет важности
- •Медиана: типическое значение для количественных и порядковых данных
- •Мода: типическое значение даже для номинальных данных
- •Какие показатели нужно использовать
Медиана: типическое значение для количественных и порядковых данных
Медиана — это значение, которое расположено посередине; половина элементов в наборе данных больше этого значения, а вторая половина — меньше. Таким образом, медиана располагается в центре данных и дает представление о списке значений. Чтобы найти медиану, данные располагают в порядке возрастания, а затем определяют среднее значение. Обратите внимание, что если в наборе данных нет одного центрального значения, то следует усреднить те два значения, которые расположены посередине ряда.
Медиану можно, определить в терминах рангов. Ранги связывают числа 1, 2,…, n со значениями данных таким образом, что наименьшее значение имеет ранг 1, следующее по величине значение — ранг 2 и так далее до наибольшего значения, которое имеет ранг n. Ранги образуют основу непараметрических методов, которые будут рассмотрены позже.
В основу определения медианы положен следующий принцип.
Ранг медианы = (1+n)/2
С учетом всех возможных особых случаев медиана для списка из n элементов вычисляется таким образом.
Расположите элементы данных в порядке возрастания (или уменьшения — это не имеет значения).
Определите среднее значение полученного ряда. Возможны варианты.
Если n — нечетное число, то медианой будет среднее значение данных, которое имеет номер (1 + n)/2, если отсчитывать от любого из двух концов упорядоченного списка. Например, медиана списка 15, 27, 14, 18, 21 из n = 5 значений равняется:
медиана (15, 27, 14, 18,21) = медиана (14, 15, 18, 21, 27) = 18.
Следует отметить, что медиана, 18, это третье по порядку значение в упорядоченном списке, что соответствует формуле, поскольку (1 +n)/2 = (1 + 5)/2 = 3.
В качестве примера порядковых данных рассмотрим список рейтингов облигаций ААА, А, В, АА, А. Для этого списка медиана будет вычисляться следующим образом:
медиана (ААА, А, В, АА, А) = медиана (В, А, А, АА, ААА) = А.
Если n — чётное число, то ряд имеет не одно, а два средних значения. Эти значения расположены на расстоянии (1 +n)/2 от каждого из двух концов упорядоченного списка данных.
Если набор данных количественный (т.е. состоит из чисел), то медианой является среднее этих двух значении, расположенных в середине ряда. Например, медиана списка 15, 27, 14, 18 из n = 4 чисел вычисляется следующим образом:
медиана (15, 27, 14, 18) = медиана (14, 15, 18, 27) = (15 + 18)/2 = 16,5.
В этом случае по формуле (1 + n)/2 имеем: (1 + 4)/2 = 2,5; что говорит о необходимости пройти в упорядоченном списке половину пути между вторым и третьим числом, усреднив эти два числа.
Если набор данных является порядковым, (т.е. содержит упорядоченные категории) и если два расположенных в середине ряда значения, представляют одну и ту же категорию, то эта категория является медианой. Если эти два значения представляют различные категории, то обе эти категории будут медианами. Например, для списка рейтингов облигаций A, В, АА, А медиана будет равна:
медиана (А, В, АА, А) = медиана (В, А, А, АА) = А,
поскольку оба расположенных посередине значения равны A.
В другом примере для списка рейтингов облигаций А, ААА, В, АА, ААА, В медиана будет вычисляться следующим образом:
Медиана (А, ААА, В, АА, ААА, В) = медиана (В, В, А, АА, ААА, AAA) = А и АА.
Это лучшее, что можно сделать в данной ситуации, так как для порядковых данных нельзя вычислить среднее двух значений.
Для вычисления медианы в Excel можно использовать функцию (МЕДИАНА).
Чем отличается медиана от среднего? Если набор данных распределен нормально, то значения медианы и среднего близки между собой, поскольку нормальное распределение симметрично и имеет четко выраженную среднюю точку. Однако даже при нормальном распределении (здесь речь идет о “практически нормальном” распределении, а не о теоретически нормальном распределении) среднее и медиана несколько отличаются друг от друга, поскольку каждая из этих величин определяется по-своему и, кроме того, в реальных данных почти всегда присутствует некоторая случайность. Если, набор данных не подчиняется нормальному распределению, то медиана и среднее могут сильно различаться, потому что у асимметричного распределения нет четко выраженной центральной точки. Обычно среднее по отношению к медиане сдвинуто в направлении более длинного хвоста или в направлении выброса, поскольку среднее реально учитывает значения таких экстремальных наблюдений, в то время; как для медианы важно лишь, по какую сторону от нее лежит то или иное значение.
Пример. Личные доходы
Распределение таких количественных донных, как личные доходы отдельных людей и семей (как и распределение продаж, трат, цен и т.п.), часто скошено в сторону более высоких значений, поскольку такие наборы данных содержат много небольших значений, некоторое количество средних значений и немного больших и очень больших значений. Таким образом, обычно среднее больше, чем медиана. Это связано с тем, что на значение среднего, получаемого сложением всех элементов, сильно влияют большие значения. Рассмотрим доходы домохозяйств в США в 1992 году:
среднее доходов домохозяйств — $ 39 020,
медиана доходов домохозяйств — $ 30 786.
Среднее дохода выше, чем медиана, потому что на значение среднего оказывают сильное влияние относительно небольшое количество очень высокодоходных домохозяйств. Вспомним, что при вычислении среднего эти высокие доходы входит в сумму, а при вычислении медианы они являются просто «высокими доходами» (при этом каждому домохозяйству с высокими доходами соответствует домохозяйство с низкими доходами).
Гистограмма на рис.2 показывает вид распределения доходов для выборки из 100 человек.
Распределение сильно скошено в направлении высоких доходов, поскольку есть много людей с низкими доходами (на это указывают высокие столбики слева на гистограмме) и относительно немного людей, имеющих средние и высокие доходы (короткие столбики в середине и справа на гистограмме). Среднее значение дохода $38 710 выше, чем медиана $27 216. Медиана (точка, которая делит количество объектов пополам) ниже среднего, потому что на данной гистограмме большинство людей имеют низкие доходы, а наличие людей с высокими доходами значительно увеличивает значение среднего.
Рис. 2. Гистограмма распределения данных о доходах 100 человек. Это асимметричное распределение и среднее значительно больше, чем медиана.
Пример. Стадии сборки компьютерных системных блоков.
Рассмотрим процесс производства компьютеров, состоящий из следующих стадий:
А - производство материнской платы,
В - установка разъемов но материнскую плату,
С - установка в разъемы электронных микросхем,
D - тестирование собранной материнской платы,
E - установка собранной материнской платы в системный блок компьютера,
F - тестирование собранного системного блока.
Если у вас имеется набор данных, в котором для каждого системного блока указано, на какой из производственных стадий изготовления он находится, то такой одномерный набор порядковых данных может иметь, например, следующий вид:
А, С, Е, F, С, С, D, С, А, Е, Е, ………..
Этот набор данных является порядковым, поскольку для категорий существует естественный порядок - порядок прохождения изделия через все стадии производственного процесса от начала сборки до завершения. Такой набор данных можно представить в виде списка частот следующего вида.
Стадия производства |
Кол-во компьютерных системных блоков |
A B C D E F |
57 38 86 45 119 42 |
Итого |
387 |
Поскольку это порядковые данные, для них можно вычислить медиану, но не среднее. Медианой будет системный блок с рангом (1+387)/2 = 194 в списке всех системных блоков, упорядоченных в соответствии со стадией производства. Ниже показан способ определения медианы.
Блоки с рангами от 1 до 57 находятся на стадии А. Таким образом, медиана (которая имеет ранг 194) находится за пределами стадии A.
Блоки с рангами от 58 (57+1) до 95 (57 + 38) находятся на стадии В. Значит, медиана находится за пределами стадии В.
Блоки с рангами от 96 (95+1) до 181 (95 + 86) находятся на стадии С. Следовательно, медиана находится за пределами стадии С.
Блоки с рангами от 182 (181 + 1) до 226 (181 + 45) находятся на стадии D. Таким образом, медиана находится на стадии D, поскольку ранг медианы (194) лежит между рангами 182 и 226.
Таким образам, около половины системных блоков находятся на стадиях, предшествующих стадий D, и примерно половина — на стадиях, следующих за стадией D. Поэтому стадия D является средней точкой (с точки зрения готовности сборки) для всех системных блоков, находящихся в настоящий момент в производстве.
