Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Л4 Обобщающие показатели.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
104.47 Кб
Скачать

Медиана: типическое значение для количественных и порядковых данных

Медиана — это значение, которое расположено посередине; половина элементов в наборе данных больше этого значения, а вторая половина — меньше. Таким образом, медиана располагается в центре данных и дает представление о списке значений. Чтобы найти медиану, данные располагают в порядке возрастания, а затем определяют среднее значение. Обратите внимание, что если в наборе данных нет одного центрального значения, то следует усреднить те два значения, которые расположены посередине ряда.

Медиану можно, определить в терминах рангов. Ранги связывают числа 1, 2,…, n со значениями данных таким образом, что наименьшее значение имеет ранг 1, следующее по величине значение — ранг 2 и так далее до наибольшего значения, которое имеет ранг n. Ранги образуют основу непараметрических методов, которые будут рассмотрены позже.

В основу определения медианы положен следующий принцип.

Ранг медианы = (1+n)/2

С учетом всех возможных особых случаев медиана для списка из n элементов вычисляется таким образом.

  1. Расположите элементы данных в порядке возрастания (или уменьшения — это не имеет значения).

  2. Определите среднее значение полученного ряда. Возможны варианты.

  1. Если n — нечетное число, то медианой будет среднее значение данных, которое имеет номер (1 + n)/2, если отсчитывать от любого из двух концов упорядоченного списка. Например, медиана списка 15, 27, 14, 18, 21 из n = 5 значений равняется:

медиана (15, 27, 14, 18,21) = медиана (14, 15, 18, 21, 27) = 18.

Следует отметить, что медиана, 18, это третье по порядку значение в упо­рядоченном списке, что соответствует формуле, поскольку (1 +n)/2 = (1 + 5)/2 = 3.

В качестве примера порядковых данных рассмотрим список рейтингов облигаций ААА, А, В, АА, А. Для этого списка медиана будет вычисляться следующим образом:

медиана (ААА, А, В, АА, А) = медиана (В, А, А, АА, ААА) = А.

  1. Если n — чётное число, то ряд имеет не одно, а два средних значения. Эти значения расположены на расстоянии (1 +n)/2 от каждого из двух концов упорядоченного списка данных.

  2. Если набор данных количественный (т.е. состоит из чисел), то медианой является среднее этих двух значении, расположенных в середине ряда. Например, медиана списка 15, 27, 14, 18 из n = 4 чисел вычисляется следующим образом:

медиана (15, 27, 14, 18) = медиана (14, 15, 18, 27) = (15 + 18)/2 = 16,5.

В этом случае по формуле (1 + n)/2 имеем: (1 + 4)/2 = 2,5; что говорит о необходимости пройти в упорядоченном списке половину пути между вторым и третьим числом, усреднив эти два числа.

  1. Если набор данных является порядковым, (т.е. содержит упорядоченные категории) и если два расположенных в середине ряда значения, представляют одну и ту же категорию, то эта категория является медианой. Если эти два значения представляют различные категории, то обе эти категории будут медианами. Например, для списка рейтингов облигаций A, В, АА, А медиана будет равна:

медиана (А, В, АА, А) = медиана (В, А, А, АА) = А,

поскольку оба расположенных посередине значения равны A.

В другом примере для списка рейтингов облигаций А, ААА, В, АА, ААА, В медиана будет вычисляться следующим образом:

Медиана (А, ААА, В, АА, ААА, В) = медиана (В, В, А, АА, ААА, AAA) = А и АА.

Это лучшее, что можно сделать в данной ситуации, так как для порядковых данных нельзя вычислить среднее двух значений.

Для вычисления медианы в Excel можно использовать функцию (МЕДИАНА).

Чем отличается медиана от среднего? Если набор данных распределен нормально, то значения медианы и среднего близки между собой, поскольку нормальное распределение симметрично и имеет четко выраженную среднюю точку. Однако даже при нормальном распределении (здесь речь идет о “практически нормальном” распределении, а не о теоретически нормальном распределении) среднее и медиана несколько отличаются друг от друга, поскольку каждая из этих величин определяется по-своему и, кроме того, в реальных данных почти всегда присутствует некоторая случайность. Если, набор данных не подчиняется нормальному распределению, то медиана и среднее могут сильно различаться, потому что у асимметричного распределения нет четко выраженной центральной точки. Обычно среднее по отношению к медиане сдвинуто в направлении более длинного хвоста или в направлении выброса, поскольку среднее реально учитывает значения таких экстремальных наблюдений, в то время; как для медианы важно лишь, по какую сторону от нее лежит то или иное значение.

Пример. Личные доходы

Распределение таких количественных донных, как личные доходы отдельных людей и семей (как и распределение продаж, трат, цен и т.п.), часто скошено в сторону более высоких значений, поскольку такие наборы данных содержат много небольших значений, некоторое количество средних значений и немного больших и очень больших значений. Таким образом, обычно среднее больше, чем медиана. Это связано с тем, что на значение среднего, получаемого сложением всех элементов, сильно влияют большие значения. Рассмотрим доходы домохозяйств в США в 1992 году:

среднее доходов домохозяйств — $ 39 020,

медиана доходов домохозяйств — $ 30 786.

Среднее дохода выше, чем медиана, потому что на значение среднего оказывают сильное влияние относительно небольшое количество очень высокодоходных домохозяйств. Вспомним, что при вычислении среднего эти высокие доходы входит в сумму, а при вычислении медианы они являются просто «высокими доходами» (при этом каждому домохозяйству с высокими доходами соответствует домохозяйство с низкими доходами).

Гистограмма на рис.2 показывает вид распределения доходов для выборки из 100 человек.

Распределение сильно скошено в направлении высоких доходов, поскольку есть много людей с низкими доходами (на это указывают высокие столбики слева на гистограмме) и относительно немного людей, имеющих средние и высокие доходы (короткие столбики в середине и справа на гистограмме). Среднее значение дохода $38 710 выше, чем медиана $27 216. Медиана (точка, которая делит количество объектов пополам) ниже среднего, потому что на данной гистограмме большинство людей имеют низкие доходы, а наличие людей с высокими доходами значительно увеличивает значение среднего.

Рис. 2. Гистограмма распределения данных о доходах 100 человек. Это асимметричное распределение и среднее значительно больше, чем медиана.

Пример. Стадии сборки компьютерных системных блоков.

Рассмотрим процесс производства компьютеров, состоящий из следующих стадий:

А - производство материнской платы,

В - установка разъемов но материнскую плату,

С - установка в разъемы электронных микросхем,

D - тестирование собранной материнской платы,

E - установка собранной материнской платы в системный блок компьютера,

F - тестирование собранного системного блока.

Если у вас имеется набор данных, в котором для каждого системного блока указано, на какой из производственных стадий изготовления он находится, то такой одномерный набор порядковых данных может иметь, например, следующий вид:

А, С, Е, F, С, С, D, С, А, Е, Е, ………..

Этот набор данных является порядковым, поскольку для категорий существует естественный порядок - порядок прохождения изделия через все стадии производственного процесса от начала сборки до завершения. Такой набор данных можно представить в виде списка частот следующего вида.

Стадия производства

Кол-во компьютерных системных блоков

A

B

C

D

E

F

57

38

86

45

119

42

Итого

387

Поскольку это порядковые данные, для них можно вычислить медиану, но не среднее. Медианой будет системный блок с рангом (1+387)/2 = 194 в списке всех системных блоков, упорядоченных в соответствии со стадией производства. Ниже показан способ определения медианы.

Блоки с рангами от 1 до 57 находятся на стадии А. Таким образом, медиана (которая имеет ранг 194) находится за пределами стадии A.

Блоки с рангами от 58 (57+1) до 95 (57 + 38) находятся на стадии В. Значит, медиана находится за пределами стадии В.

Блоки с рангами от 96 (95+1) до 181 (95 + 86) находятся на стадии С. Следовательно, медиана находится за пределами стадии С.

Блоки с рангами от 182 (181 + 1) до 226 (181 + 45) находятся на стадии D. Таким образом, медиана находится на стадии D, поскольку ранг медианы (194) лежит между рангами 182 и 226.

Таким образам, около половины системных блоков находятся на стадиях, предшествующих стадий D, и примерно половина — на стадиях, следующих за стадией D. Поэтому стадия D является средней точкой (с точки зрения готовности сборки) для всех системных блоков, находящихся в настоящий момент в производстве.