- •Обобщающие показатели: интерпретация типических значений и перцентилей
- •Чему равно наиболее типическое значение?
- •Среднее: типическое значение для количественных данных.
- •Взвешенное среднее: учет важности
- •Медиана: типическое значение для количественных и порядковых данных
- •Мода: типическое значение даже для номинальных данных
- •Какие показатели нужно использовать
Какие показатели нужно использовать
(■*
У^Ъ
i/lP-/
Есть два вида ответов. Первый зависит от того, что можно вычислить, а второй зависит от того, какой из показателей более полезен.
Моду можно вычислить для любого одномерного набора данных (хотя в случае количественных данных проблемой может быть некоторая неопределенность). Среднее можно вычислить только для количественных данных (чисел), а медиану — для всех типов данных, кроме номинальных (неупорядоченных категорий). Таким образом, ваш выбор ограничен, а в случае номинальных данных у вас вообще нет другого выбора, кроме как использовать моду. Рекомендации по выбору характеристики в зависимости от типа данных можно представить таким образом.
|
Количественные |
Порядковые |
Номинальные |
Среднее |
да |
|
|
Медиана |
да |
да |
|
Мода |
да |
да |
да |
В случае количественных данных, для которых можно вычислить все три характеристики, насколько они отличаются между собой? Если распределение близко к нормальному, разница невелика, поскольку каждая из характеристик стремится к четко выраженной середине, имеющей форму колокола кривой распределения.
Среднее следует использовать, когда набор данных распределен нормально (по крайней мере приблизительно), поскольку в этом случае среднее является самой эффективной характеристикой. Среднее также следует вычислять и в тех ситуациях, где необходимо сохранить или предсказать общую сумму значений данных, так как другие характеристики не позволяют это сделать.
(■*
У^Ъ
i/lP-/
Моду используют при наличии номинальных данных, так как в этом случае нельзя вычислять среднее и медиану. Она также полезна для порядковых данных, когда важно определить наиболее распространенную категорию. Помимо рассмотренных существует много других характеристик. Перспективным является использование так называемых «робастных» (устойчивых) оценок.
Для идеального нормального распределения среднее, медиана и мода совпадают. Для реальных данных, где всегда присутствует случайность, эти характеристики будут приблизительно, но не точно, равны между собой.
Однако в случае асимметричного распределения данных эти характеристики могут заметно различаться (как мы уже отмечали для среднего и медианы). На рис. 3. показаны рассматриваемые характеристики для данных, не подчиняющихся нормальному распределению.
Для скошенного распределения среднее, медиана и мода различаются. Мода соответствует наивысшей точке на кривой распределения. По обе стороны от медианы находится половина области под кривой распределения. Среднее находится в точке центра тяжести распределения, как точки опоры доски детских качелей.
