Глава 4 Описательная статистика
4.1. Краткие сведения из теории статистики
Статистическая информация представляется совокупностью данных, для характеристики которых используются разнообразные показатели, называемые показателями описательной статистики. Уровень образования, прожиточный минимум, дифференциация доходов населения, среднее число детей в семье, средний курс доллара и мера его колебания за определенный интервал времени, таблицы продолжительности жизни, наиболее часто встречающийся счет в чемпионате России по футболу — все это показатели описательной статистики.
Показатели описательной статистики можно разбить на несколько групп.
Показатели положения описывают положение данных на числовой оси. Примеры таких показателей - минимальный и максимальный элементы выборки (первый и последний члены вариационного ряда), верхний и нижний квартили (ограничивают зону, в которую попадают 50% центральных элементов выборки). Наконец, сведения о середине совокупности могут дать средняя арифметическая, средняя гармоническая, медиана и другие характеристики.
Показатели разброса описывают степень разброса данных относительно своего центра. К ним в первую очередь относятся: дисперсия, стандартное отклонение, размах выборки (разность между максимальным и минимальным элементами), межквартильный размах (разность между верхней и нижней квартилью), эксцесс и т. п. Эти показатели определяют, насколько кучно основная масса данных группируется около центра.
Показатели асимметрии характеризуют симметрию распределения данных около своего центра. К ним можно отнести коэффициент асимметрии, положение медианы относительно среднего и т. п.
Показатели, описывающие закон распределения, дают представление о законе распределения данных. Сюда относятся таблицы частот, таблицы частостей, полигоны, кумуляты, гистограммы.
На практике чаще всего используются следующие показатели: средняя арифметическая, медиана, дисперсия, стандартное отклонение. Однако для получения более точных и достоверных выводов необходимо учитывать и другие из перечисленных выше характеристик, а также обращать внимание на условия получения выборочных совокупностей. Наличие выбросов, т. е. грубых ошибочных наблюдений, может не только сильно исказить значения выборочных показателей (выборочного среднего, дисперсии, стандартного отклонения и т. д.), но и привести ко многим другим ошибочным выводам.
4.2. Справочная информация по технологии работы
Режим «Описательная статистика» служит для генерации одномерного статистического отчета по основным показателям положения, разброса и асимметрии выборочной совокупности.
В диалоговом окне данного режима (рис. 4.1) задаются следующие параметры:
Рис.4.1
Итоговая статистика — установите в активное состояние, если в выходном диапазоне необходимо получить по одному полю для каждого из следующих показателей описательной статистики: средняя арифметическая выборки, средняя ошибка выборки, медиана (Me), мода (Мо), оценка стандартного отклонения по выборке (σ), оценка дисперсии по выборке (D), оценка эксцесса по выборке (Еk), оценка коэффициента асимметрии по выборке (Аs), размах вариации выборки (R), минимальный и максимальный элементы выборки, сумма элементов выборки, количество элементов в выборке, k-й наибольший и k-й наименьший элементы выборки, предельная ошибка выборки.
Уровень
надежности
установите в активное состояние, если
в выходную таблицу необходимо включить
строку для предельной ошибки выборки
при установленном уровне надежности.
В поле, расположенном напротив флажка,
введите требуемое значение уровня
надежности (например, значение уровня
надежности 95% равносильно доверительной
вероятности
= 0,95 или уровню значимости α = 0,05).
К-й наибольший установите в активное состояние, если в выходную таблицу необходимо включить строку для k-го наибольшего (начиная с максимума xmax) значения элемента выборки. В поле, расположенном напротив флажка, введите число k. Если k =1, то строка будет содержать максимальное значение элемента выборки.
К-й наименьший — установите в активное состояние, если в выходную таблицу необходимо включить строку для k-го наименьшего (начиная с минимума хmin) значения элемента выборки. В поле, расположенное напротив флажка, введите число k. Если k = 1, то строка будет содержать минимальное значение элемента выборки.
Пример 4.1.
Стоимость набора из 25 продуктов питания по некоторым городам центрального региона России по состоянию на декабрь 2008 г приведена в табл. 4.1, сформированной на рабочем листе Microsoft Excel.
Таблица 4.1
Необходимо рассчитать основные показатели описательной статистики и сделать соответствующие выводы.
Для решения задачи используем режим работы «Описательная статистика». Значения параметров, установленных в одноименном диалоговом окне, представлены на рис. 4.2, а показатели, рассчитанные в данном режиме, - в табл. 4.2.
Рис.4.2
Табл. 4.2
(результаты округлены до двух значащих цифр).
На основании проведенного выборочного обследования (см. табл. 4.1) и рассчитанных по данной выборке показателей описательной статистики (см. табл. 4.2) с уровнем надежности 95% можно предположить, что средняя стоимость набора из 25 продуктов питания в целом по всем городам центрального региона России в декабре 2008г находилась в пределах от 382,11 до 449,95 руб.
Поясним,
на основании каких показателей
описательной статистики был сформулирован
соответствующий вывод. Такими показателями
являются: средняя арифметическая выборки
(показатель Среднее
в табл. 4.2) и предельная ошибка выборки
(показатель Уровень
надежности
(95,0%) в табл. 4.2). Из выражения для
доверительного интервала
хср.
-
≤
≤ хср.
+
.
находим: 416,03 - 33 ,92 = 382,11 — левая граница; 416,03 + 33,92 = = 449,95 — правая граница.
Коэффициент вариации
*100%
= 44,13/416,03 = 10,6%
существенно меньше 40 %, что свидетельствует о небольшой колеблемости признака в исследованной выборочной совокупности. Надежность средней в выборке подтверждается также и ее незначительным отклонением от медианы: 416,03 - 405,12 = 10,91. Значительные положительные значения коэффициентов асимметрии (Аs) и эксцесса (Ek) позволяют говорить о том, что данное эмпирическое распределение существенно отличается от нормального, имеет правостороннюю асимметрию и характеризуется скоплением членов ряда в центре распределения. Математико-статистическая интерпретация полученных результатов рассмотрена в описании соответствующих статистических функций.
