- •1) Гистограммы
- •1.1.Введение
- •1.2.Краткие сведения из теории обработки наблюдений
- •1.3. Справочная информация по технологии работы
- •1.4.Задание.
- •1.5.Пояснения
- •2) Описательная статистика
- •2.2.Задание:
- •Функция медиана
- •Функция мода
- •Функция скос
- •Функция мин
- •Функция макс
- •Функция счет
- •Функция наибольший
- •3) Нормальное распределение
- •3.1. ВВедение
- •3.2. Задание:
- •4) Использование критерия пирсона 2 для проверки гипотез
- •4.1. Введение
- •4.2. Задание:
- •Корреляционно-регрессионный анализ связей
- •5.1. Введение
- •5.2. Задание.
1.5.Пояснения
Поясним подробнее порядок расчета накопленных частостей (см. в выходных данных графу «Интегральный %»). На основании частот (см. графу «Частота») рассчитываются накопленные частоты. Каждое значение накопленной частоты делится на максимальное накопленное значение, в результате чего получаются частости, выраженные в долях единицы. После преобразования последних к процентному формату получаем окончательный результат. Промежуточные и заключительные итоги вычислений сведены в табл.5.
Табл.5
Частота
|
Накопленная частота
|
Накопленная частость
|
Накопленная частость, %
|
1 |
1 .
|
0,0588
|
5,88
|
9 |
10
|
0,5882
|
58,82
|
5
|
15
|
0,8824
|
88,24
|
1
|
16
|
0,9412
|
94,12
|
1
|
17
|
1,0000
|
100,00
|
Как правило, гистограммы изображаются в виде смежных прямоугольных областей, поэтому столбики гистограммы целесообразно расширить до соприкосновения друг с другом. Для этого на панели инструментов Диаграмма щелкните правой кнопкой и в раскрывающемся списке элементов диаграммы выбирите элемент Ряд «Частота», после чего щелкните по кнопке Формат рядов данных. В появившемся одноименном диалоговом окне необходимо активизировать вкладку Параметры и в поле Ширина зазора установить значение 0. После указанных преобразований гистограмма примет стандартный вид.
В данном примере величина интервала, определялась автоматически в соответствии с формулой Стерджесса.
где n – число групп, N – число единиц совокупности.
Величина интервала определяется автоматически по формуле:
где h – величина равного интервала, xmax, xmin – соответственно максимальное и минимальное значения признака в совокупности, {n} – округленное оптимальное число групп, определяемое по формуле Стерджесса.
В режиме работы «Гистограмма» пользователь может самостоятельно задать величину интервала ряда (параметр Интервал карманов диалогового окна Гистограмма). В случае если заданные интервалы будут не равны между собой, то сгенерированная гистограмма будет представлять собой обычную столбиковую диаграмму, в которой частоты попадания в интервал не связаны с его размером, что не позволит правильно оценить характер распределения изучаемого явления. Во избежание подобных ошибок рекомендуется задавать интервалы одинаковой величины или пользоваться режимом автоматического формирования интервалов.
2) Описательная статистика
2.1.Введение. Краткие сведения из теории статистики.
Статистическая информация представляется совокупностью данных, для характеристики которых используются разнообразные показатели, называемые показателями описательной статистики. Уровень образования, прожиточный минимум, дифференциация доходов населения, среднее число детей в семье, средний курс доллара и мера его колебания за определенный интервал времени, таблицы продолжительности жизни, наиболее часто встречающийся счет в чемпионате России по футболу - все это показатели описательной статистики.
Показатели описательной статистики можно разбить на несколько групп.
1. Показатели положения описывают положение данных на числовой оси. Примеры таких показателей - Минимальный и максимальный элементы выборки (первый и последний члены вариационного ряда), верхний и нижний квартили (ограничивают зону, в которую попадают 50% центральных элементов выборки). Наконец, сведения о середине совокупности могут дать средняя арифметическая, средняя гармоническая, медиана и другие характеристики.
2. Показатели разброса описывают степень разброса данных относительно своего центра. К ним в первую очередь относятся: дисперсия, стандартное отклонение, размах выборки (разность между максимальным и минимальным элементами), межквартильный размах (разность между верхней и нижней квартилью), эксцесс и т. п. Эти показатели определяют, насколько кучно основная масса данных группируется около центра.
. Показатели асимметрии характеризуют симметрию распре деления данных около своего центра. К ним можно отнести коэффициент асимметрии, положение медианы относительно среднего и т. п.
Показатели описательной статистики можно рассчитать используя инструмент анализа «Описательная статистика» пакета Excel/
Режим «Описательная статистика» служит для генерации одномерного статистического отчета по основным показателям положения, разброса и асимметрии выборочной совокупности.
В диалоговом окне данного режима задаются следующие параметры: 1.Входной интервал.
2. Группирование. Устанавливается в положение По столбцам или По строкам в зависимости от расположения данных во входном диапазоне
3. Метки в первой строке/Метки в первом столбце
4. Выходной интервал/Новый рабочий лист/Новая рабочая книга
5. Итоговая статистика — установите в активное состояние, если в выходном диапазоне необходимо получить по одному полю для каждого из следующих показателей описательной статистики: средняя арифметическая выборки ( ), средняя ошибка выборки (μx), медиана (Me), мода (Mo), оценка стандартного отклонения по выборке (σ), оценка дисперсии по выборке (σ2), оценка эксцесса по выборке (Ek), оценка коэффициента асимметрии по выборке (As), размах вариации выборки (R), минимальный и максимальный элементы выборки (xmin, xmax), сумма элементов выборки, количество элементов в выборке (n), k-й наибольший и k-й наименьший элементы выборки, предельная ошибка выборки (∆ ).
6. Уровень надежности — установите в активное состояние, если в выходную таблицу необходимо включить строку для предельной ошибки выборки при установленном уровне надежности. В поле, расположенном напротив флажка, введите требуемое значение уровня надежности (например, значение уровня надежности 95 % равносильно доверительной вероятности 0,95 или уровню значимости 0,05).
7. К-й наибольший — установите в активное состояние, если в выходную таблицу необходимо включить строку для k-ro наибольшего (начиная с максимума хmax) значения элемента выборки. В поле, расположенное напротив флажка, введите число k. Если k = 1, то строка будет содержать максимальное значение элемента выборки.
8. К-й наименьший — установите в активное состояние, если в выходную таблицу необходимо включить строку для k-ro наименьшего (начиная с минимума xmin) значения элемента выборки. В поле, расположенное напротив флажка, введите число k. Если k = 1, то строка будет содержать минимальное значение элемента выборки.
Пример 1. Стоимость набора из 25 продуктов питания по некоторым городам центрального региона России по состоянию на декабрь 1998 г. приведена в табл. 1, сформированной на рабочем листе Microsoft Excel.
Таблица 1
|
Стоимость набора из 25 продуктов питания по некоторым городам центрального региона России в декабре 1998 г., руб.
|
|
Владимир
|
389,04
|
|
Вологда
|
417,78
|
|
Иваново
|
394,00 ,.
|
|
Кострома
|
371,96
|
|
Москва
|
525,96
|
|
Нижний Новгород
|
405,12
|
|
Рязань
|
419,52
|
|
Тверь
|
401,93
|
|
Ярославль 1
|
418,97
|
Необходимо рассчитать основные показатели описательной статистики и сделать соответствующие выводы.
Для решения задачи используем режим работы «Описательная статистика» (меню Сервис→Анализ данных). Значения параметров, установленных в одноименном диалоговом окне, следующие: группирование по столбцам, уровень надежности – 95%, к – ый наименьший 1, к – й наибольший 1, Показатели, рассчитанные в данном режиме, представлены в табл. 2 (результаты округлены до двух значащих цифр)
Таблица 2
|
Столбец 1
|
|
|
||
Среднее
|
416,03
|
|
Стандартная ошибка
|
14,71
|
|
Медиана
|
405,12
|
|
Мода
|
#н/д
|
|
Стандартное отклонение
|
44,13
|
|
Дисперсия выборки
|
1947,78
|
|
Эксцесс
|
6,06
|
|
Асимметричность
|
2,26
|
|
Интервал
|
154,00
|
|
Минимум
|
371,96
|
|
Максимум
|
525,96
|
|
Сумма
|
3744,28
|
|
Счет
|
9,00
|
|
Наибольший(1)
|
525,96
|
|
Наименьший (1)
|
371,96
|
|
Уровень надежности(95%)
|
33,92
|
На основании проведенного выборочного обследования (см. табл.1) и рассчитанных по данной выборке показателей описательной статистики (см. табл. 2) с уровнем надежности 95% можно предположить, что средняя стоимость набора из 25 продуктов питания в целом по всем городам центрального региона России в декабре 1998 г. находилась в пределах от 382,11 до 449,95 руб.
Поясним, на основании каких показателей описательной статистики был сформулирован соответствующий вывод. Такими показателями являются: средняя арифметическая выборки (показатель Среднее в табл. 2) и предельная ошибка выборки ∆ (показатель Уровень надежности (95,0%) в табл. 2). Из выражения для доверительного интервала
находим: 416,03 - 33 ,92 = 382,11 –левая граница; 416,03 + 33,92 = = 449,95 — правая граница. Коэффициент вариации
.
v = (44,13:416,03)*100% =10,6 существенно меньше 40 %, что свидетельствует о небольшой вариации признака в исследованной выборочной совокупности. Надежность средней в выборке подтверждается также и ее незначительным отклонением от медианы: 416,03 - 405,12 = 10,91. Значительные положительные значения коэффициентов асимметрии (As) и эксцесса (Ek) позволяют говорить о том, что данное эмпирическое распределение существенно отличается от нормального, имеет правостороннюю асимметрию и характеризуется скоплением членов ряда в центре распределения.