Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЛР2-2007Обобщающие показатели.doc
Скачиваний:
5
Добавлен:
18.07.2019
Размер:
243.2 Кб
Скачать

Лабораторная работа №2

Обобщающие показатели одномерного набора данных

Статистический Пакет анализа данных включает в себя два инструмента для анализа одномерного набора данных: Описательная статистика, Ранг и персентиль. С помощью инструмента Описательная статистика рассчитываются показатели, характеризующие типические значения, изменчивость и ассиметрию данных. Инструмент Ранг и персентиль создает таблицу исходных данных, упорядоченных в соответствии с порядковыми числами (рангами) и персентилем.

Использование инструмента анализа Описательная статистика

Задание 1.

Определить обобщающие характеристики для анализа цен 15 объектов.

В таблице 1 представлены цены 15 объектов.

Таблица 1. Цены объектов

Объект

Цена, дол.

Объект

Цена, дол.

Объект

Цена, дол.

1

26,0

6

38,0

11

43,6

2

31,0

7

39,6

12

44,8

3

37,4

8

31,2

13

40,6

4

34,8

9

37,2

14

41,8

5

39,2

10

38,4

15

45,2

  1. Откройте программу Excel. Щелкните на кнопке Сохранить на Панели быстрого доступа. В появившемся диалоговом окне откройте папку Статистика ххх и задайте имя файлу Описательная статистика.xlsx. Зашифруйте файл, задав пароль.

  2. На Листе1 в ячейке A1 задайте метку Цена, а в диапазон A2:A16 введите данные из Таблицы 1.

  3. Откройте на ленте вкладку Данные. В группе Анализ щелкните на кнопке Анализ данных. В диалоговом окне Анализ данных выберите инструмент Описательная статистика и щелкните на кнопке ОК.

  4. В появившемся диалоговом окне в области Входные данные укажите Входной интервал:, выделяя диапазон данных А1:А16 вместе с меткой. Параметр Группирование: выберите по столбцам. Установите флажок Метки в первой строке, так как выбранные ячейки включают в себя подписи.

  1. В области Параметры вывода включите параметр Выходной интервал:. Для определения места вывода на листе сначала щелкните в текстовом поле параметра Выходной интервал:, а затем выделите ячейку С1, указывающую адрес левого верхнего угла области вывода данных. Установите следующие флажки:

    • Итоговая статистика Данная опция управляет выводом выходных данных.

    • Уровень надежности: Данная опция вычисляет половину длины доверительного интервала для среднего с заданной значимостью (в %). В нашем примере установите значимость равной 90%. Это означает, что вероятность того, что среднее генеральной совокупности данных находится в пределах доверительного интервала, равна 0,9.

    • К-ый наименьший: Эта опция определяет k-ое наименьшее значение из входных данных. В нашем примере введите K равным 4.

    • К-ый наибольший: Эта опция определяет k-ое наибольшее значение из входных данных. В нашем примере введите K равным 4.

Щелкните на кнопке OK. Excel вычислит обобщающие показатели и разместит их в виде таблицы в двух столбцах C и D.

Форматирование таблицы с выходными данными

  1. Чтобы ширина столбцов была достаточной для отображения самого длинного текста в ячейке, выделите столбцы C и D, затем откройте на ленте вкладку Главная, в группе Ячейки щелкните на стрелке кнопки Формат и выберите строку Автоподбор ширины столбца.

  2. Некоторые значения в таблице отображаются с девятью десятичными знаками после запятой. Для удобства чтения выделите одновременно ячейки D4, D7:D10, D18 и уменьшите разрядность значений до двух знаков после запятой, щелкнув на кнопке Уменьшить разрядность, расположенной на вкладке Главная в группе Число.

  3. Измените ширину столбца D, дважды щелкнув на правой границе заголовка этого столбца. Ниже показан полученный вид таблицы выходных данных.

Цена

Среднее

37,92

Стандартная ошибка

1,39

Медиана

38,4

Мода

#Н/Д

Стандартное отклонение

5,38

Дисперсия выборки

28,94

Эксцесс

0,30

Асимметричность

-0,73

Интервал

19,2

Минимум

26

Максимум

45,2

Сумма

568,8

Счет

15

Наибольший(4)

41,8

Наименьший(4)

34,8

Уровень надежности(90,0%)

2,45

Интерпретация результатов

Выходные данные содержат три группы обобщающих показателей.

Первая группа показателей характеризует типические значения.

  • Среднее – это средняя цена объектов, равная $37,92. Получается как результат деления суммы цен всех объектов (Сумма $568,8) на количество объектов (Счет 15).

  • Медиана – значение, расположенное посередине упорядоченного набора данных. В нашем примере значение медианы равно $38,4.

  • Мода – наиболее часто встречающееся значение. Если часто встречающихся значений несколько, то Excel выводит первое из них. Когда каждое значение встречается только один раз, Excel выводит запись #Н/Д. В этом случае надо получить таблицу распределения частот, в которой интервал с наибольшей частотой называется модальным интервалом.

Задание 2.

Определить модальный интервал.

По данным Таблицы 1 в файле Описательная статистика.xls на Листе1 постройте гистограмму для диапазона данных A1:A16, включая метку. Величину кармана задайте равным 5. Нижнюю границу интервала карманов примите равной 25, а верхнюю границу равной 50. Значения карманов вместе с меткой Карман расположите в ячейках F1:F7. Выведите гистограмму вместе с таблицей распределения частот в область H1:O10. Укажите величину модального интервала.

Вторая группа описательной статистики содержит несколько показателей, характеризующих изменчивость (разброс) данных.

  • Интервал – размах значений, равный ($19,2). Определяется как разность между Максимумом ($45,2) и Минимумом ($26).

  • Дисперсия выборки (28,94). Вычисляется как результат деления на (n-1) суммы квадратов отклонений каждого значения от Среднего (n = 15 и соответствует объему выборки, т.е. количеству анализируемых объектов). Дисперсия выражается в квадратных единицах ($2).

  • Стандартное отклонение ($5,38) – корень квадратный из Дисперсии выборки. Стандартное отклонение приближенно показывает, насколько отдельные значения выборки отличаются от их Среднего. Измеряется в тех же единицах, что и входные данные.

  • Стандартная ошибка ($1,39) является характеристикой достоверности Среднего. Вычисляется как Стандартное отклонение, деленное на . Данная характеристика показывает, насколько Среднее выборки отличается от Среднего генеральной совокупности.

  • Нибольший(4) и Наименьший(4) являются соответственно четвертым наибольшим ($41,8) и четвертым наименьшим ($34,8) значениями входных данных.

  • Уровень надежности(90,0%), равный $2,45, определяет половину длины 90%-го доверительного интервала для Среднего. В нашем задании 90%-й доверительный интервал равен (37,92-2,45; 37,92+2,45), т.е. (35,47; 40,37).

Третья группа показателей характеризует степень симметричности данных.

  • Эксцесс (0,3) является показателем островершинности симметричных распределений. Если распределение более плоское, чем нормальное (т.е. имеет более «тяжелые» хвосты), то Эксцесс будет положительным. Если же распределение имеет более выраженный пик, чем нормальное (т.е. имеет более «легкие» хвосты), то Эксцесс отрицательный. В нашем примере (см. гистограмму) распределение примерно симметричное с небольшим положительным Эксцессом.

  • Ассиметричность (К=–0,73) определяет степень симметрии данных. Если большинство экстремальных значений расположено в положительном направлении от центра распределения (скошено вправо), то Ассиметричность положительна. В этом случае Среднее больше Медианы. Если же большинство экстремальных значений расположено в отрицательном направлении от центра распределения (скошено влево), то Ассиметричность отрицательна и Среднее меньше Медианы. Ниже приведена интерпретация показателя Ассиметричности (К) для Excel.

K < –0,5 скошено влево

–0,5  K  1 приблизительно симметрично

K > 1 скошено вправо

В нашем примере (см. гистограмму) данные приблизительно симметричны с небольшим отрицательным отклонением (скос влево).