Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лабораторная работа_1_2.doc
Скачиваний:
6
Добавлен:
25.04.2019
Размер:
1.87 Mб
Скачать

Лабораторная работа №1

Графический анализ данных в среде электронных таблиц ms Excel

Цель работы: Получить навыки построения диаграмм распределений в среде электронных таблиц MS Excel.

Задачи работы: Изучить основные методы графического представления статистических данных. Изучить возможности построения графиков в среде Excel. По данным выборочной совокупности построить полигон частот, гистограмму и сглаженную кумулятивную кривую распределения с использованием электронных таблиц MS Excel.

Теоретические сведения

Большинство экономических задач, где требуется обработка большого количества данных, решается с помощью методов математической статистики. Практически любая обработка данных начинается с ее графического анализа. Использование графиков в статистике насчитывает более двухсот лет. Однако, прежде чем рассмотреть графические методы анализа, необходимо ознакомиться с основными понятиями одного из главного раздела теории статистики, получившей название описательной статистики, в рамках которой и изучаются методы построения различных видов диаграмм и графиков.

Описательная статистика позволяет описывать, подытоживать и воспроизводить в виде таблиц или графиков данные того или иного распределения, вычислять среднее для данного распределения и его размах и дисперсию. Все эти параметры часто называют описательными статистиками основными числовыми характеристиками выборки (совокупности) или мерами центральной тенденции. Описательная статистика включает в себя табулирование, представление и описание совокупностей данных, которые могут быть как количественные (например, измерение роста, веса и т.д.), так и качественные (например, пол или тип личности).

Одна из задач описательной статистики состоит в том, чтобы анализировать данные, полученные на части популяции, с целью сделать выводы относительно популяции в целом.

Популяция или генеральная совокупность в статистике не обязательно означает какую-либо группу людей или естественное сообщество; этот термин относится ко всем существам или предметам, образующим общую изучаемую совокупность, будь то атомы или студенты, посещающие то или иное кафе.

Выборка или выборочная совокупность — это небольшое количество элементов, отобранных с помощью научных методов так, чтобы она была репрезентативной, т.е. отражала популяцию в целом.

Другими словами, выборка – это совокупность случайно отобранных объектов, а генеральная совокупность – это совокупность объектов, из которых производится выборка.

Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности. Например, из 1000 человек для исследования отобрано 100 людей, то объем генеральной совокупности , а объем выборки .

Генеральная совокупность часто содержит конечное число объектов. Однако если это число достаточно велико, то иногда в целях упрощения вычислений, или для облегчения теоретических выводов, допускают, что генеральная совокупность состоит из бесчисленного множества объектов. Такое допущение оправдывается тем, что увеличение объема генеральной совокупности (достаточно большого объема) практически не сказывается на результатах обработки данных выборки.

Пусть из генеральной совокупности извлечена выборка, причем наблюдалось раз, - раз, - раз и - объем выборки. Наблюдаемые значения называют вариантами, а последовательность вариант, записанных в возрастающем порядке – вариационным рядом. Числа наблюдений называют частотами, а их отношения к объему выборки - относительными частотами.

Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот. Статистическое распределение можно также задать в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимаю сумму частот, попавших в этот интервал).

Для оценки статистического распределения вводится понятие функции распределения, которая находится эмпирическим (опытным) путем и называется эмпирической.

Эмпирической функцией распределения (функцией распределения выборки) называют функцию , определяющую для каждого значения относительную частоту события :

,

где - число вариант, меньших ; - объем выборки.

В отличие от эмпирической функции распределения выборки функцию распределения генеральной совокупности называют теоретической функцией распределения. Различия между эмпирической и теоретической функцией распределения состоит в том, что теоретическая функция определяет вероятность события , а эмпирическая функция определяет частоту этого же события.

В большинстве случаев при решении реальных задач закон распределения и его параметры неизвестны. Поэтому для определения вида закона распределения и его параметров необходимо выполнять ряд действий по анализу полученных исходных данных.

Таким образом, описательная статистика позволяет обобщать первичные результаты, полученные при наблюдении или в эксперименте. Процедуры здесь сводятся к группировке данных по их значениям, построению распределения их частот, выявлению центральных тенденций распределения (например, средней арифметической) и, наконец, к оценке разброса данных по отношению к найденной центральной тенденции.

Построение распределения — это разделение первичных данных, полученных на выборке, на классы или категории с целью получить обобщенную упорядоченную картину, позволяющую их анализировать.

Для наглядности строят различные графики статистического распределения, в частности, полигон распределения, гистограмму или сглаженную кумулятивную кривую.

Полигоном частот называют ломаную, отрезки которой соединяют точки , , …, . Для построения полигона часто на оси абсцисс откладывают варианты , а на оси ординат – соответствующие им частоты . Точки соединяют отрезками прямых и получают полигон частот.

Полигоном относительных частот называют ломаную, отрезки которой соединяют точки , , …, . Для построения полигона часто на оси абсцисс откладывают варианты , а на оси ординат – соответствующие им относительные частоты . Точки соединяют отрезками прямых и получают полигон относительных частот.

На рис. 1 показан полигон относительных частот для следующего распределения:

Варианта (значение признака),

12

14

16

18

20

Частота,

0,1

0,2

0,4

0,2

0,1

Рис. 1 – Полигон относительных частот

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною , а высоты равны отношению (плотность частоты).

Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии . Площадь -го частичного прямоугольника равна - сумме частот вариант -го интервала; следовательно, площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.

Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною , а высоты равны отношению (плотность относительной частоты).

Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии . Площадь -го частичного прямоугольника равна - относительной частоте вариант, попавших в -й интервал. Следовательно, площадь гистограммы относительных частот равна сумме всех относительных частот, т.е. единице.

На рис. 2 приведен пример гистограммы для данных, отображенных в таблице 1.

Таблица 1

Исходное распределение

Показатель

Номер интервала

1

2

3

4

5

Частичный интервал ( )

100-199

200-299

300-399

400-499

500-600

Частота интервала,

9

4

2

2

3

Плотность частоты,

0,09

0,04

0,02

0,02

0,03

Рис. 2 – Гистограмма частот распределения

Для некоторых целей более полезным в сравнении с простыми графиками распределения частот является сглаженная кривая накопленных (кумулятивных) частот. При построении такой кривой частоты, которые соответствуют интервалам, накапливаются, начиная с одного из концов распределения, т.е. накопленные частоты к любой заданной оценке представляют собой суммарное количество частот на этой оценке или ниже ее. Обычно, такая сглаженная кривая отображает относительные накопленные частоты в процентах, а не в относительных единицах. На рис. 3 приведен пример кривой накопленных частот для данных, приведенных в таблице 1.

Рис. 3 – Сглаженная накопленная кривая

Рассмотрим для примера задачу анализа чистой прибыли предприятия с помощью электронных таблиц MS Excel. На рис. 4 приведена электронная копия экрана с примером исходных данных по некоторому предприятию за 11 лет.

Рис. 4 – Исходные данные по предприятию

На первом этапе необходимо задать интервалы, в которых планируется определить частоты появления случайной величины. Выберем ширину интервала длиной в 20 единиц и поместим границы в столбец С (рис. 5). В данном случае значение левой границы интервального ряда составляет 122, а правой 242, поскольку значение чистой прибыли не меньше 123,7 усл. ед., и не больше 235,6 усл. ед.

Рис. 5 – Задание границ интервалов

Для расчета частот, соответствующих данным интервалам, необходимо выделить диапазон ячеек D2:D9, а в строке формул ввести следующую функцию: «=ЧАСТОТА(B2:B12;C2:C8)» и закончить ввод нажатием комбинации клавиш [Ctrl]+[Shift]+[Enter]. MS Excel автоматически заключит введенную формулу в фигурные скобки: { =ЧАСТОТА(B2:B12;C2:C8)}. Такой способ ввода применен в связи с тем, что функция ЧАСТОТА возвращает массив значений и ее необходимо вводить как формулу массива. При этом, количество элементов в возвращаемом массиве будет на единицу больше числа элементов в массиве интервалов. В результате в ячейки диапазона D2:D9 будут помещены частоты, соответствующие интервалам (рис. 6).

Рис. 6 – Размещение частот

Теперь с помощью мастера диаграмм можно построить соответствующий график: гистограмму или полигон частот (рис. 7).

Рис. 7 – Построение гистограммы распределения

Аналогичное построение гистограммы можно выполнить с помощью функции, имеющейся в пакете Анализ данных. Для этого в меню последовательно выбирается Сервис, Анализ данных. Появившемся окне (рис. 8) выбирается Гистограмма. Затем в следующем окне (рис. 9) необходимо задать исходные данные для построения гистограммы.

Рис. 8 – Окно выбора функции

Рис. 9 – Окно задания исходных данных для построения гистограммы

Назначение параметров диалогового окна Гистограмма приведены в таблице 2.

Таблица 2

Параметры диалогового окна Гистограмма

Параметр

Назначение

Входной диапазон

В этом окне задается ссылка на диапазон ячеек, в которых находится исходные данные. Исходные данные должны представлять собой перечень значений, а не частоты!

Интервал карманов (необязательный)

В поле вводится диапазон ячеек и необязательный набор граничных значений, определяющих отрезки интервалов (карманы). Эти значения должны быть введены в возрастающем порядке. В Microsoft Excel вычисляется число попаданий данных между текущим началом отрезка и соединим большим по порядку, если такой есть. При этом включаются значения на нижней границе отрезка и не включаются значения на верхней границе.

Если диапазон карманов не был введён, то набор отрезков, равномерно распределённых между минимальным и максимальным значениями данных, будет создан автоматически.

Метки

Ставится отметка, если первая строка или первый столбец входного интервала содержит заголовки. Если таковые отсутствуют, названия для данных выходного диапазона создаются автоматически.

Выходной диапазон

Вводится ссылка на левую верхнюю ячейку выходного диапазона. Размер последнего будет определён автоматически и на экран будет выведено сообщение в случае возможного наложения выходного диапазона на исходные данные.

Новый рабочий лист

Переключатель устанавливается в том случае, если требуется открыть новый лист в книге и вставить результаты анализа, начиная с ячейки А1.

Новая рабочая книга

Переключатель устанавливается в том случае, если требуется открыть новую рабочую книгу и вставить результаты анализа в ячейку А1.

Парето (отсортированная диаграмма)

При выборе этой возможности данные предоставляются в порядке убывания частоты. В математической статистике такая форма гистограммы не используется.

Интегральный процент

Рассчитываются значения и строится график накопленной частоты, т.е. строится сглаженная кривая кумулятивных частот.

Вывод графика

Устанавливается флажок для автоматического создания встроенной диаграммы. Внимание! Если вы хотите построить график, то обязательно нужно задать значения Новый рабочий лист или Новая книга.

Результаты построения диаграммы с помощью пакета Анализа данных приведены на рис. 10.

Рис. 10 – Результат построения гистограммы

Следует отметить, что ни один из графиков, рассмотренных выше, не является универсальным. Гистограмма – наиболее легкая для восприятия форма, поэтому ее обычно предпочитают, если изображается не более одного распределения. Но если необходимо сравнить два или более распределений, то для этой цели лучше всего подходит полигон частот (или полигон относительных частот). Сглаженные кривые накопленных частот имеют много преимуществ, которыми не обладают другие представления. Например, можно оценить с высокой степенью точности различные параметры распределений или сравнивать несколько групп данных на одном графике.

Существуют и другие формы представления статистических данных, например круговые диаграммы, диаграммы с областями, лепестковые или поверхностные диаграммы и другие, подробно о которых можно узнать в [1,2,3].