Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Методическое пособие 639

.pdf
Скачиваний:
5
Добавлен:
30.04.2022
Размер:
3.05 Mб
Скачать

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

ФГБОУ ВО «Воронежский государственный технический университет»

Ю.В. Минаева

АНАЛИЗ ДАННЫХ

ВMICROSOFT EXCEL

ИSTATISTICA

Утверждено учебно-методическим советом университета в качестве учебно-методического пособия

Воронеж 2017

1

УДК 681.3.(075.8) ББК 22.172 я 7 М613

Минаева Ю.В. Анализ данных в Microsoft Excel и Statistica:

учеб.-метод. пособие [Электронный ресурс]. – Электрон. текстовые и граф. данные ( 1,98 Мб) / Ю.В. Минаева. – Воронеж : ФГБОУ ВО «Воронежский государственный технический университет», 2017. – 1 электрон. опт. диск (CD-ROM) – Систем. требования: ПК 500 и выше; 256 Мб ОЗУ; Windows XP; SVGA с

разрешением 1024x768; Adobe Acrobat; CD-ROM дисковод;

мышь. – Загл. с экрана.

В учебном пособии рассматриваются теоретические сведения об основных методах анализа данных и вопросы практической реализации методов с помощью пакетов

Microsoft Excel и Statistica.

Издание соответствует требованиям Федерального государственного образовательного стандарта высшего образования по направлению 09.03.01 «Информатика и вычислительная техника» (направленность «Системы автоматизированного проектирования»), дисциплине «Методы обработки данных».

Табл. 3. Ил. 95. Библиогр.: 6 назв.

Рецензенты: кафедра программирования и информационных технологий

Воронежского государственного университета (зав. кафедрой канд. физ.-мат. наук, доц. Н.А. Тюкачев); канд. техн. наук, доц. Ю.В. Литвиненко

©Минаева Ю.В., 2017

©ФГБОУ ВО «Воронежский государственный технический университет», 2017

ВВЕДЕНИЕ

С развитием науки и техники все более актуальной становятся задача обработки накопленной информации с целью получения новых знаний. Для решения этой задачи к настоящему времени разработано большое количество методов, относящихся как к классической теории статистики (корреляционный, регрессионный и другие виды анализа), так и к современному популярному направлению интеллектуальной обработки многомерных данных (OLAP-

анализ и Data Mining).

В современных условиях обработка больших объемов информации невозможна без использования специальных программных средств анализа данных. Одними из наиболее популярных пакетов являются Excel, входящий в стандартный набор Microsoft Office, и Statistica, разработанная компанией StatSoft. Данные пакеты позволяют выполнять как простую статистическую обработку информации, так и реализовывать более сложные методы интеллектуального анализа.

Учебное пособие содержит лабораторный практикум, включающий теоретические сведения о типовых задачах анализа информации и методах их решения, примеры решения задач с помощью пакетов Microsoft Excel и Statistica и задания для самостоятельной работы, позволяющие студентам приобрести практические навыки решения задач анализа данных.

3

Лабораторная работа №1 РЕШЕНИЕ ЗАДАЧ ОПИСАТЕЛЬНОЙ СТАТИСТИКИ

ВMICROSOFT EXCEL

1.ОБЩИЕ УКАЗАНИЯ ПО ВЫПОЛНЕНИЮ ЛАБОРАТОРНОЙ РАБОТЫ

1.1.Цель работы

Изучение основных статистических функций Microsoft Excel; получение практических навыков исследования дискретных и непрерывных рядов распределения.

1.2.Используемое оборудование и программное обеспечение

Для выполнения лабораторной работы требуется ПЭВМ типа IBM PC с установленной ОС Windows XP и выше, математический пакет Microsoft Excel 2007 и выше.

2. МЕТОДИЧЕСКИЕ

УКАЗАНИЯ

ПО ВЫПОЛНЕНИЮ ЛАБОРАТОРНОЙ РАБОТЫ

2.1. Методы

предварительной

обработки

результатов наблюдений

 

 

В математической статистике можно выделить два основных раздела:

- описательная статистика изучает методы представления результатов наблюдений (в виде графиков, таблиц и др.) и определения основных характеристик их распределения;

- аналитическая статистика ориентирована на обработку статистических данных с целью формулировки выводов для их дальнейшего использования.

Для применения методов описательной или аналитической статистике исходные данные приводят к одному из следующих видов:

1. Вариационный ряд – элементы выборки располагаются в порядке возрастания (неубывания):

4

x(1),x(2),..., x(n),

где x(1) x(2) ... x(n),.

Переход от случайной выборки к ее вариационному ряду не приводит к потере информации, поскольку функции распределения остается такой же, однако происходит искажение исходных данных, поскольку элементы упорядоченной выборки уже не являются взаимно независимыми.

Данные, приведенные к вариационному ряду,

называются негруппированными.

2. Статистический ряд – преобразование выборки с повторяющимися элементами в таблицу. Данные, представленные в виде статистического ряда, являются

группированными.

Пусть выборка Xn x1,x2,..., xn содержит m различных элементов z(1),z(2),..., z(m) , каждый из которых

повторяется, соответственно, n1,n2,..., nm раз, причем m

ni n.

i1

Врезультате группировки исходная выборка

преобразуется в таблицу, где z(1) z(2) ... z(m) (табл. 1).

 

 

 

 

 

 

 

Таблица 1

 

 

 

 

 

 

 

 

 

 

z(1)

 

z(2)

 

 

z(m)

 

 

n1

 

n2

 

 

nm

 

Числа ni ,

показывающие,

сколько

раз элемент z(i)

встречается в выборке, называются частотой значения z(i), а

величину i nin - относительной частотой. Накопленной частотой niнак называется число элементов выборки, меньших

5

значения z(i), отношение iнак niнакn - относительной

накопленной частотой.

Статистический ряд, как правило, применяется для группировки небольших выборок с дискретными элементами. Для выборок большого объема из непрерывных генеральных совокупностей используется интервальный статистический ряд. В этом случае область задания выборки X разбивается на m интервалов, а числа ni указывают количество элементов выборки, попавших в i-й интервал.

Число интервалов m может быть задано природой исследуемого явления, условиями проведения наблюдений или определяться по формуле Старджеса:

m log2 n 1.

При подсчете частот ni для однозначности считают, что каждый интервал включает свою левую границу и не включает правую, за исключением последнего интервала, включающего и левую, и правую границы.

2.2. Графическое

изображение

статистических

данных

 

 

 

Для

визуализации

статистической информации

используются следующие виды графиков:

 

1.

Полигон частот

представляет

собой ломаную

линию, вершинами которой являются точки с координатами (xi, i), и применяется, в основном, для наглядного изображения выборки из дискретной генеральной совокупности.

2. Гистограмма – диаграмма, состоящая из прямоугольников с шириной, равной интервалу L, и высотой ni , применяется для визуализации интервального статистического ряда.

6

3.Кривая накопленных частот (кумулятивная кривая)

ломаная линия с вершинами в точках (xi, iнак).

2.3.Характеристики случайной выборки

2.3.1. Классификация численных характеристик выборки. Показатели центра распределения

Для выявления закономерностей распределения результатов наблюдений за исследуемым объектом или явлением необходимо определить ряд числовых показателей, описывающих особенности полученных статистических данных. Все числовые характеристики можно разделить на следующие группы:

-показатели центра распределения: среднее арифметическое, мода, медиана;

-показатели степени вариации: размах, дисперсия, среднее квадратичное отклонение, коэффициент вариации;

-показатели формы распределения: показатели асимметрии и эксцесса, кривые распределения.

Показатели центра распределения определяются следующим образом:

1.Среднее арифметическое (математическое ожидание, выборочное среднее) – величина, определяемая по формуле:

1n

xn i 1xi .

2.Мода – величина, которая в выборке встречается наиболее часто.

3.Медиана - величина, которая находится в середине упорядоченного ряда, т.е. первая половина элементов ряда меньше медианы, а вторая – больше ее.

7

2.3.2. Показатели степени вариации

Средняя величина дает некую обобщенную характеристику изучаемого объекта или явления. Но для более полного описания необходимо знать степень разбросанности элементов выборки вокруг среднего значения. С этой целью определяются следующие показатели вариации:

1. Вариационный размах (амплитуда колебаний) –

разница между максимальным (xmax) и минимальным (xmin )

элементами выборки:

Rxmax xmin.

2.Выборочная дисперсия представляет собой средний квадрат отклонений значений отдельных элементов выборки от их средней величины:

n

2 1ni 1(xi x)2 .

3.Выборочное среднее квадратичное отклонение:

2 .

4.Коэффициент вариации – применяется для сравнения стандартных отклонений нескольких выборок:

V100%. x

2.3.3.Показатели формы распределения

Показатели центра распределения и степени вариации не дают никакой информации о форме распределения результатов наблюдений. Для выявления формы используются следующие основные показатели:

1. Квантили (градиенты) - значения, разделяющие элементы выборки на группы определенного объема.

В зависимости от размера групп выделяют следующие квантили:

8

- квартили – значения Q1,Q2, Q3, разделяющие элементы выборки на 4 группы одинакового размера; точка Q1 - нижний квартиль – отделяет 1/4 элементов выборки с наименьшими значениями, Q2 - второй (центральный)

квартиль – равен медиане выборки, Q3 - нижний квартиль

отсекает 1/4 элементов с наибольшими значениями; - квинтили, децили, процентили – значения,

разделяющие выборку на 5, 10 и 100 частей, соответственно. 2. Моменты распределения используются для более

подробного описания формы распределения. Наиболее часто используется центральные моменты k-го порядка,

определяемые по формуле:

n

k n1 i 1 xi x k ni .

Моменты распределения имеют важное значение при анализе статистических данных и используются как

самостоятельно (например, 2 2 ), так и для определения других характеристик.

3. Кривые распределения графически выражают закономерности распределения элементов выборки.

Кривые распределения бывают симметричные и асимметричные. В зависимости от того, какая ветвь кривой вытянута, различают правостороннюю и левостороннюю

асимметрию (рис. 1).

9

а б

Рис. 1. Кривые распределения с левосторонней (а) и правосторонней (б) асимметрией

Для проверки симметричности кривых используются следующие условия и показатели:

1. Условие равенства среднего арифметического значения, моды и медианы:

x xmod xmed.

Если соотношение нарушено, то это свидетельствует о

наличии

асимметрии

распределения.

Так,

при

xmod xmed

x

асимметрия правосторонняя,

а при

xmod xmed x асимметрия левосторонняя.

2.Условие равенства нулю центрального момента 3-го

порядка:

3 0.

Для характеристики асимметрии используется

коэффициент асимметрии (скос), равный отношению центрального момента 3-го порядка к среднему квадратичному отклонению в кубе

1 33 .

10