Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Анализ СД на ПК

.pdf
Скачиваний:
28
Добавлен:
22.02.2016
Размер:
1.18 Mб
Скачать

МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ УЧРЕЖДЕНИЕ ОБРАЗОВАНИЯ

«БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТРАНСПОРТА»

Кафедра «Прикладная математика»

АНАЛИЗ СТАТИСТИЧЕСКИХ ДАННЫХ НА ПЕРСОНАЛЬНОМ КОМПЬЮТЕРЕ

Лабораторный практикум

Гомель 2006

0

МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ УЧРЕЖДЕНИЕ ОБРАЗОВАНИЯ

«БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТРАНСПОРТА»

Кафедра «Прикладная математика»

АНАЛИЗ СТАТИСТИЧЕСКИХ ДАННЫХ НА ПЕРСОНАЛЬНОМ КОМПЬЮТЕРЕ

Лабораторный практикум

Под редакцией канд. физ.-мат. наук, доцента В. С. Серёгиной

Одобрено методическими комиссиями строительного факультета и ФБО

Гомель 2006

1

УДК 519.22/.25(076.5) ББК 22.172

А64

Авторы: Т. В. Прищепова, Е. Л. Сазонова, В. С. Серёгина, Т. Т. Снопок, Д. Н. Шевченко.

Рецензенты: проректор по научной работе, руководитель НИЛ «Безопасность и электромагнитная совместимость технических средств» д-р техн. наук, профессор К. А. Бочков (УО «БелГУТ»); зав. кафедрой математических проблем управления д-р

техн. наук, профессор И. В. Максимей (УО «ГГУ им. Ф. Скорины»).

Анализ статистических данных на персональном компьютере: А 64 лабороторный практикум / Т. В. Прищепова [и др.]; под ред.

В. С. Серёгиной; М-во образования Респ. Беларусь, Белорус. гос. ун-т трансп. – Гомель: БелГУТ, 2006. – 95 с.

ISBN 985-468-148-3

Излагается методика решения некоторых задач статистического анализа данных. Рассматриваются необходимые теоретические вопросы, приводится подробное решение примеров ручным способом. Содержатся инструкция для решения рассматриваемых задач с помощью пакета статистических программ Statgraphics Plus for Windows, статистические таблицы.

Предназначен для студентов и аспирантов всех специальностей.

УДК 519.22/.25(076.5) ББК 22.172

ISBN 985-468-148-3

© Оформление. УО «БелГУТ», 2006

2

ВВЕДЕНИЕ

Воснове всех научных знаний лежит наблюдение. Для обнаружения общей закономерности, которой подчиняется явление, необходимо многократно его наблюдать в одинаковых условиях. Например, начальник цеха изучает вопрос о проценте брака для изделий, обработанных на некотором станке. Обследуется 100, 1000 изделий. Сколько должно быть проведено наблюдений? Как обработать результаты наблюдений и сделать обоснованные практические выводы? Или такой пример. Исследователя интересует зависимость прибыли предприятия при продаже некоторого товара от затрат на рекламу этого товара. Для выяснения этой зависимости собраны сведения

озатратах на рекламу определённого товара в течение нескольких месяцев и

оприбыли предприятия, полученной от продажи этого товара в те же самые месяцы. Как, используя эти сведения, оценить зависимость прибыли предприятия от затрат на рекламу (по рассматриваемому виду товара)?

Вобоих приведённых примерах, а также и во многих других явлениях, можно отметить, что, несмотря на постоянство условий испытания, результат опыта неоднозначен. Предвидеть результат каждого конкретного опыта нельзя. Однако если систематизировать результаты измерений, то можно увидеть некоторую закономерность, которая называется статистической устойчивостью. И хотя предвидеть результат каждого конкретного опыта нельзя, оказывается можно предвидеть в среднем результат серии измерений.

Раздел математики, изучающий методы сбора, систематизации и обработки наблюдений с целью выявления статистических закономерностей, называется математической статистикой.

Важно научиться правильно применять теоретические методы статистики для решения практических задач. Этой цели и подчинён курс лабораторных работ по математической статистике.

3

Лабораторная работа № 1

ПЕРВИЧНАЯ ОБРАБОТКА СТАТИСТИЧЕСКИХ ДАННЫХ

Цель работы: ознакомиться с основными понятиями математической статистики и методикой проведения первичного исследования статистических данных.

Задание: произвести первичную обработку полученных экспериментальных данных и сделать обоснованный вывод о свойствах изучаемой случайной величины.

ОСНОВНЫЕ ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ

1 Выборочный метод

Допустим, результаты изучаемого вероятностного эксперимента могут быть описаны с помощью некоторой случайной величины X. В математической статистике множество всех мыслимых наблюдений, которые могли бы быть зафиксированы при воспроизведении эксперимента, принято называть генеральной совокупностью и обозначать kX. Генеральную совокупность можно рассматривать как множество всех объектов, которые подвергаются исследованию. Число элементов, образующих множество kX, называется

объемом генеральной совокупности.

Как правило, в большинстве практических задач, подвергнуть обследованию всю генеральную совокупность не представляется возможным (например, объем kX может быть бесконечным, исследование может оказаться слишком дорогостоящим или приводит к разрушению объекта изучения). Поэтому для исследования свойств случайной величины X чаще всего используется в ы б о р о ч н ы й м е т о д . Сущность этого метода состоит в том, что из рассматриваемой генеральной совокупности случайным образом извлекается часть объектов, называемая выборкой, которая и подвергается детальному изучению. Число n наблюдений, образующих выборку, называют объемом выборки. Затем, используя известные теоретико-вероятностные соотношения, по результатам выборочного обследования формулируются выводы о свойствах всей генеральной совокупности.

Можно сказать,

что о с н о в н о е н а з н а ч е н и е м а т е м а т и к о -

с т а т и с т и ч е с к и х

м е т о д о в именно в том и состоит, чтобы с их по-

мощью на основании ограниченного числа выборочных данных получить как можно более полное представление об изучаемых случайных величинах.

Для того, чтобы по имеющейся выборке можно было сделать обоснованный вывод о свойствах всей генеральной совокупности, она должна быть р е п р е з е н т а т и в н о й (п р е д с т а в и т е л ь н о й ), т. е. хорошо отображать свойства исследуемой генеральной совокупности. Доказано, что для

4

получения представительной выборки выбор каждого элемента из генеральной совокупности должен осуществляться независимо от выбора остальных элементов и с сохранением принципа случайности. Кроме того, большое значение имеет объем исследуемой выборки.

2 Сгруппированный и интервальный статистические ряды

Итак, пусть для исследования свойств случайной величины (с.в.) X получена выборка объема n {x1, x2,…, xn}.

Последовательность выборочных значений х1, х2,…, хn, записанных в порядке их появления, представляет собой исходный статистический материал и называется простым статистическим рядом.

Для компактного, удобного и наглядного представления имеющихся статистических данных необходимо произвести их п е р в и ч н у ю о б р а - б о т к у .

Запишем все элементы выборки в порядке неубывания и обозначим члены такой последовательности x(i) , i = 1, 2, ..., n : x(1) x(2) ≤ ... ≤ x(n) , где

x(1) = min{x1, x2 ,..., xn}, x(n) = max{x1, x2 ,..., xn}.

Каждый элемент x(i) называется порядковой статистикой (вариантой), а последовательность

x(1) , x(2) ,..., x(n)

называется вариационным рядом, соответствующим имеющейся выборке. Если изучается дискретная случайная величина, число возможных зна-

чений которой не велико (n < 10), то для каждого из отличающихся друг от

друга наблюденных значений (обозначим их

~

) подсчитываются частоты mi

xi

и относительные частоты (частости) mi/n появления этих значений в выборке. Результаты вычислений заносятся в таблицу 1, которая называется

сгруппированным статистическим рядом.

Таблица 1 – Сгруппированный статистический ряд

 

 

 

 

 

 

 

 

 

Наблюденные значения

~

~

 

~

k n

~

x1

x2

 

xk

xi

 

 

 

 

 

 

Частоты mi

m1

m2

 

mk

k

 

mi = n

 

 

 

 

 

 

i=1

Относительные частоты

 

 

 

 

 

k

m1 / n

m2 / n

mk / n

mi / n = 1

mi / n

 

 

 

 

 

i=1

 

 

 

 

 

 

Если изучается непрерывная случайная величина либо дискретная слу-

5

чайная величина, число возможных значений которой достаточно велико (n > 10), то диапазон [xmin(n); xmax(n)] всех наблюденных значений разбивается на k разрядов длины h, и подсчитываются числа выборочных данных, попавших в каждый из разрядов. Результаты расчетов заносятся в таблицу 2, которая называется интервальным статистическим рядом.

Таблица 2 – Интервальный статистический ряд

Границы интервалов

[C1, C2)

[C2, C3)

[Ck , Ck +1)

Среднее значение

~

~

~

 

интервала

~x

x1

x2

xk

 

 

i

 

 

 

 

 

 

 

 

 

 

 

k

Частоты mi

 

m1

m2

mk

mi = n

 

 

 

 

 

 

i=1

Относительные час-

 

 

 

 

k

тоты mi / n

 

m1 / n

m2 / n

mk / n

mi / n =1

 

 

 

 

 

i=1

Для определения границ интервалов [Ci; Ci+1) можно воспользоваться

следующей методикой:

1 Вычислить размах варьирования выборочных значений: R = xmax xmin, где xmin и xmax соответственно минимальное и максимальное значения вариационного ряда.

2 Определить длину шага разбиения h = R , где k – число разрядов раз- k

биения. Для примерной ориентации в выборе значения k можно воспользоваться формулой Стерджесса: k ≈ 1+ 3,322lg n ( 5 ≤ k ≤15 ), где n – объем

выборки. Выбор количества разрядов существенно зависит от объема выборки n. При больших n величину R, полученную по формуле Стерджесса, следует воспринимать как оценку снизу для R (для упрощения последующих расчетов полученное значение h может быть округлено в бóльшую или меньшую сторону).

3 Определить границы интервалов разбиения: C1 = xmin h/2, C2 = C1 + h, C3 = C2 + h, и т. д. Процесс разбиения продолжается до тех пор, пока максимальный элемент выборки не попадет в интервал. Среднее значение каждого частичного интервала можно определить как среднее арифметическое его границ.

Элементы выборки, попавшие на границы разрядов разбиения, могут быть приписаны к какому-то одному из этих интервалов (например, к правому, как это сделано в таблице 2), либо частоты этих значений могут быть разделены поровну между двумя соседними интервалами.

Для графического представления сгруппированного статистического ряда обычно используется столбцовая диаграмма (рисунок 1), которая пред-

6

ставляет собой последовательность вертикальных отрезков длины mi/n, от-

ложенных от оси абсцисс в точках с координатами ~ . xi

Для графического изображения интервального статистического ряда чаще всего используется гистограмма относительных частот (рисунок 2). При построении гистограммы на оси абсцисс необходимо отложить границы

интервалов выборочных значений [Ci,; Ci+1) ( i =1, k ) и на каждом из этих

интервалов, как на основании, построить прямоугольники, площади которых равны mi/n, тогда высоты прямоугольников равны mi/(nhi). Площадь всей гистограммы, очевидно, равна 1.

mi

 

 

 

 

 

 

 

 

mi

 

 

 

 

n

 

 

 

 

 

 

 

 

nhi

 

 

 

 

 

 

 

m2

m3

 

 

 

 

 

 

 

 

 

 

 

m1

n

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

mk1

 

mk

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

n

 

 

 

 

 

 

0

~

~

~

 

~

~

~

С1

С2

С3

С4 Сk--1 Сk

Сk+1

x

x1

x2

x3

xk1

xk

xi

 

Рисунок 1 – Столбцовая диаграмма

 

Рисунок 2 – Гистограмма

 

 

 

 

 

относительных частот

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3 Эмпирическая функция распределения

Эмпирической функцией распределения Fˆ(x) называется функция, ко-

торая каждому значению x ставит в соответствие относительную частоту события {X < x} (обозначающего тот факт, что с.в. Х примет значение мень-

шее, чем х). Расчетная формула для вычисления Fˆ(x) имеет вид:

Fˆ(x) = nx , n

где n – объём исследуемой выборки;

nx – число элементов выборки, меньших данного фиксированного зна-

чения х.

Свойства эмпирической функции распределения:

1 Все возможные значения эмпирической функции распределения принадлежат отрезку [0, 1]: 0 ≤ Fˆ(x) ≤ 1.

2 Fˆ(x) – неубывающая функция своего аргумента, то есть Fˆ(x1) ≤ Fˆ(x2)

7

для любых значений x1 и x2, таких, что x1 < x2 .

3 Если все выборочные значения исследуемой случайной величины при-

надлежат отрезку [a; b], то при

ˆ

ˆ

x a F(x) = 0 , при x > b

F(x) = 1.

Важнейшее свойство эмпирической функции распределения состоит в том, что при увеличении объема выборки n, значение этой функции в каждой точке приближается к значению теоретической функции распределения F(x) в указанной точке, т. е. эмпирическая функция распределения является экспериментальным аналогом (оценкой) неизвестной исследователю теоретической функции распределения.

4 Оценки числовых характеристик

Важнейшим этапом статистической обработки данных является вычисление оценок числовых характеристик исследуемой случайной величины. Полученные оценки позволяют в числовой форме описать характерные черты статистического распределения и являются базой для построения математической модели изучаемого случайного явления.

Любая функция f (x1, x2 , ..., xn ) от результатов наблюдения x1, x2 , ..., xn исследуемой с. в. X называется выборочной статистикой или

просто статистикой. Статистика ˆ , используемая в качестве приближён-

Θ

ного значения неизвестного параметра Θ, называется статистической

оценкой параметра Θ.

Существует два вида оценок параметров: точечные и интервальные. То-

чечные оценки определяют точку ˆ , являющуюся некоторым приближени-

Θ

ем оцениваемого параметра Θ. Интервальная оценка представляет собой

ˆ

ˆ

интервал (Θ1

, Θ2 ) , который с заданной вероятностью накрывает неизвест-

ное значение параметра Θ.

Познакомимся сначала с точечными оценками. Поскольку любая выбор-

ка является

конечной и случайной, все выборочные функции

ˆ

 

Θ = f (x1, x2 , ..., xn ) являются случайными величинами, то есть при перехо-

 

ˆ

де от одной выборки к другой вычисленные значения оценки Θ будут отли-

 

ˆ

чаться друг от друга. Желательно, чтобы получаемые значения Θ распола-

гались как можно ближе к истинному значению оцениваемого параметра Θ.

Это достигается

в тех случаях, когда статистическая оценка

ˆ

, x2

, ..., xn )

обладает такими свойствами, как состоятельность, не-

Θ = f (x1

смещённость и эффективность.

8

Статистическая оценка ˆ называется состоятельной, если ее вычис-

Θ

ляемое по опытным данным значение при увеличении объема выборки схо-

ˆ

 

 

дится по вероятности к истинному значению Θ оцениваемого параметра, то

есть, если для любого, сколь угодно малого ε > 0

lim

ˆ

P(| Θ − Θ |< ε) = 1.

 

n→∞

 

Оценка ˆ называется несмещенной (или оценкой без систематиче-

Θ

ской ошибки), если ее математическое ожидание совпадает со значением ˆ

Θ

оцениваемого параметра: M ˆ . [Θ] = Θ

Несмещенная оценка ˆ называется эффективной, если по сравнению с

Θ

другими оценками параметра, вычисляемыми на основании выборок одинакового объема n, она обладает наименьшей дисперсией.

Ниже приведены формулы для вычисления точечных оценок случайной величины на основании имеющихся выборочных данных x1, x2 , ..., xn .

1 В качестве оценки математического ожидания (характеризующего среднее значение случайной величины) используется среднее арифметиче-

ское

 

выборочных значений. Эта статистика

называется выборочным

x

средним

 

 

 

 

 

 

 

 

ˆ

 

 

 

1

n

 

 

 

 

 

 

xi .

(1)

 

 

M[X ] = x =

 

 

 

 

 

 

 

n i=1

 

2 Для оценивания по выборочным данным

моды распределения (т.е.

наиболее вероятного значения

xˆmod ), используется то значение случайной

величины сгруппированного статистического ряда, которому соответствует наибольшее значение частоты. По интервальному статистическому ряду определяется модальный интервал, в который попало наибольшее число элементов выборки, и в качестве точечной оценки моды может использоваться середина этого интервала.

3 Для определения выборочного значения медианы (средневероятного значения с. в.) используется вариационный ряд. В качестве оценки медианы xˆmed принимают средний член этого ряда, если значение n – нечётно, и сред-

нее арифметическое двух средних членов этого ряда, если n – чётно.

4 В качестве оценки дисперсии (являющейся мерой рассеивания значений случайной величины относительно ее среднего значения) используется статистика

9