Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Теория вероятностей и математическая статистика. Прикладная статистика с использованием MS EXCEL

.pdf
Скачиваний:
8
Добавлен:
12.11.2023
Размер:
3.04 Mб
Скачать

Построенную величину Х можно трактовать, например, как количество колес, ежедневно поступавших на шиноремонтный участок автопредприятия в течение 50 дней.

Этот пример демонстрирует, что имеющиеся здесь 3 элемента со значениями х > 13 являются естественными для данного распределения и их нельзя отбрасывать в ходе рецензирования выборки, хотя среднее выборочное значение за время наблюдения приближенно равно 4.

Гладкой сплошной линией на рис. 2.1 также показана теоретическая кривая f(x) плотности показательного распределения с параметром λ = 0,2337, аппроксимирующая (сглаживающая) построенную гистограмму.

По аналогии с функцией распределения F(x) случайная величина X для выборки Xn = {x1, x2 , x3 , ..., xn } можно задать

некоторую функцию, определяющую относительную частоту события X < x.

Выборочной (эмпирической) функцией распределения

называют функциюFn (x), определяющую для каждого значения х относительную частоту события X < x. Таким образом,

F (x) =

nx

,

(2.2)

 

n

n

 

 

 

где пх – число вариант, меньших х; п – объем выборки.

В отличие от эмпирической функции распределенияFn (x), найденной опытным путем согласно (2.2), гипотети-

чески существующую функцию распределения F(x) гипотетической генеральной совокупности называют теоретической функцией распределения. F(x) определяет вероятность события X < x, а Fn (x) – его относительную частоту в выборке объема n. При достаточно больших п из теорем Бернулли и Гливенко следует, что Fn (x) стремится по вероятности к F(x).

41

Из определения эмпирической функции распределения видно, что ее свойства совпадают со свойствами F(x), а именно:

1.0 ≤ Fn (x) ≤ 1.

2.Fn (x) – неубывающая функция.

3.Если х1 – наименьшая варианта, то Fn (x) = 0 при хх1;

если хk наибольшая варианта, то Fn (x) = 1 при х > хk.

Эмпирическая функция распределения для непрерывной случайной величины графически изображается гистограммой накопленных частот – ступенчатой фигурой (рис. 2.2), состоящей из прямоугольников, основаниями которых служат частичные интервалы длиной h, а высотами отрезки длиной

i

nsi = nj j=1

i

или wsi = wj .

j=1

Рис. 2.2. Гистограмма накопленных частот – функция эмпирического распределения

42

В MS Excel для графического представления выборок в виде гистограмм используется инструмент «Гистограмма», доступный из окна «Анализ данных». Подробный пример использования этогоинструмента описан в нижеследующем примере.

2.1.1. Построение гистограмм вручную и в MS Excel

Рассмотрим практическое построение гистограмм. Пример 2.3. Представить выборку 55 наблюдений в виде

статистического ряда, используя 7 интервалов:

17 19 23 18 21 15 16 13 20 18 15 20 14 20 16 14 20 19 15 19

16 19 15 22 21 12 10 21 18 14 14 17 16 13 19 18 20 24 16 20

19 17 18 18 21 17 19 17 13 17 11 18 19 19 17

Построить гистограммы относительных и накопленных частот.

Решение. Размах выборки: R = 24 – 10 = 14. Длина разряда h = 14/7 = 2. Результаты группировки сведем в табл. 2.4:

Таблица 2.4

Номер разряда j

1

2

3

4

5

6

7

 

 

 

 

 

 

 

 

Границы разрядов

10÷12

12÷14

14÷16

16÷18

18÷20

20÷22

22÷24

 

 

 

 

 

 

 

 

Частота nj

2

4

8

12

16

10

3

 

 

 

 

 

 

 

 

Относительная

0,0364

0,0727

0,1455

0,2182

0,2909

0,1818

0,0545

частота wj

 

 

 

 

 

 

 

Накопленная

2

6

14

26

42

52

55

частота

 

 

 

 

 

 

 

Накопленная отно-

0,0364

0,1091

0,2546

0,4728

0,7637

0,9455

1,000

сительная частота

F (x)

0

0,0364

0,1091

0,2546

0,4728

0,7637

0,9455

F (x) = 1 при x > 24.

Проанализируем данные этого примера с помощью табличного процессора MS Excel, построим группированный статистический ряд и графики: введем все данные в столбец А

43

(см. прил. 1), затем отсортируем их в порядке возрастания («Данные» → «Сортировка», рис. 2.3).

 

В результате сразу получим

 

вариационный ряд, по первому

 

и последнему вариантам кото-

 

рого определяем размах выбор-

 

киR = 24 – 10 = 14 (рис. 2.4).

 

После этого в столбец В

 

таблицы с 1-й по 7-ю ячейки

Рис. 2.3. Меню сортировки

вводим в порядке возрастания

 

координаты границ «карма-

нов» = разрядов = частичных интервалов (их можно не задавать совсем и здесь и в диалоге построения гистограммы – процессор сам ихназначит), полученная таблица представлена нарис. 2.5.

Рис. 2.4. Полученный вариационный ряд

44

Рис. 2.5. Таблица с заданными «карманами»

Теперь все готово для построения гистограммы относительных частот и кумулятивной кривой (в Excel – интегрального процента). Входим в меню «Сервис» → «Анализ данных» → «Гистограмма» (рис. 2.6), где в качестве входного интервала указываем нужные ячейки столбца А, указываем нужный интервал «карманов» – ячейки столбца В.

Получаем следующий группированный статистический ряд (табл. 2.5 с транспонированной матрицей относительно матрицы табл. 2.4) в ячейках таблицы F1:H9, совпадающий по частотам с приведенным выше рядом при ручном счете (см. левые три столбца табл. 2.5), гистограмму частот и кумулятивную кривую (накопленный процент) (рис. 2.7). Но для обеспечения этого совпадения пришлось сдвинуть границы «карманов» от целых значений (на практике рекомендуется

45

брать середины «карманов», отличающиеся только в последних значениях результаты для этого случая приведены в трех правых столбцах табл. 2.5).

Рис. 2.6. Диалог определения гистограммы

 

 

 

 

 

Таблица 2.5

 

 

 

 

 

 

«Кар-

Часто-

Интегральный

«Кар-

Часто-

Интегральный

ман»

та

%

ман»

та

%

11,9

2

3,64 %

11

2

3,64 %

13,9

4

10,91 %

13

4

10,91 %

15,9

8

25,45 %

15

8

25,45 %

17,9

12

47,27 %

17

12

47,27 %

19,9

16

76,36 %

19

16

76,36 %

21,9

10

94,55 %

21

10

94,55 %

24,1

3

100,00 %

23

2

98,18 %

Еще

0

100,00 %

Еще

1

100,00 %

46

Если же задать реальные границы карманов целыми числами, то получим существенно отличающийся статистический ряд (табл. 2.6) и соответственно отличающиеся графики гистограмм (рис. 2.8).

Рис. 2.7. Гистограмма частот и кумулятивная кривая:

– частота; – интегральный процент

Рис. 2.8. Вариант гистограммы частот и кумулятивной кривой: – частота; – интегральный процент

47

 

 

Таблица 2.6

 

 

 

«Карман»

Частота

Интегральный процент

12

3

5,45

14

7

18,18

16

9

34,55

18

14

60,00

20

15

87,27

22

5

96,36

24

2

100,00

Еще

0

100,00

Приведенный пример неоднозначности построения статистического ряда связан со следующими обстоятельствами:

1.Случайная переменная принимает целые значения, совпадающие с границами «карманов».

2.В отечественной литературе в основном используется определение функции распределения и эмпирической функции

распределения как вероятности события {X < x}, см. (2.2). Часто в иностранной литературе (и в Excel) используется неравенство {X ≤ x}. Поэтому по разному решается вопрос, включать или не включать попадание в «карман» значений, совпадающих с правой границей «кармана».

3.При построении статистического ряда вручную для последнего варианта и последнего «кармана» было нарушено условие X < x, фактически использовано X ≤ x, что свидетельствует о преимуществе использования этого события.

4.Для целочисленных границ «карманов» предпочтительнее в качестве таковых указывать координаты середин «карманов».

В практическом анализе статистических данных эти отличия редко проявляются так значительно. Кроме этого, нужно принимать во внимание, что мы имеем дело с приближенными случайными данными.

48

2.2. Числовые характеристики статистического (выборочного) распределения

Числовые характеристики случайных величин играют важную роль в их интерпретации, являясь детерминированными (неслучайными) величинами, характеризующими центр случайного рассеяния, показатели рассеяния, вид кривой плотности распределения и т.п.

Каждой числовой характеристике случайной величины можно поставить в соответствие ее статистическую аналогию (статистическую оценку), которая в силу случайности выборки сама являетсяслучайнойвеличинойсосвоимзакономраспределения.

Чаще всего в качестве таких статистических аналогий ис-

пользуются следующие выборочные числовые характери-

стики (статистики) – величины, вычисляемые по выборке (ниже даны формулы для негруппированных и группированных данных, для отличия выборочных характеристик от аналогичных теоретических числовых характеристик будем в основном использовать в качестве верхнего индекса символ

«*», делая исключение для оценки mx x):

выборочное среднее (статистическое среднее – оценка математического ожидания):

 

1

n

1

k

k

 

mx x =

xi =

nj xj = wj xj ;

(2.3)

 

 

 

n i=1

n j=1

j=1

 

мода статистического распределения– такое значение случайной величины, которому соответствуетнаибольшаячастотапоявления;

медиана – такое значение xмед, для которого

P {X < x

} = P {X > x };

(2.4)

мед

мед

 

выборочная дисперсия (смещенная оценка):

 

1

n

 

1

k

k

Dx (σx )2 =

(xi x)2

=

nj (xj x)2

= wj (xj x)2 ; (2.5)

 

n

 

n i=1

 

j=1

j=1

49

выборочное среднеквадратическое отклонение:

 

 

 

 

 

 

σ =

D ;

 

 

 

 

(2.6)

 

 

 

 

 

 

 

x

 

x

 

 

 

 

 

исправленная выборочная дисперсия:

 

 

 

 

n

 

 

 

 

 

1

n

 

 

 

 

1

k

 

Dx* испр = s2 =

 

 

Dx* =

(xi

x)2 =

nj (xj x )2 ;

(2.7)

n 1

 

 

 

 

 

 

 

n 1 i=1

 

 

 

 

n 1 j=1

 

исправленное среднеквадратическое отклонение:

 

 

 

 

 

 

 

 

 

 

 

 

1

n

 

 

 

 

 

s =

Dx* испр =

 

 

(xi x)2 ;

(2.8)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1 i=1

 

 

 

выборочный коэффициент вариации – безразмерная относи-

тельная квадратичная оценки рассеяния:

ν =

s

;

(2.9)

x

 

 

 

размах выборочный – простейшая размерная оценка рассеяния:

R = x

x ;

(2.10)

max

min

 

выборочное среднеквадратическое отклонение среднего

(стандартная ошибка среднего):

 

 

σx = σx / n;

(2.11)

выборочный начальный момент порядка k (k = 1, 2, 3, …):

 

 

1

n

 

νk

=

xi k ;

(2.12)

 

 

 

n i=1

 

выборочный центральный момент порядка k (k = 1, 2, 3, …):

 

 

1

n

 

μk

=

(xi x)k ;

(2.13)

 

 

 

n i=1

 

выборочный коэффициент асимметрии (для симметричных распределений равен 0):

μ

As = (σ 3)3 ; (2.14)

x

50