Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методичка Моделирование и оптимизация2012.doc
Скачиваний:
175
Добавлен:
28.03.2015
Размер:
5.59 Mб
Скачать

Практическое занятие №2 Анализ рядов распределения экспериментальных данных

Цель работы: вычислить среднее значение и медиану, показатели вариации, доверительные интервалы, построить ряд распределения, рассчитать частоту и относительные частоты, а так же соответствующие плотности, по интервалам, построить гистограмму и полигон частот.

Среднее значение и медиана

Для оценивания параметров используются различные методы, особое место среди них занимает метод максимального правдоподобия. Он применяется в тех случаях, когда известен закон распределения. Суть его в том, что оценки должны быть равны значениям, при которых выборка имеет максимальную вероятность появления.

К характеристикам одномерного распределения относятся:

1. Меры положения (среднее, медиана, мода и др.).

2. Меры рассеивания (размах, коэффициент вариации, дисперсия, среднеквадратичное отклонение).

3. Меры формы (асимметрия, эксцесс, моменты третьего и четвертого порядка).

При статистических расчетах используют различные виды средних: среднее арифметическое, среднее геометрическое, медиану и др. При получении результатов, которые должны сравниваться между собой, необходимо пользоваться одним и тем же средним.

Если в рассматриваемой выборке отдельные элементы не повторяются, то каждый из них влияет на среднее в равной мере и такое среднее называют простым. Если же в выборке некоторые элементы повторяются, причем частота повторения различна, то на среднее влияют как значения, так и частота всех элементов. Среднее, рассчитанное с учетом частоты или, как говорят, «веса» каждого элемента, называется взвешеным. Средние принято обозначать , и т. п.

Пример вычисления среднего значения и медианы, сравнение их устойчивости.

В табл. 1.1 приведены результаты экспериментов в параллельных исследованиях

Таблица 2.1

Данные эксперимента

100

110

115

125

140

145

145

150

Среднее значение (100+110 + 115 + 125 + 140 + 145 + 145 + 150) / 8 =128,75.

Ранжированный ряд {100; 110; 115; 125; 140; 145; 145; 150}.

Медиана (125+140)/2 = 132,5 (число членов ряда четное).

На рис 2.1 показано положение среднего (квадрат) и медианы (треугольник) в ряду данных.

Рисунок 2.1 Положение среднего и медианы

Допустим, что у нас есть выделяющиеся данные

Таблица 2.2

Экспериментальные данные

100

110

115

125

140

145

145

150

450

Среднее значение (100 + 110 + 115 + 125 + 140 + 145 + 145 + 150 + 230) / 9 = 164,4.

Ранжированный ряд {100; 110; 115; 125; 140; 145; 145; 150; 230}.

Медиана 140 (число членов ряда нечетное).

На рис. 2.2 отображено положение среднего (квадрат) и медианы (треугольник) в ряду данных.

Рисунок 2.2 Положение среднего и медианы при наличии выделяющихся данных

Этот пример показывает, что при наличии данных, которые резко выделяются или заметно отличаются друг от друга, медиана является более устойчивой оценкой, чем среднее значение.

Пример вычисления показателей вариации и доверительных интервалов.

Рассмотрим табл. 2.3, для данных которой рассчитаем показатели вариации.

Таблица 2.3

Данные эксперимента

75,7

70,1

91,2

70,7

71,4

78,8

Вариационный размах R = 91,2 — 70,1 = 21,1. Среднее 76,32.

Дисперсия S2 = ((75,7-76,32)2 + (70,1-76,32)2 + (71,4-76,32)2 + (70,7-76,32)2 + (71,4-76,32)2 + (78,8-76,32)2)/(6-l) = ((-0,62)2 + (-6,22)2 + (14,88)2+ (-5,62)2 + (.4;92)2+ (2,48)2)/6= -(0,3844+ 38,6884 + 221,4144 + 31,5844 + 24,2064 + 6,1504)/5 = 64,13.

Среднеквадратическое отклонение 8,008.

Коэффициент вариации V = (8,008/76,32) 100% = 10,49%.

Используя данные табл. 2.11 и рассчитанные значения среднего и среднеквадратического отклонения, построим для них доверительные интервалы.

Доверительный интервал для среднего

В таблице 2,45 – табличное значение критерия Стьюдента с числом степеней свободы 6 и доверительной вероятностью 0,95. В знаменателе 2,45 – корень квадратный из 6. (таблица 2.4). Таблица 2.4

Коэффициенты Стьюдента

n

доверительные интервалы

0.80

0.90

0.95

0.98

0.99

0.995

0.998

0.999

1

3.0770

6.3130

12.7060

31.820

63.656

127.656

318.306

636.619

2

1.8850

2.9200

4.3020

6.964

9.924

14.089

22.327

31.599

3

1.6377

2.35340

3.182

4.540

5.840

7.458

10.214

12.924

4

1.5332

2.13180

2.776

3.746

4.604

5.597

7.173

8.610

5

1.4759

2.01500

2.570

3.649

4.0321

4.773

5.893

6.863

6

1.4390

1.943

2.4460

3.1420

3.7070

4.316

5.2070

5.958

7

1.4149

1.8946

2.3646

2.998

3.4995

4.2293

4.785

5.4079

8

1.3968

1.8596

2.3060

2.8965

3.3554

3.832

4.5008

5.0413

9

1.3830

1.8331

2.2622

2.8214

3.2498

3.6897

4.2968

4.780

10

1.3720

1.8125

2.2281

2.7638

3.1693

3.5814

4.1437

4.5869

Доверительный интервал для среднего квадратического отклонения:

Если мы зададим уровень значимости 0,05, то критическое значение распределения хи-квадрат с уровнем значимости 1 - 0,05/2 и числом степеней свободы (5 - 1) χ1 = 0,831. Критическое значение распределения хи-квадрат с уровнем значимости 0,05/2 и числом степеней свободы (5-1) χ2 = 12,832. Тогда доверительный интервал примет вид (2,45*8,008/12,832; 2,45* 8,008/0,831) = (1,53; 23,61).

Как видите, доверительные интервалы достаточно велики. Это связано с тем, что присутствует большая дисперсия (рассеяние данных). Чтобы обеспечить заданную вероятность (0,95) попадания среднего и среднеквадратического отклонения в заданный интервал, необходимо увеличивать последний. Что мы и наблюдаем.

Определение параметров с использованием электронной таблицы Excel.

Большинство из описанных параметров и характеристик могут быть вычислены с использованием электронной таблицы Excel. Рассмотрим пример использования основных функций.

На рисунке 1.3 приведена копия экрана с примером. В ячейках С2 и Н2 помещены исходные данные. В ячейках G5 по G9 и Н9 помещены функции, вычисляющие необходимые параметры (таблица 1.5).

Рисунок 1.3 Расчет параметров случайной величины с использованием Excel

Таблица 1.5

Имя ячейки

Содержимое

G5

=СРЗНАЧ(С2:Н2)

G6

=ДИСП(С2:Н2)

G7

=СТАНДОТКЛОН(С2:Н2)

G8

=МЕДИАНА(С2:Н2)

G9

G5-ДОВЕРИТ(0,05;G7;СЧЁТ3(С2:Н2))

H9

G5+ДОВЕРИТ(0,05;G7;6)

Вы видите, что в Н9 в функции ДОВЕРИТ(0,05;G7;6) явно указано число опытов (6), а в G9 в такой же функции ДОВЕРИТ(0,05;G7;СЧЁТ3(С2:Н2)) для определения числа опытов используется функция СЧЁТ3(С2:Н2), параметрами которой являются диапазон используемых ячеек, а результат – их число.

Задание 1 Рассчитать среднее значение и медиану, сравнить их устойчивость, рассчитать показатели вариации и доверительный интервал для экспериментальных данных. Построить графики в программе Excel.

Таблица 1.7

Варианты заданий

Вариант

Данные эксперимента

1

345,4

343,2

333,1

340,3

2

48,3

49,5

48,1

60,0

3

12,1

17,2

16,0

13,2

4

75,8

76,0

75,0

77,2

5

66,4

68,0

67,0

67,2

6

34,5

48,7

34,8

34,9

7

64,1

62,1

63,9

64,3

8

298,0

299

298,5

297,1

9

233,1

233,9

234,1

234,8

10

255,1

256,2

256,3

257,0

В качестве исходных данных в задании можете использовать свои экспериментальные данные.

Отчет должен содержать расчеты статистических характеристик на твердом носителе и в электронном виде в Еxcel.

Ряды распределения

На практике установлены следующие соотношения между численностью группируемых значений n переменной x и числом интервалов k:

n

k

40-60

6-8

60-100

7-10

100-200

9-12

200-500

12-17

Число интервалов можно вычислять по формуле , причем, 5≤k≤20. Для предварительного определения числа интервалов k может быть также использована эмпирическая формула с округлением числа до ближайшего целого.

Ширина интервала d сохраняется одинаковой для всех интервалов и определяется как d=(xmax-xmin)/k, где xmax и xmin – соответственно максимальное и минимальное значение членов ряда.

Ширина интервала d имеет ту же размерность, что и переменная x.

В качестве частоты, соответствующей m-му интервалу величины х, принимают сумму частот Nm членов ряда, попавших в этот интервал.

Отношение Nm к общей численности значений переменных (объему выборки) n , т.е. Nm/ n, называется относительной частотой pm.

Отношение Nm/d является плотностью частоты.

Отношение рm/d – плотностью относительной частоты.

Частота Nm - целое число (измеряется в штуках), pm= Nm/ n измеряется в долях единицы, а Nm/d и рm/d имеют размерность обратную, размерности основной переменной х.

Пример Пусть выборка содержит 10 значений влажности карамели с фруктовой начинкой (в %): 6,8; 6,4; 8,0; 7,6; 6,4; 6,2; 5,8; 6,8; 6,4; 5,6. Интервал, для которого нужно найти перечисленные характеристики, задан границами 6,0 и 7,5, так, что d=(7,5-6,0)/5=0,5. Частота значения 6,2 равна 1, так как в выборке встречается 1 раз, для значения 6,4 частота равна 3, для 6,8-2 и т.д. В заданный интервал попадают значения 6,4 и 6,2% с частотами 3 и 1 соответственно. Таким образом, частота соответствующая заданному интервалу, равна 4, относительная частота равна 4/10, плотность частоты – 4/0,5 и плотность относительной частоты – 0,4/0,5.

При анализе рядов распределения рассматривают взаимосвязь двух переменных: значений членов ряда и соответствующих им частот или относительных частот.

Статистические распределения изображаются графически в виде гистограмм или полигонов частот.

Построение полигона ведется следующим образом.

Серединой каждого интервала является (хm-1-xm)/0,5 - где хm-1 и xm - границы интервала, а m изменяется от 1 до k. Середины интервалов откладывают на оси ординат. На оси абсцисс откладывают Nm или pm

Построение гистограмм осуществляется в следующем порядке. На горизонтальной оси размечают границы интервалов и над каждым интервалом строят прямоугольник с основанием, равным ширине интервала и высотой соответствующей плотности частоты (гистограмма частот) или плотности относительной частоты (гистограмма относительных частот).

Площадь гистограммы равна сумме всех частот, т.е. объему выборки, а площадь гистограммы относительных частот равна сумме всех относительных частот, т.е. единице.

Расчет частот и относительных частот для примера

Нижняя граница интервала 5,1

6,8; 6,4; 8,0; 7,6; 6,4; 6,2; 5,8; 6,8; 6,4; 5,6

Таблица 2.5

m

хm-1-xm

Середина интервала

m-1+xm)∙0,5=xm*

Nm

pm

Nm/d

рm/d

1

2

3

4

5

6

7

1

5,1-5,6

5,35

1

1/10

1/0,5(хm-1-xm =0,5)

1/5 (1/10*1/0,5)

2

5,6-6,1

5,85

1

1/10

1/0,5

1/5

3

6,1-6,6

6,35

4

4/10

4/0,5

4/5

4

6,6-7,1

6,85

2

2/10

2/0,5

2/5

5

7,1-7,6

7,35

1

1/10

1/0,5

1/5

6

7,6-8,1

7,85

1

1/10

1/0,5

1/5

Сумма

-

-

10(кол-во данных)

1

20

-

Рисунок 2.3 - Гистограмма

Рисунок 2.4 – Полигон частот

Для построения полигона частот пользуются столбцами 3 и 4 или 3 и 5.

Определение параметров с использованием электронной таблицы Excel.

Допустим, мы имеем данные, по которым необходимо построить гистограмму (рис. 2.3).

Рисунок 2.3 – Исходные данные

Сначала необходимо задать интервалы, в которых будем считать частоты появления случайной величины. В данном случае мы выбрали одинаковые интервалы длиной 4 единицы. Границы интервалов поместили в столбик F (рис. 2.4).

Рисунок 2.4 – Заданные границы интервалов

Итак, мы имеем интервалы (0,24): (25,28) и т.д. После этого в ячейке GЗ набираем формулу =ЧACTOTA[FREQUENCY](A2:E16; F2:G11). Первый ее параметр описывает поля, в которых находятся исходные данные, второй — поля, в которых записаны правые границы интервалов. После ввода формулы осталось лишь «растянуть» ячейку GЗ до G11. В них будут размещаться частоты, соответствующие интервалам. Результат приведен на рис. 2.5.

Рисунок 2.5 – Размещение частот

Построить по столбцу частот графическое изображение гистограммы не составит труда.

Возможно построение гистограммы с помощью функции, имеющейся в Анализе данных. Для этого в меню последовательно выбираем Сервис, Анализ данных. В появившемся окне (рис. 2.6) выбираем Гистограмма.

Рисунок 2.6 – Окно выбора функции

После этого появляется окно, в котором необходимо задать исходные данные для построения гистограммы (рис. 2.7).

Рисунок 2.7 – Окно задания исходных данных для гистограммы

Параметры диалогового окна Гистограмма имеют следующее назначение.

Входной диапазон

В этом окне необходимо задать ссылку на диапазон ячеек, в которых находятся исходные данные. Последние должны представлять собой перечень значений, а не частоты!

Интервал карманов (необязательный)

Введите в поле диапазон ячеек и необязательный набор граничных значений, определяющих отрезки (карманы). Эти значения должны быть введены в возрастающем порядке. В Microsoft Excel вычисляется число попаданий данных между текущим началом отрезка и соседним большим по порядку, если таковой имеется. При этом включаются значения на нижней границе отрезка и не включаются значения на верхней границе.

Если диапазон карманов не введен, то набор отрезков, равномерно распределенных между минимальным и максимальным значениями данных, будет создан автоматически.

Метки

Ставится отметка, если первая строка или первый столбец входного интервала содержит заголовки. Если таковые отсутствуют, названия для данных выходного диапазона создаются автоматически.

Выходной диапазон

Вводится ссылка на левую верхнюю ячейку выходного диапазона. Размер последнего будет определен автоматически и на экран будет выведено сообщение в случае возможного наложения выходного диапазона на исходные данные.

Новый рабочий лист

Устанавливается переключатель, чтобы открыть новый лист в книге и вставить результаты анализа, начиная с ячейки А1.

Новая рабочая книга

Чтобы открыть новую книгу и вставить результаты анализа в ячейку А1, на первом листе в этой книге устанавливается переключатель. Если вы хотите получить график, это окно нужно сделать обязательно.

Парето (отсортированная диаграмма)

При выборе этой возможности данные представляются в порядке убывания частоты. В математической статистике такая форма гистограммы не используется.

Интегральный процент

Рассчитываются значения, и строится график накопленной частоты.

Вывод графика

Устанавливается флажок для автоматического создания встроенной диаграммы. Внимание Если вы хотите построить график, то обязательно нужно задать Новая книга.

Результаты построения гистограммы (таблица частот и диаграмма) приведены на рис. 2.8.

Рисунок 2.8 – Результат построения диаграммы

Задание 1 Рассчитать среднее значение и медиану, сравнить их устойчивость, рассчитать показатели вариации и доверительный интервал для экспериментальных данных. Построить гистограмму и полигон частот.

Задание 2 Определить частоту и построить гистограмму и полигон частот экспериментальных данных.

Таблица 2.6

Варианты заданий

Вариант

Данные эксперимента

1

2,3

2,6

2,8

2,3

2,2

2,1

3,0

2,2

2,5

2,6

3,1

2

12,0

14,2

17,3

13,5

13,7

18,5

15,2

16,1

17,1

16,1

12,5

3

56,3

56,2

56,1

57,0

56,7

56,7

55,9

55,8

56,1

56,3

57,1

4

234

237

239

233

235

234

236

238

234

238

235

5

77,1

79,0

78,0

75,2

75,9

75,8

75,7

76,0

76,3

76,1

76,0

6

1,2

1,6

1,9

1,8

1,7

1,6

1,8

1,9

1,9

1,8

1,7

7

113

115

116

112

113

116

117

118

112

112

113

8

145

147

147

148

145

147

148

145

149

145

146

9

357

359

359

357

355

359

360

357

358

358

355

10

3,3

3,6

3,6

3,7

3,5

3,4

3,7

3,9

3,4

3,5

3,7

11

5,2

5,5

5,5

5,5

53

5,1

5,6

5,88

5,7

5,6

57

12

1,0

1,2

1,3

1,5

1,7

1,5

1,2

1,1

1,1

1,1

1,5

13

2,0

4,2

7,3

3,5

3,7

8,5

5,2

6,1

7,1

6,1

2,5

14

5,7

5,9

5,9

5,7

5,5

5,9

6,0

5,7

5,8

5,8

5,5

15

3,4

3,7

3,9

3,3

3,5

3,4

3,6

3,8

3,4

3,8

.3,5

16

143

145

146

152

143

146

147

148

152

152

153

17

33,7

33,9

33,9

33,7

33,5

34,9

34,0

33,7

33,8

33,8

34,5

18

10

11

12

13

13

12

14

10

12

15

16

19

22

24

23

26

27

23

24

22

28

25

23

20

12,4

13,1

137

12,7

14,0

12,9

13,0

13,1

12,9

12,8

12,4

Отчет должен содержать расчеты статистических характеристик (таблица 2.1), гистограмму и полигон частот экспериментальных данных