Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МУ_ОНИ_Ч2.doc
Скачиваний:
4
Добавлен:
01.05.2025
Размер:
713.73 Кб
Скачать

2 МетодЫ обработки Экспериментальных данных

Пример анализа случайных величин.

1. Провести обработку результатов определения содержания хлора в поливинилхлориде, выполненного по различным методикам.

2. Сопоставить результаты расчетов двух независимых анализов:

а) установить адекватность распределений;

б) сравнить точность анализов;

в) сравнить средние;

г) сделать выводы.

3. На основе полученных выводов сравнить методики анализов.

Таблица 2.1 − Содержание хлора в поливинилхлориде

определения

Анализ 1

Анализ 2

Концентрация NaCNS, %

1

51,30

51,30

2

52,30

53,20

3

56,30

50,10

4

51,20

50,10

5

51,40

49,10

6

51,20

46,50

7

51,40

49,00

8

52,10

51,00

9

50,20

52,00

10

51,50

51,10

11

52,10

51,90

12

50,10

50,90

13

50,90

14

50,60

15

51,10

16

51,00

Решение

Использование средства “описательная статистика” из пакета анализа данных позволяет получить все необходимые статистические параметры, характеризующие выборку: дисперсию, среднее квадратичное отклонение и т.д. Тем не менее, применяя стандартные функции MS Exсel, не представляется возможным определить грубые ошибки измерений. Последовательность действий при проведении статистического анализа результатов эксперимента следующая:

а) Обработка результатов анализа №1: введем результаты эксперимента в колонку А (диапазон А2:А17, см. таблицу 2.2). Найдем сумму результатов всех измерений - для этого воспользуемся значком автосуммирования ( ∑ ) на панели инструментов Exсel. Поместим курсор в ячейку, следующую за последним значением выборки (в данном случае А18) и кликнем левой клавишей мыши на иконку ∑.

С использованием стандартной функции Exсel СРЗНАЧ рассчитаем среднее значение величин выборки. Для этого помещаем в ячейку В2 формулу

=СРЗНАЧ(A$2:A$17)

и распространяем ее до ячейки В17. Найдем величины отклонений элементов выборки от их среднего значения и поместим их в колонку С (см. таблицу 2.2). Для этого поместим в ячейку С2 следующую формулу: =A2-B2

и распространим ее до ячейки С17. Для нахождения величин дисперсии и среднего квадратичного отклонения используем функции ДИСП и СТАНДОТКЛ: в ячейках D18 и E18 помещаем формулы

=ДИСП(A2:A17)

=СТАНДОТКЛОН(A2:A17)

Величину “трех сигм” находим умножением значения среднего квадратичного отклонения на 3 и помещаем его в ячейку F18:

=3*F17

Проверку на наличие в выборке грубых ошибок выполним с помощью логической функции ЕСЛИ. Для этого в ячейке H2 помещаем формулу

=ЕСЛИ(C2>$F$18;1;0)

и распространяем ее до ячейки G17. В случае наличия грубых ошибок напротив соответствующей величины выборки в колонке G будет находиться цифра 1 (см. таблицу 2.2).

Таблица 2.2 − Промежуточные результаты расчета

A

B

C

D

E

F

G

1

хi

хi-

s12

s1

3s1

2

51,30

51,54

-0,24

0

3

52,30

51,54

0,76

0

4

56,30

51,54

4,76

1

5

51,20

51,54

-0,34

0

6

51,40

51,54

-0,14

0

7

51,20

51,54

-0,34

0

8

51,40

51,54

-0,14

0

9

52,10

51,54

0,56

0

10

50,20

51,54

-1,34

0

11

51,50

51,54

-0,04

0

12

52,10

51,54

0,56

0

13

50,10

51,54

-1,44

0

14

50,90

51,54

-0,64

0

15

50,60

51,54

-0,94

0

16

51,10

51,54

-0,44

0

17

51,00

51,54

-0,54

0

18

824,70

1,99

1,41

4,23

При наличии грубых ошибок их исключают (выделив и удалив соответствующую строку) и повторно проводят расчет.

б) Определяем статистические ошибки: ошибку репрезентативности, ; показатель точности определения выборочной средней, Сs и доверительный интервал  (см. таблицу 2.3). Для нахождения ошибки репрезентативности в ячейку H17 поместим формулу

=КОРЕНЬ(ДИСП(A2:A16)/СЧЁТ(A2:A16))

Функция СЧЁТ подсчитывает количество чисел в списке аргументов и может быть использована для определения объема выборки или нахождения числа степеней свободы. Для расчета показателя точности определения выборочной средней необходимо определить величину коэффициента Стьюдента. Для этого воспользуемся функцией СТЬЮДРАСПОБР с учетом соответствующих значений уровня значимости (=0.05) и числа степеней свободы.

Поместим в ячейку I17 формулу

=((СТЬЮДРАСПОБР(0,05;(СЧЁТ(A2:A16)-1))*

(КОРЕНЬ(ДИСП(A2:А16)/СЧЁТ(A2:A16)))/СРЗНАЧ(A$2:A$16))*100)

и найдем показатель точности выборочной средней. Доверительный интервал определим, введя в соответствующую ячейку формулу:

=СТЬЮДРАСПОБР(0,05;(СЧЁТ(A2:A16)-1))*

КОРЕНЬ(ДИСП(A2: A16)/СЧЁТ(A2:A16)).

Для расчета величины 2 используем функцию КВАДРОТКЛ, возвращающую сумму квадратов отклонений точек данных от их среднего и СРЗНАЧ – определяющую величину среднего арифметического. В ячейку K17 помещаем формулу

=КВАДРОТКЛ(A2:A16)/СРЗНАЧ(A2:A16)

Результаты проведенных вычислений для анализа 1 приведены в таблице 2.3.

Таблица 2.3 − Результаты расчета (анализ 1)

A

B

C

D

E

F

G

H

I

G

K

1

хi

хi-

s12

s1

3s1

Сs

t

2

51,30

51,23

0,07

0

 

3

52,30

51,23

1,07

0

 

4

51,20

51,23

-0,03

0

 

5

51,40

51,23

0,17

0

 

6

51,20

51,23

-0,03

0

 

7

51,40

51,23

0,17

0

 

8

52,10

51,23

0,87

0

 

9

50,20

51,23

-1,03

0

 

10

51,50

51,23

0,27

0

 

11

52,10

51,23

0,87

0

 

12

50,10

51,23

-1,13

0

 

Продолжение таблицы 2.3

13

50,90

51,23

-0,33

0

 

14

50,60

51,23

-0,63

0

 

15

51,10

51,23

-0,13

0

 

16

51,00

51,23

-0,23

0

 

17

768,40

 

 

0,41

0,64

1,92

 

0,16

0,69

0,35

0,11

Аналогично обрабатывают результаты анализа 2 (таблица 2.4).

Таблица 2.4− Результаты расчета (анализ 2)

A

B

C

D

E

F

G

H

I

G

K

1

хi

хi-

s12

s1

3s1

Сs

t

2

51,30

50,52

0,78

0

 

3

53,20

50,52

2,68

0

 

4

50,10

50,52

-0,42

0

 

5

50,10

50,52

-0,42

0

 

6

49,10

50,52

-1,42

0

 

7

46,50

50,52

-4,02

0

 

8

49,00

50,52

-1,52

0

 

9

51,00

50,52

0,48

0

 

10

52,00

50,52

1,48

0

 

11

51,10

50,52

0,58

0

 

12

51,90

50,52

1,38

0

 

13

50,90

50,52

0,38

0

 

14

606,20

 

 

3,04

1,74

5,23

 

0,50

2,19

1,11

0,66

в) Сопоставление результатов расчетов двух независимых анализов.

Установим адекватность распределений. Для этого принимаем нулевую гипотезу о том, что распределение отклонений случайных величин от среднего происходит по нормальному закону. Проверка нулевой гипотезы производится сравнением расчетных значений - критерия с их табличными величинами (см. часть 1 конспекта лекций, приложение А) – в обоих случаях расчетные величины критерия меньше табличных значений:

=0,09; [p = 0,05; f = n-1 = 15-1 = 14] = 23,685;

=0,66; [p = 0,05; f = n-1 = 12-1 = 11] = 19,675;

< и < .

Таким образом, нулевая гипотеза в обоих случаях не отвергается: распределения имеют адекватный характер. Адекватность распределений позволяет производить дальнейшее сравнение рядов.

Сравнение точностей анализов производится с использованием критерия Фишера. Примем нулевую гипотезу о том, что разница в точности двух анализов возникла случайно, а не появилась в результате различий в методиках. Расчетное значение критерия Фишера находим следующим образом: в любую свободную ячейку на рабочем поле помещаем формулу отношения максимального значения дисперсии выборки к минимальному значению:

Fp .

Полученное значение сравниваем с табличной величиной критерия:

Fтабл. [ = 0.05; f1 = n2-1 = 12-1 = 11; f2 = n1-1 = 15-1 = 14] = 2.60.

Так как расчетное значение критерия Фишера меньше его табличной величины, то имеются все основания отвергнуть нулевую гипотезу и принять альтернативную о том, что точности анализов различаются, и это различие нельзя объяснить случайными причинами.

Сравним средние. Принимаем нулевую гипотезу о том, что разница между средними результатов анализов возникла случайно. Найдем величины критерия Стьюдента и ошибки разности между выборочными средними. Для этого используем уже известные величины дисперсий выборок, а также функцию СЧЁТ, возвращающую количество чисел в списке. Вводимая формула для нахождения ошибки разности между выборочными средними имеет следующий вид (таблица 2.5):

=КОРЕНЬ((((СЧЁТ(A2:A16)-1)*ДИСП(A2:A16)+(СЧЁТ(B2:B13)-1)* *ДИСП(B2:B13))/(СЧЁТ(A2:A16)+СЧЁТ(B2:B13)-2))*((СЧЁТ(A2:A16)+ +СЧЁТ(B2:B13))/(СЧЁТ(A2:A16)*СЧЁТ(B2:B13)))).

Величина критерия Стьюдента находится по формуле (в свободной ячейке) =(СРЗНАЧ(A2:A16)-СРЗНАЧ(B2:B13))/D2

Таблица 2.5 − Сравнение средних

A

B

C

D

1

Анализ 1

Анализ 2

Sd

tр

2

51.3

51.3

0.48

1.47

3

52.3

53.2

4

51.2

50.1

Tt

5

51.4

50.1

2.06

6

51.2

49.1

7

51.4

46.5

8

52.1

49

9

50.2

51

10

51.5

52

11

52.1

51.1

12

50.1

51.9

Продолжение таблици 2.5

13

50.9

50.9

14

50.6

15

51.1

16

51

Табличное значение коэффициента Стьюдента находится с использованием функции СТЬЮДРАСПОБР и соответствующего уровня значимости и общего числа степеней свободы двух выборок. Вводим следующую формулу:

=СТЬЮДРАСПОБР(0.05;СЧЁТ(A2:A16)+СЧЁТ(B2:B13)-2).

Так как расчетное значение коэффициента меньше его табличной величины, то нулевая гипотеза подтверждается. Таким образом, можно сделать следующие выводы:

  • Метод, использованный в первом анализе, дает большую точность.

  • Сравнение средних показало, что обе методики дают одинаковый результат.

  • Следовательно, обе методики можно использовать, но при использовании второй методики число измерений необходимо увеличить.

3 ЭЛЕМЕНТЫ КОРРЕЛЯЦИОННОГО

И РЕГРЕССИОННОГО АНАЛИЗА

Выполнение корреляционного и регрессионного анализов в MS Exсel можно проводить, используя несколько подходов: с помощью линий тренда либо с использованием стандартных статистических функций ЛИНЕЙН и ЛГРФПРИБЛ.

Функция “Линии тренда” показывает тенденцию изменения данных и используется для нахождения коэффициентов уравнений парной регрессии и составления прогнозов. Для создания линии тренда на основе данных диаграммы применяется одна из пяти типов аппроксимирующих функций либо определяется функция “линейная фильтрация”. Линейная фильтрация сглаживает флуктуации ряда данных, помещая отдельную точку данных на линии тренда на основании среднего для указанного числа первичных точек данных (см. рисунок 3.1). На диаграмме можно выделить любой ряд данных и добавить линию тренда. При изменении значений любых точек ряда данных линия тренда автоматически пересчитывается и обновляется на диаграмме. Кроме того, имеется возможность выбирать значения пересечения с осью Y для линии тренда и добавлять к диаграмме уравнение аппроксимации и величину достоверности аппроксимации (R-квадрат). Можно также определять будущие и прошлые значения данных исходя из линии тренда и связанного с ней уравнения аппроксимации (см. рисунок 3.2). Добавление линии тренда осуществляется посредством выделения ряда данных на диаграмме, вызова контекстного меню (правой клавишей мыши) и выбором команды “Добавить линию тренда”. Возможные типы аппроксимации приведены в таблице 3.1

Рисунок 3.1 − Различные типы аппроксимаций

Рисунок 3.2 − Окно параметров

Таблица 3.1− Типы аппроксимации, используемые в MS Exсel

Тип аппроксимации

Описание

Линейная

y = m  x + b

Логарифмическая

y = c  ln (x) + b

Полиномиальная

y = b + c1x + c2x2 + c3x3 +…+c6x6

Максимальная степень полинома – 6

Степенная

y = cxb

Экспоненциальная

y = cebx

Скользящее среднее

Каждая точка данных на линии тренда строится на основании среднего указанного числа точек данных. Чем больше число периодов, используемых для вычисления скользящего среднего, тем более гладкой, но менее точной становится линия тренда. Для вычисления скользящего среднего используется уравнение:

Ft = (A t + A t-1 + … +A t-n+1)/n

Пример. При получении волокна типа Нитрон-С концентрация роданида натрия в осадительной ванне контролируется с помощью рефрактометрии. Используя уравнение прямолинейной регрессии или калибровочный график “Зависимость показателя преломления от концентрации NaCNS (%)”, построенный на основании полученного уравнения регрессии, по показаниям рефрактометра оценивают фактическое содержание NaCNS в осадительной ванне.

Для построения калибровочного графика технологом была проведена серия определений зависимости показателя преломления n = y от концентрации NaCNS (% масс.) = x. На основании полученных результатов необходимо вычислить коэффициенты уравнения прямолинейной регрессии и проверить адекватность уравнения регрессии опытным данным. Построить калибровочный график. Результаты эксперимента приведены в таблице 3.2.

Таблица 3.2 − Результаты опытов по определению показателей преломления для различных концентраций роданида натрия в осадительной ванне

Номер

oпыта

хi

уij

Номер

oпыта

хi

уij

уi1

уi2

уi3

уi1

уi2

уi3

1

0,0

1,333

1,332

1,333

7

15,9

1,363

1,362

1,365

2

2,4

1,337

1,335

1,338

8

17,8

1,370

1,368

1,369

3

5,6

1,345

1,346

1.344

9

20,0

1,372

1,371

1,373

4

7,9

1,350

1,351

1,349

10

22,3

1,379

1,379

1,378

5

10,5

1,353

1,353

1,354

11

25,2

1,383

1,385

1,384

6

12,1

1,360

1,361

1,357

Решение. Разместив результаты измерений в соответствующих ячейках рабочего поля, прежде всего найдем средние значения показателя преломления NaCNS в каждом опыте. Для этого воспользуемся стандартной функцией MS Exсel СРЗНАЧ, выделив в качестве аргумента результаты параллельных опытов. Так, для опыта №1 формула будет выглядеть следующим образом:

=СРЗНАЧ(B2:D2)

Распространим ее вниз на все опыты.

Используя ряды данных концентрации роданида натрия и средних значений показателя преломления в каждом опыте, построим график зависимости показателя преломления от концентрации. Для этого воспользуемся командой Диаграмма в меню Вставка. Активизировав полученную диаграмму, построим линию тренда, указав тип аппроксимации – линейная. Во вкладке Параметры отметим пункты “Показывать уравнение на диаграмме” и “Поместить на диаграмму величину достоверности аппроксимации”. Полученная линия тренда будет являться калибровочным графиком, кроме того, на диаграмме будет приведено аппроксимирующее уравнение и величина R-квадрат – коэффициента детерминированности, т.е.достоверности аппроксимации (см. рисунок 3.3).

Рисунок 3.3 − График зависимости показателя преломления от концентрации роданида натрия

Функция ЛИНЕЙН рассчитывает статистику для ряда с применением метода наименьших квадратов и вычисляет прямую линию, наилучшим образом аппроксимирующую имеющиеся данные. При использовании функции ЛГФПРИБЛ в приложении к массивам зависимых величин вычисляется экспоненциальная кривая, аппроксимирующая данные, и возвращается массив значений, описывающих эту кривую.

Пример. Определить уравнение зависимости выхода продукта реакции (с,%) от температуры (t, 0C) и времени (, сек.). Исходные данные представлены в таблице 3.2.

Таблица 3.2 − Соответствующие значения выхода продукта реакции, температуры и времени

t, 0C

120

200

300

400

500

860

, сек.

450

960

145

212

265

312

с,%

45

80

30

55

54

65

Необходимо установить эмпирическую зависимость с = f (,t).

Решение. Для определения уравнения регрессии воспользуемся функцией ЛИНЕЙН. Формат функции ЛИНЕЙН (интервал значений у; блок значений х; константа; статистика),

где интервал значений у - это множество известных значений y;

блок значений х - это необязательное множество известных значений x;

константа - это логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0. Если аргумент константа имеет значение ИСТИНА или опущено, то b вычисляется обычным образом. Если аргумент константа имеет значение ЛОЖЬ, то b полагается равным 0;

статистика - это логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии. Если аргумент статистика имеет значение ИСТИНА, то функция ЛИНЕЙН возвращает дополнительную регрессионную статистику, если ЛОЖЬ, то функция ЛИНЕЙН возвращает только коэффициенты зависимости.

Введем исходные данные, как показано в таблице 3.3: блок значений Х в ячейки B4:C9, интервал значений Y – D4:D9. Определим минимальные и максимальные значения переменных, используя статистические функции МИН и МАКС, и поместим их в ячейки B11:C12. Затем поместим курсор в ячейку B14, выделим блок B14:D18, в котором строк – всегда 5, столбцов – 3 (число переменных в искомом уравнении плюс один). В ячейку B14 поместим формулу

= ЛИНЕЙН(D4:D9;B4:C9;ИСТИНА;ИСТИНА)

и нажмем сочетание клавиш <Shift>+<Ctrl>+<Enter>. В таблице 3.3 представлен результат вычислений.

Таблица 3.3 − Исходные данные и результаты вычислений

A

B

C

D

E

F

G

H

1

Исходные данные

2

Опыт

Время,с

Температура,оС

Выход,%

3

 

х1

х2

y

F-распределение

4

1

450

120

45

a

1-a

5

2

960

200

80

0,04

0,96

6

3

145

300

30

7

4

212

400

55

8

5

265

500

54

9

6

312

860

65

10

Предельные значения

11

Мин

145

120

 

12

Макс

960

860

 

13

Уравнение регрессии

14

0,039

0,057

17,21

Оценка достоверности

коэффициентов

15

 

0,014

0,013

9,33

2,75

4,52

1,84

16

 

0,88

7,69

#Н/Д

b

b

b

17

 

10,77

3,00

#Н/Д

0,07

0,02

0,16

18

 

1273,52

177,31

#Н/Д

1-b

1-b

1-b

19

 

#Н/Д

#Н/Д

#Н/Д

0,93

0,98

0,84

Смысл полученных величин, описывающих уравнение регрессии, понятен из таблицы 3.4. Искомое уравнение регрессии имеет вид

y = 17,21 + 0,057  x1 + 0,039  x2

Не будем, однако, забывать, что приведенное уравнение регрессии справедливо только в пределах указанных минимальных и максимальных значений температуры и времени, т.е. 120 < t < 860; 145 < < 960.

Величина R-квадрат (R2 = 0,88) достаточно высокая, что подтверждает достоверность наличия зависимости между выходом продукта реакции и температурой и временем.

Таблица 3.4 − Обозначения результатов вычислений

m n

M n-1

m l

b

 (m n)

 (m n-1)

 (m l)

 (b)

R2

 (g)

F расч.

df

SS reg.

SS resid.

b, m l, …, m n-1, m n – величины коэффициентов в уравнении линейной регрессии;

 (b),  (m i) – средние квадратичные отклонения полученных коэффициентов;

R2 – величина коэффициента детерминированности (достоверности аппроксимации). R-квадрат находится путем сравнения фактических значений y и значений, полученных из уравнения прямой. Величина коэффициента нормируется от 0 до 1. Если он равен 1, то имеет место полная корреляция с моделью, т.е. нет различий между фактическим и оценочным значениями y. В противоположном случае уравнение регрессии неудачно для предсказания величин y;

df – число степеней свободы, определяемое по формуле

df = k-(n+1), (3.1)

где k – число строк в таблице исходных данных (k = 6),

n – число аргументов (n = 2);

F – F-статистика или F-наблюдаемое значение. Используется для определения уровня достоверности величины R-квадрат. Для этого используется статистическая функция FРАСП, возвращающая  - вероятность того, что зависимость y от xi отсутствует, либо (1-) – вероятность того, что такая зависимость имеет место. Определим достоверность полученного коэффициента детерминированности. Для этого поместим курсор в ячейку F5 и воспользуемся функцией FРАСП (см. таблицы 3.3), где в качестве аргументов введем расчетное значение Fрасч. (ячейка B17), степень свободы 1 (равно числу аргументов n = 2) и степень свободы 2 (ячейка С17). Таким образом, вводимая функция будет иметь следующий вид:

=FРАСП(B17;2;C17)

Полученное значение =0,04, следовательно, (1-) = 0,96, что подтверждает наличие сильной зависимости выхода продукта реакции от температурного режима и времени протекания реакции.

Помимо этого, средствами MS Exсel можно выполнить оценку достоверности значений коэффициентов полученной регрессии. Для этого воспользуемся функцией СТЬЮДРАСП возвращающей вероятность для t-распределения Стьюдента и использующейся для проверки гипотез при малом объеме выборки. Прежде всего вычислим величины критерия Стьюдента для коэффициентов зависимости. Поместим курсор в ячейку F15 (см. таблицу 3.3) и найдем частное деления величины коэффициента х1 на его среднее квадратичное отклонение (ti): =B14/B15.

Подобным образом поступим для коэффициентов x2 и b (ячейки G15 и H15). Для определения -вероятности того, что значения коэффициентов не достоверны, в ячейку F17 помещаем функцию СТЬЮДРАСП с использованием в качестве аргументов ti, числа степеней свободы df (ячейка С17) и величины хвостов, равной 2 – указание на использование двухстороннего распределения Стьюдента. Таким образом, вводимая функция для коэффициента x1 будет иметь вид =СТЬЮДРАСП(F15;$C$17;2).

Распространим ее на ячейки G17 и H17, определив таким образом величину  - вероятность того, что значения полученных коэффициентов не достоверны. Находим величины 1- (см. таблицу 3.3).

Возможности функции ЛИНЕЙН реализуются также в электронных таблицах с помощью процедуры регрессии. Для ее использования m значений свойства F и для каждого из них k численных значений базисных функций fi(xj) должны быть подготовлены в виде расширенной матрицы системы линейных уравнений, где число уравнений должно быть больше числа неизвестных. Решение находится за одну операцию. Воспользуемся процедурой регрессии для решения предыдущего примера.

Решение. Используем команду меню "Сервис" − "Анализ данных" − ''Регрессия". В поле "Входной интервал Y" укажем диапазон значений выхода продукта реакции, в поле "Входной интервал X" приведем величины температуры и времени. Поле "Константа-ноль" не отмечаем для того, чтобы высчитать свободный член линейной зависимости. Для выполнения регрессии нажмем клавишу Enter или мышью кнопку "OK". Среди результатов регрессии на новом листе (см. таблицу 3.5) найдем столбец с величинами коэффициентов зависимости, оценки погрешностей коэффициентов, а также величину R-квадрат.

Для нахождения уравнения нелинейной регрессии в MS Exсel применяется функция ЛГРФПРИБЛ, которая обеспечивает получение уравнения регрессии в виде

.

Функция имеет точно такой же синтаксис, как и ЛИНЕЙН, и вычисление уравнения нелинейной регрессии ведется аналогично. Применение функции ЛГРФПРИБЛ для нахождения уравнения нелинейной регрессии дает приемлемые результаты только для возрастающих или убывающих функций. Если же статистические зависимости имеют максимум или минимум, то использование указанной функции приводит к неудовлетворительным результатам.

Таблица 3.5 − Результаты расчета с использованием процедуры