- •1.3. Расчет доверительного интервала
- •1.6. Проверка гипотезы об однородности
- •1.7. Проверка однородности нескольких дисперсий,
- •1.8. Проверка однородности нескольких дисперсий,
- •3. ОСНОВНЫЕ ПОНЯТИЯ И ЗАДАЧИ
- •ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ
- •3.1. Активные и пассивные, однофакторные
- •4.1. Основные виды математических моделей,
- •4.2. Метод наименьших квадратов для моделей
- •4.3. Метод наименьших квадратов для многофакторных
- •4.4. Об интервале съема данных и продолжительности
- •4.6. Пример обработки результатов экспериментальных
- •1.2. Статистические оценки результатов наблюдений
- •1.4. Определение необходимого объема выборки
- •1.5. Отбрасывание сомнительных наблюдений
- •1.9. Проверка однородности средних
- •1.10. Проверка нормальности распределения
- •1.11. Коэффициент корреляции
- •1.12. Ранговая корреляция
- •3.1. Активные и пассивные, однофакторные
- •3.2. Основные задачи планирования эксперимента
- •4.2. Метод наименьших квадратов для моделей
- •Случай линейной регрессионной модели с k варьируемыми факторами. Регрессионная модель здесь имеет вид (4.2). Значения факторов, принимаемые в каждом опыте, можно свести в табл. 4.3.
- •Обобщение МНК на случай регрессионных моделей произвольного вида, линейных по параметрам. Рассмотренное выше обобщение МНК применимо и для регрессионных моделей произвольного вида при условии, что коэффициенты регрессии входят в них линейно. Так, модель
- •4.5. Статистический анализ уравнения регрессии
- •Изучим сначала случай отсутствия дублированных опытов в основном эксперименте.
- •Последовательность действий исследователя при проведении эксперимента с целью построения регрессионной модели объекта.
- •7. КОНТРОЛЬНОЕ ЗАДАНИЕ
- •СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
6 |
6 |
|
6 |
6 |
B0 ∑X02j + B1 |
∑X0 j X1 j + B11 ∑X0 j X12j = ∑X0 j y j ; |
|||
j=1 |
j=1 |
|
j=1 |
j=1 |
6 |
|
6 |
6 |
6 |
B0 ∑X1 j X0 j + B1 |
∑X12j + B11 |
∑X13j = ∑X1 j y j ; |
||
j=1 |
|
j=1 |
j=1 |
j=1 |
6 |
|
6 |
6 |
6 |
B0 ∑X12j X0 j + B1 |
∑X13j + B11 |
∑X14j = ∑X12j y j . |
||
j=1 |
|
j=1 |
j=1 |
j=1 |
Решив систему, найдем значения коэффициентов регрессии: В0 = = 0,225; В1 = 0,0193; В3 = 0,000125. Отсюда искомая модель имеет
вид: y = 0,225 + 0,0193Х 1+ 0,000125 X12 .
Для иллюстрации в последнем столбце табл. 4.8 приведены значения отклика ŷ, рассчитанные по уравнению регрессии для каждого опыта.
Обобщение МНК на случай регрессионных моделей произвольного вида, линейных по параметрам. Рассмотренное выше обобщение МНК применимо и для регрессионных моделей произвольного вида при условии, что коэффициенты регрессии входят в них линейно. Так, модель
y = B0 + B1eX1 + B2 sin1 X 2 + B3 (X32 +1)+ B4
X 4
легко сводится к линейному случаю введением новых факторов
X1' = eX1 ; X2' = sin1 X2 ; X3' = X32 +1; X4' =1
X4 .
В результате имеем линейную модель с четырьмя факторами y = B0 + B1 X1 + B2 X 2 + B3 X3 + B4 X 4 .
Таким образом, сначала ставится эксперимент по некоторому плану. Далее по общему правилу составляют матрицу базисных функций, приведенную в табл. 4.9. На ее основе записывают и решают систему нормальных уравнений с четырьмя неизвестными
В0, В1, В2, В3 .
Рассмотрим некоторые примеры. Зависимость видового числа y от коэффициента формы Х и высоты ствола дерева h отыскивается
в виде y = B + B X 2 |
+ B |
(Xh). Заменой X |
1 |
= X 2 |
; |
X |
2 |
=1 |
(Xh) эта |
|
0 |
1 |
2 |
|
|
|
|
|
|
||
зависимость сводится к линейной зависимости вида y = B0 + B1 X1 + B2 X 2 .
72
Таблица 4.9
Матрица базисных функций
Номер |
X 0 |
' |
X |
|
' |
1 |
' |
2 |
' |
опыта |
X1 −e |
|
1 |
X2 |
= sin X2 |
X3 |
= X3 +1 |
X4 =1 X4 |
|
1 |
Х01 |
eX11 |
|
|
sin1 X21 |
|
X312 +1 |
1 X41 |
|
2 |
Х02 |
eX12 |
|
|
sin1 X22 |
X322 +1 |
1 X42 |
||
... |
… |
... |
|
|
|
... |
|
... |
... |
|
|
|
|
|
|
|
|
||
N |
X0N |
eX1N |
|
|
sin1 X2N |
X32N +1 |
1 X4N |
||
Другой пример. Для вычисления объема ствола дерева V применяется формула
V = B0 + B1 fd 2h,
где f – видовое число; d – диаметр дерева на высоте груди; h – высота ствола. Замена X1 = fd 2h сводит этот случай к линейной од-
нофакторной модели.
Расчет коэффициентов регрессии, как правило, осложняется, если они входят в уравнение регрессии нелинейно. Например, применение метода наименьших квадратов для модели вида
y = B0 + B1 X1 + B2eB3 X 2
представляет сложную задачу. Следуя идее метода наименьших квадратов, нетрудно выписать функцию, минимизирующую сумму квадратов отклонений, взять от нее производные по Вi и приравнять их нулю. Но полученная система уравнений линейной уже не будет, а значит, для решения ее надо выбирать специальные методы.
Однако в ряде случаев модели, нелинейные по параметрам, сводят к линейным с помощью простых преобразований. Так, в теории тепломассообмена широко применяются эмпирические формулы в виде произведения степенных функций
y = B0 X1B1 X 2B2 X 3B3 ...X kBk .
73
Применение ЭВМ для расчета коэффициентов регрессион-
ной модели. Систему уравнений (4.18) можно решить вручную, без применения компьютерных программных средств, если число неизвестных в ней не более трех. В математическом обеспечении компьютера имеются стандартные программы регрессионного анализа и статистической обработки экспериментальных данных, которые позволяют получать уравнения регрессии, не вникая в алгоритм и его программной реализации, для многофакторных моделей. Однако для качественного анализа построения уравнения регрессии с целью применения его для прогнозирования, определения роли различных факторов, оптимизации процесса исследования объектов и т.д. целесообразно рассмотреть алгоритм численной реализации решения системы уравнений для многофакторной модели.
Запишем систему нормальных уравнений в матричной форме [6]. Все выкладки справедливы для натуральных и нормализованных обозначений факторов. Пусть поставлен эксперимент согласно матрице плана в табл. 4.3. Поскольку применение МНК для моделей в виде многочленов любого порядка сводится к линейному случаю, обратимся к линейной модели (4.17) и матрице базисных функций в табл. 4.4.
Перепишем данные из табл. 4.4 в виде матрицы. Термин «матрица» употребляется здесь уже в математическом смысле – как таблица из идентификаторов или цифр, содержащая в общем случае n строк и m столбцов:
|
X |
01 |
... |
X |
01 |
|
|
|
... |
|
|
||
X = ... |
... |
. |
||||
|
X 0N |
... |
|
|
|
|
|
X kN |
|||||
Приведенная матрица базисных функций (см. табл. 4.4) имеет размер N×(k + 1). Результаты эксперимента также выпишем в от-
y1y2
дельный столбец: Y = y3 .
...
yN
74
Аналогично можно выписать в отдельный столбец искомые ко-
B0
B1
эффициенты регрессии: B = B2 .
...
Bk
Столбец, а также строку можно считать частным случаем матрицы. Так, столбец Y можно рассматривать как матрицу размеров
N ×1 а столбец B – как матрицу размеров (k +1)×1.
Оперируя введенными терминами, можно сказать, что определение коэффициентов регрессии по результатам эксперимента эквивалентно нахождению столбца В по известной матрице Х и столбцу Y. Согласно [6]
B = (X T X )−1 X T Y. |
(4.20) |
Таким образом, согласно формуле (4.20) для вычисления столбца коэффициентов регрессии B надо выполнить следующие операции: транспонировать матрицу Х; полученную в результате матрицу ХТ следует умножить на матрицу Х; от полученной матрицы ХТХ взять обратную; найденную матрицу (ХТХ)-1 надо умножить на ХТ, а результат – на столбец Y .
4.4. Об интервале съема данных и продолжительности пассивного эксперимента
При проведении пассивного эксперимента и, в частности, в процессе мониторинга окружающей среды (загрязнения атмосферы) возникает вопрос об интервале съема данных и необходимости продолжительности всего эксперимента. Обозначим через t временной интервал между последовательными измерениями выходной величины эксперимента. В предположении, что изменения исследуемой выходной величины y во времени представляют собой стационарный случайный процесс, интервал t съема данных можно определить из условия некоррелированности наблюдений.
75
Для расчета t надо иметь диаграмму изменений y за некоторое время t. По ней подсчитывают число F пересечений диаграммой линии среднего значения y за время t. Вычисляют среднее число пересечений за единицу времени по формуле f0 = F
t Тогда иско-
мую величину интервала t съема данных отыскивают из условия
[4]:
t ≥ 2 f0 . |
(4.21) |
Считается, что для определения f0 достаточно взять интервал времени t, в течение которого получено F = 40 – 70. Нецелесообразно выбирать величину t , превышающую значение 2/f0 из-за возможных изменений внешних условий, параметров объекта и т.п.
При оценке времени наблюдения над выходной величиной, т.е. продолжительности пассивного эксперимента, предлагается руководствоваться требованием, чтобы за это время наблюдаемая переменная успела пройти весь диапазон своего изменения с некоторой заданной вероятностью P. Предположим, что весь диапазон у изменения выходной величины разбит на ряд одинаковых интервалов в соответствии с разрешающей способностью измерительного прибора, и известна вероятность ν попадания величины y в верхний и нижний интервал диапазона. Величину ν берут обычно из отчетных данных. Продолжительность эксперимента Т определяется по формуле
|
T =λΔt ν, |
(4.22) |
где t – интервал съема данных; λ – параметр, |
определяемый в |
|
зависимости |
от заданной вероятности Р |
по формуле |
λ = −ln(1− |
P) . Укажем, что для типичных значений Р = 0,95, |
|
λ = 3,68 ; для Р = 0,99, λ = 5,3.
Пример. Контроль электромагнитного излучения антропогенного источника регистрируется самописцем графически на диаграммной бумаге. Диапазон изменения регистрируемой величины (напряженность поля, В/м) составляет от 20 до 100 В/м. Требуется определить время продолжительности наблюдения (эксперимента) и временного интервала измерения напряженности поля антропогенного источника.
76
