Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
1matematicheskoe_planirovanie_eksperimentov_v_ekologii / Математическое планирование экспериментов в экологии.doc
Скачиваний:
26
Добавлен:
19.11.2019
Размер:
562.18 Кб
Скачать

Лекция 14.

Регрессионный анализ. Градуировка.

Проведение количественного анализа, как правило, включает в себя построение градуировки, т.е. находждение градуировочной функции экспериментальным путем. Для этого измеряется аналитический сигнал для серии образцов сравнения, в результате получается массив данных: {xi,yi}, где x - содержание определяемого компонента, y - аналитический сигнал. На плоскости каждое измерение можно представить точкой:

Градуировочная функция y = f(x) определяется методами регрессионного анализа. Прямо через точки проводить ломаную и считать ее градуировочной функцией нельзя, т.к. измеряемый сигнал содержит погрешность.

Т.о. необходимо: 1) доопределить функцию (между точками) 2) минимизировать погрешность и 3) выбрать вид зависимости.

Вид функции зависимости выбирается исходя из внешней информации (расположения точек на плоскости) и из общих соображений относительно физических и химических законов, связывающих аналитический сигнал с содержанием определяемого компонента (например, построение градуировки в спектрофотометрии опирается на закон Бугера-Ламберта-Бера). Наиболее часто используется линейная зависимость.

Обозначим k - число параметров градуировочной функции, n - число измерений. Мы получаем систему уравнений:

Рассмотрим различные варианты соотношений n и k:

1) n < k - данных недостаточно. Необходимо провести больше измерений или упростить модель - уменьшить число параметров.

2) n = k - у системы единственное точное решение. Однако в этом случае нельзя оценить погрешность измерения

3) n > k - система уравнений несовместна и не имеет точного решения. Существует бесконечное множество приближенных решений, возникает задача аппроксимации.

На практике наиболее распространен 3-й случай. Рассмотрим его более подробно на примере линейного регрессионного анализа (т.е. градуировочная зависимость имеет линейный вид y = ax + b, определяется двумя параметрами a и b, k = 2).

Необходимо найти a и b такие, чтобы погрешность была минимальной.

Один из наиболее распространенных методов нахождения параметров линейной зависимости - метод наименьших квадратов, МНК

Предпосылки МНК: 1) Погрешность аргумента (x) пренебрежимо мала по сравнению с погрешностью y 2) Погрешность y постоянна (не зависит от x) - постулат равноточности (в условиях реального эксперимента погрешность обычно растет с ростом y) 3) Данные подчиняются нормальному закону распределения 4) Данные независимы, коэффициент корреляции r(yi,yj) = 0 5) Отклонение градуировочной функции от экспериментальных данных минимально. В рамках метода наименьших квадратов минимизируется величина , где Yi - величина аналитического сигнала, рассчитанная по уравнению Y = ax + b, yi - экспериментальная величина аналитического сигнала

С учетом всех предпосылок получаются следующие выражения для a и b:

О том, как оценивается погрешность градуировки, а также погрешность связанных с ней вычислений, читайте в следующих лекциях.

(назад)

Лекция 15.

Погрешность градуировки

В предыдущей лекции были рассмотрены основы построения градуировочной модели. Было отмечено, что измеряемый сигнал содержит погрешность, следовательно, параметры градуировочной модели, а также результаты анализа, полученные с использованием этой модели, также будут содержать погрешность.

Для оценки погрешности в регрессионном анализе вводится понятие дисперсии адекватности (или остаточной дисперсии). Это дисперсия относительно регрессионной модели:

,

где y - экспериментальное значение аналитического сигнала, Y - рассчитаное по уравнению градуировки значение аналитического сигнала, n - число измерений, k - число параметров модели (для линейной градуировки k=2)

Нетрудно заметить, что при построении градуировки методом МНК дисперсия адекватности будет минимальной.

Остаточная дисперсия позволяет оценить адекватность градуировочной модели. Для этого необходимо сравнить дисперсию адекватности и дисперсию воспроизводимости (дисперсию аналитического сигнала для одного образца при серии параллельных измерений) по критерию Фишера:

Возможны три случая: 1) - говорит о том, что выбранная модель плохая. Нужно больше параметров. 2) - означает, что модель "слишком хорошая", перепараметризация. Нужно уменьшить число параметров, т.к. модель описывает еще и погрешность. 3) Различие незначимо - хорошая модель. Если существует несколько хороших моделей, выбирают самую простую. При этом можно усреднить дисперсию адекватности и дисперсию воспроизводимости (с учетом числа степеней свободы) и получить общую дисперсию S2(y), которая будет служить оценкой случайной погрешности модели.

Далее необходимо оценить погрешность коэффициентов модели. Поскольку они расчитываются линейным преобразованием, то они подчиняются нормальному закону распределения. Для расчета соответствующей дисперсии необходимо воспользоваться законом распространения погрешности:

если f = f(x1, x2 ... xn), то

- при условии, что аргументы xi не коррелируют между собой.

В данном случае это условие выполняется (это одна из предпосылок МНК), поэтому, применив закон распространения погрешности к формулам для коэффициентов линейной модели a и b, получим следующие выражения:

Далее необходимо проверить, значимы ли коэффициенты a и b - т.е. проверить по критерию Стьюдента, значимо ли отличие коэффициентов от нуля.

Если коэффицент b незначимо отличается от нуля, то необходимо его отбросить, перейти к модели y = ax и заново пересчитать уравнение градуировки, дисперсию адекватности и т.д.

Если коэффицент a незначимо отличается от нуля, то это фактически говорит о том, что аналитический сигнал не связан с концентрацией, либо погрешность измерения настолько велика, что на ее фоне невозможно выделить взаимосвязь определяемого содержания и аналитического сигнала. Градуировку в данном случае построить нельзя. Нужно или увеличить число измерений и повторить расчеты, или выбрать другой метод.

Но, как правило, коэффициенты a и b не интересуют аналитика сами по себе. Необходимо расчитать погрешность определения с использованием данной градуировки. При этом возникают два типа задач:

Прямая регрессионная задача. Дано значение x, необходимо оценить соответствующее значение Y и погрешность Y.

Вычисления проводятся по следующей формуле:

где (средняя абсцисса всех точек градуировки)

Необходимо отметить следующий факт: S2(Y) - разная, а S2(y) предполагали одинаковой. Особенно велика погрешность за пределами градуировочного графика, т.е. нужно по возможности так выбирать образцы сравнения, чтобы градуировочный график покрывал весь диапазон определяемых содержаний.

Обратная регрессионная задача. Наиболее практически значимый тип задач - по измеренному значению y рассчитать соответствующее значение X и оценить его погрешность:

где m - число параллельных измерений,

В приведенной формуле первое слагаемое учитывает погрешность a, второе - вклад погрешности параллельных измерений y, третье - погрешность b.

(назад)