- •Содержание
- •Введение
- •Основы регрессии и её связь с физическим смыслом эксперимента
- •Линейные и нелинейные регрессионные модели
- •Проблема оценки нелинейной регрессионной модели
- •Проблема данных в регрессионных моделях
- •Доверительные интервалы в нелинейной регрессионной модели
- •Заключение
- •Список литературы
Проблема оценки нелинейной регрессионной модели
Нахождение оценок неизвестных параметров модели - это только половина работы. Необходимо также и интерпретировать полученные результаты, то есть вычислить точность оценок (стандартные отклонения, ковариации), проверить качество подгонки (проверить статистические гипотезы) и построить доверительные интервалы. Классическая теория линейной регрессии дает простые решения для всех этих задач. В случае нелинейной регрессии соответствующая теория разработана еще недостаточно. Здесь мы сталкиваемся с дилеммой: либо использовать линейное приближение, либо применять методы статистического моделирования. Первый вариант прост в вычислениях, но не гарантирует точных результатов. Второй вариант дает очень точные результаты, но требует длительного времени для выполнения. Новый подход к учету нелинейности регрессионных оценок заключается в построении доверительных интервалов, оценки степени нелинейности, который отличается от известных тем, что в нем моделируются не исходные данные, а оценки параметров. Притом, что этот метод дает ту же точность, что и традиционное статистическое моделирование, он примерно в 1000 раз быстрее. Важность решения задачи доверительного оценивания объясняется тем, что основное предназначение содержательных, нелинейных моделей это прогнозирование на условия, значительно отличающиеся от условий эксперимента. Хорошо известно, что при такой экстраполяции ошибка предсказания резко возрастает. Поэтому правильное определение границ доверия необходимо для принятия практически важных решений при прогнозе.
Проблема данных в регрессионных моделях
Простота тривиального выбора линейной модели иллюзорна, так как эти модели всегда имеют большое число неизвестных параметров. Такая избыточность описания приводит к тому, что все эти параметры невозможно оценить и задача становится мультиколлинеарной.
Мультиколлинеарность означает вырожденность регрессионной информационной матрицы. Такая проблема встречается и в нелинейной регрессии, но ее интерпретация совершенно другая. Это похоже на классический спор между пессимистом и оптимистом эта бутылка наполовину пуста или наполовину полна? Линейный анализ представляет оптимистическую точку зрения. В нем всегда предполагается, что модель слишком полна, так что необходимо сократить число параметров любыми способами. С другой стороны, в нелинейной модели, как правило, нет лишних параметров, так как все эти параметры продиктованы природой исследуемого процесса. Вот почему при использовании НЛРА мы выбираем пессимистическую точку зрения и предполагаем нехватку экспериментальных данных.
Доверительные интервалы в нелинейной регрессионной модели
Основное назначение нелинейной, содержательной регрессии - это прогнозирование, поэтому главной проблемой, является построение правильных доверительных интервалов при экстраполяции значений отклика.
Уравнение нелинейной регрессии в общем виде выглядит, как линейной регрессии, дополненной весами при параметрах, которые и необходимо оценить.
Рис. 1
Общий вид уравнения нелинейной регрессии
Наиболее удобно представлять результат прогноза в виде доверительного интервала. Существует два подхода к нахождению таких интервалов: аналитический (или параметрический) и выборочный (или непараметрический). Первый подход использует некоторую достаточную статистику с известным законом распределения. Его можно применять только в сравнительно простых случаях, например, для линейной регрессии. Второй способ требует наличия большого количества повторных измерений, по которым требуемый интервал и строится как соответствующий процентиль. К сожалению, для нелинейной регрессии ни один из этих подходов не годится, т.к. первый слишком неточен, а второй слишком медленен.
Новый способ, отличный от традиционных методов наименьших квадратов и максимального правдоподобия, доверительного оценивания, называется связанное моделирование, который является разновидность метода Монте-Карло, понимаемого в широком смысле.
Метод Монте-Карло (методы Монте-Карло, ММК) — общее название группы численных методов, основанных на получении большого числа реализаций стохастического (случайного) процесса, который формируется таким образом, чтобы его вероятностные характеристики совпадали с аналогичными величинами решаемой задачи.
Имитационное моделирование (M-метод)
Традиционные методы построения доверительного интервала опираются на довольно грубые приближения вида распределения оценок параметров α и прогнозируемой функции g(a). Избежать этих недостатков, можно используя методы имитационного моделирования. Основная идея этих методов состоит в том, чтобы смоделировать с помощью метода Монте-Карло распределение оценок параметров и взять выборочный процентиль распределения в качестве доверительного интервала.
Пусть a0 и s^2 - это реализации оценок, полученные в эксперименте, т.е. при y=y0.
α*, γ* - случайные величины, порожденные моделью, причем γ*g(α*)
Практически это означает следующий алгоритм:
1) по исходным данным y0 определяются величины a0 и s^2
2) строится нормальный независимый вектор ошибок
3) создаются модельные данные
4) оцениваются α* и γ*
5) независимо повторяя шаги 2)-4) получаем выборку значений γ1*,...,γM*
Тогда граница интервала рассчитывается как:
γ+(P)= P-процентиль{γ1*,...,γM*}
