Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Нелинейное оценивание

.doc
Скачиваний:
7
Добавлен:
11.03.2015
Размер:
223.23 Кб
Скачать

Для того, чтобы определить ограничения на область изменения параметров, следует добавить к функции потерь некоторую штрафную функцию, равную нулю при допустимых значениях параметра и очень большую при недопустимых. Ниже приведен пример определенной пользователем регрессии и функции потерь, включающий наложение штрафа, если хотя бы один из параметров a или b меньше или равен нуля:

Оцениваемая функция: v3 = a + b*v1 + (c*v2) Функция потерь: L = (obs - pred)**2 + (a<0)*100000 + (b<0)*100000 Локальные минимумы. Самой неприятной проблемой при минимизации функции без ограничений являются локальные минимумы. Например, при небольшом смещении значения параметра в любом направлении функция потерь почти не изменяется. Однако если мы передвинем параметр в совершенно другую область, значение функции потерь может существенно уменьшиться. Вы можете представлять себе такие локальные минимумы как небольшие впадины на графике функции потерь. Однако в большинстве практических приложений локальные минимумы приводят к неправдоподобно большим или неправдоподобно малым значениям параметров с очень большими стандартными ошибками. В этих случаях следует задать другие начальные данные и повторить поиск минимума еще раз. Отметим также, что симплекс - метод (см. ниже) нечувствителен к таким минимумам, поэтому, он может быть использован для отыскания подходящих начальных значений для сложных функций.

Квази-ньютоновский метод. Как вы, наверное, помните, угловой коэффициент - тангенс угла наклона графика функции в конкретной точке равен производной этой функции (в этой точке), а скорость его изменения в выбранной точке равна второй производной функции в этой точке. Квази-ньютоновский метод вычисляет значения функции в различных точках для оценивания первой и второй производной, используя эти данные для определения направления изменения параметров и минимизации функции потерь.

Симплекс-метод. Этот алгоритм не использует производные функции потерь. Вместо этого, при каждой итерации функция оценивается в m+1 точках m-мерного пространства. Например, на плоскости (т.е., при оценивании двух параметров) программа будет вычислять значение функции потерь в трех точках в окрестности текущего минимума. Эти три точки определяют треугольник; в многомерном пространстве. Получаемая фигура называется симплекс. Интуитивно понятно, что в двумерном пространстве три точки позволяют выбрать “в каком направлении двигаться”, т.е., в каком направлении на плоскости менять параметры для минимизации функции. Похожие принципы применимы в многомерном параметрическом пространстве; т.е., симплекс будет постепенно “смещаться вниз по склону”, в сторону минимизации функции потерь; если же текущий шаг окажется слишком большим для определения точного направления спуска, (т.е., симплекс слишком большой), процедура произведет уменьшение симплекса и продолжит вычисления.

Дополнительное преимущество симплекс-метода в том, что при нахождении минимума симплекс снова увеличивается для проверки: не является ли этот минимум локальным. Таким образом, симплекс движется по поверхности по направлению к минимуму функции подобно простому, одноклеточному, организму, уменьшаясь и увеличиваясь при обнаружении локальных минимумов и “гребней”.

Метод Хука-Дживиса. В некотором смысле, это простейший из всех алгоритмов. При каждой итерации метод сначала определяет схему расположения параметров, оптимизируя текущую функцию потерь перемещением каждого параметра по отдельности. При этом вся комбинация параметров сдвигается на новое место. Это новое положение в m-мерном пространстве параметров определяется экстраполяцией вдоль линии, соединяющей текущую базовую точку с новой точкой. Размер шага этого процесса постоянно меняется для попадания в оптимальную точку. Этот метод обычно очень эффективен и его следует использовать, если квази-ньютоновский и симплекс-метод (см. выше) не дали удовлетворительных оценок.

Метод Розенброка. Даже если все остальные методы не сработали, метод Розенброка часто приводит к правильному результату. Этот метод вращает пространство параметров, располагая одну ось вдоль “гребня” поверхности (этот метод также называется метод вращения координат), при этом все другие остаются ортогональными выбранной оси. Если поверхность графика функции потерь имеет одну вершину и различимые “гребни” в направлении минимума функции потерь, этот метод приводит к очень точным значениям параметров, минимизирующим функцию потерь. Однако следует отметить, что этот поисковый алгоритм остановится преждевременно, если на область значений параметров наложены несколько ограничений (отражающихся в штрафном значении; см. выше), которые пересекаются, приводя к обрыванию “гребня”.

Матрица Гессе и стандартные ошибки. Матрицу частных производных второго порядка также часто называют матрицей Гессе. Оказывается, что обратная к ней матрица приблизительно равна матрице ковариаций оцениваемых параметров. Интуитивно понятно, что существует обратная зависимость между производными второго порядка по параметрам и их стандартными ошибками. Если изменить угловой коэффициент в точке минимума функции и сделать минимум функции более “резким”, то производные второго порядка увеличатся; при этом, оценки параметров будут практически стабильными в смысле, что параметры в точке минимума будут легко уточняемы. Если же производная второго порядка будет близка к нулю, то угол наклона в точке минимума будет практически неизменным, приводя к тому, что вы можете двигать параметры практически в любом направлении почти не изменяя значение функции потерь. Поэтому стандартные ошибки параметров будут очень большими.

Матрица Гессе и асимптотические стандартные ошибки для параметров вычисляются отдельно методом конечных разностей. Эта процедура возвращает очень точные асимптотические стандартные ошибки для всех методов оценивания.

Оценивание пригодности модели

После оценивания регрессионных параметров, существенной стороной анализа является проверка пригодности модели в целом. Например, если вы определили линейную регрессионную модель, а реальная зависимость переменных по своей природе нелинейна, то оценки параметров (коэффициентов регрессии) и оценки стандартных ошибок этих приближений могут оказаться совершенно неудовлетворительными. Рассмотрим некоторые методы проверки пригодности модели.

Объясненная доля дисперсии. Вне зависимости от рассматриваемой модели, мы всегда можем оценить полную дисперсию зависимой переменной (полную сумму квадратов - total sum of squares, SST), долю дисперсии, приходящейся на остатки (сумму квадратов ошибок - error sum of squares, SSE), и долю дисперсии относительно регрессионной модели (сумму квадратов относительно регрессии - regression sum of squares, SSR = SST - SSE). Отношение суммы квадратов относительно регрессии к полной сумме квадратов (SSR/SST) обозначается термином объясненная доля дисперсии зависимой переменной (y) в регрессионной модели. Таким образом, эта доля эквивалентна значению R-квадрат (0 R-квадрат 1, так называемому квадрату смешанной корреляции (коэффициенту определенности- coefficient of determination в англоязычной литературе)). Даже если распределение зависимой переменной не является нормальным, это отношение помогает оценить, насколько хорошо подобранная модель согласуется с исходными данными.

Критерий согласия хи-квадрат. Для регрессионных моделей пробит и логит, Нелинейное оценивание использует оценивание по методу максимума правдоподобия (т.е. максимизирует функцию правдоподобия). Но оказывается, что можно непосредственно сравнить правдоподобие L0 нулевой модели, где все параметры наклона равны нулю, с правдоподобием L1 подогнанной модели. А именно, можно вычислить значение статистики хи-квадрат для нашего отношения по формуле:

Хи-квадрат = -2 * (log(L0) - log(L1))

Число степеней свободы для этого значения хи-квадрат равно разности числа параметров для подогнанной и числа параметров для нулевой моделей, поэтому число степеней свободы будет равно числу независимых переменных в подогнанной логит или пробит регрессии. Если p-уровень, соответствующий этому значению хи-квадрат, является значимым, то вы можете сказать, что оцениваемая модель значительно лучше соответствует данным, чем нулевая модель, т.е. параметры регрессии статистически значимы.

График наблюдаемых и предсказанных значений. При проведении исследований часто полезным бывает использование диаграммы рассеяния наблюдаемых и предсказанных значений. Если модель хорошо соответствует данным, можно ожидать, что точки расположатся вдоль прямой линии, если же модель задана неправильно, то полученная из точек на графике фигура будет мало похожа на прямую линию.

Нормальный и полунормальный графики остатков. Нормальный вероятностный график остатков показывает насколько распределение остатков (ошибок) близко к нормальному.

График функции подгонки. Для моделей, включающих две или три переменные (один или два предиктора) полезно строить функцию подгонки с использованием окончательных оценок параметров. Посмотрите на пример 3М графика с двумя предикторными переменными:

Этот тип графика предоставляет хорошую возможность проверить, подходит ли модель к данным или нет, и где расположены явные выбросы. Ковариационная матрица оценок параметров. Если подобранная модель сильно отличается от реальной, или процедура оценивания “застряла” на локальном минимуме, ошибки для оценок параметров могут получиться очень большими. Это означает, что как бы мы не меняли конечные значения параметров, полученная в результате функция потерь практически не изменится. Кроме того, параметры могут оказаться сильно коррелированными. Это говорит о том, что некоторые параметры излишни. Поэтому изменение функции потерь при изменении оценивающим алгоритмом полученного значения одного параметра может быть практически скомпенсировано перемещением другого параметра и изучение совместного влияния этих параметров на функцию потерь оказывается излишним.