Скачиваний:
106
Добавлен:
01.05.2014
Размер:
2.76 Mб
Скачать

5.8.4. Процедура Видроу - Хоффа

Ранее было отмечено, что функциюJs(а)=||Уа-b||2 можно минимизировать при помощи процедуры градиентного спуска. У такого подхода есть два преимущества по сравнению с простым выполнением псевдообращения: 1) не возникает трудностей в случае, когда матрица YtY вырождена, и 2) устраняется необходимость работы с большими матрицами. Кроме того, необходимые вычисления здесь с успехом реализуются схемой с обратной связью, которая автомати­чески справляется с некоторыми вычислительными трудностями, округляя или отбрасывая члены. Поскольку Js,=2Yt(Ya - b), то, очевидно, что алгоритм спуска может быть представлен в следующем виде:

Будет полезно убедиться, что если

гдеi - любая положительная константа, то с помощью данного правила можно образовать последовательность весовых векторов, которая сходится к предельному вектору а, удовлетворяющему условию

Таким образом, алгоритм спуска всегда дает решение независимо от того, будет ли матрицаYtY вырожденной или нет.

Несмотря на то что матрица YtY размера обычно меньше матрицыY размера n, сохранившиеся требования могут быть еще далее снижены при последовательном рассмотрении выборок и использовании правила Видроу Хоффа, записанного в виде

На первый взгляд алгоритм спуска представляется таким же, как правило релаксаций. Однако главное их различие состоит в том, что правило релаксаций является правилом коррекции ошибок, так чтоаtkуk всегда меньше bk, тогда как правило Видроу — Хоффа обеспечивает «коррекцию» вектора аk всякий раз, когда аtkуk не равно bk. В большинстве случаев, представляющих интерес, невозможно удовлетворить всем равенствам аtуk =bk так что процесс коррекций будет непрекращающимся. Таким образом, для сходимости требуется, чтобы k уменьшалось вместе с k, выбор k =i /k является типичным. Строгий анализ поведения правила Видроу— Хоффа для детерминированного случая довольно сложен и показывает лишь, что последовательность весовых векторов имеет тенденцию сходиться к требуемому решению. Вместо дальнейшего разбора этой темы обратимся к очень простому правилу, вытекающему из процедуры стохастического спуска.

5.8.5. Методы стохастической аппроксимации

Все итеративные процедуры спуска, рассмотренные ранее, были детерминированными: задавали некоторое множество выборок и образовывали вполне определенную последовательность весовых векторов. В данном пункте придется слегка отступить и рассмотреть процедуры решения по методу наименьшей квадратичной ошибки со случайно формируемыми выборками, что приводит к образова­нию случайной последовательности весовых векторов. Для полного анализа потребовалось бы использование теории стохастической аппроксимации, и мы бы с этим не справились. Однако основные идеи, которые можно дать без доказательства, просты.

Предположим, что выборки взяты независимо путем выделения состояний природы с вероятностью Р(ωi) и последующего выбора х в соответствии с вероятностным законом р(х| ωi). Для каждого х введем метку z, такмо, что z =+1 при х, соответствующем ωi ,z=-1 при х, соответствующем ω2. Тогда данные будут представлять собой бесконечную последовательность независимых пар(x1, z1), (x2, z2), … (xk, zk)

Даже если меткаz будет бинарной, это может быть истолковано как зашумленный вариант байесовской разделяющей функции g0(х). Данное утверждение вытекает из наблюдения, что

так что условное среднее для z задается выражением

Предположим, что требуется аппроксимироватьg0(х) посредством следующего конечного разложения в ряд:

где известны как базисные функции yi(х), так и число членов . Тогда можно определить весовой вектор â, минимизирующий среднеквадратичную ошибку аппроксимации

Для минимизацииε2 необходимо знать байесовскую разделяющую функцию go(х). Однако, исходя из аналогичной ситуации, рассмотренной в п.5.8.3, можно показать, что весовой вектор â, минимизирующий ε2,также минимизирует функцию критерия, имеющую вид

Данное заключение также должно следовать из того факта что,z по существу, является зашумленным вариантом g0(х) (рис. 5.11). Поскольку

то можно получить решение в замкнутой форме

Таким образом, один из способов, основанный на использовании выборок, состоит в оценке Е[ууt] и Е[zy] и применении выражения (51) с целью получения оптимальной линейной разделяющей функции. Другой метод заключается в минимизации Jm(а) путем

Рис. 5.11.Аппроксимация байесовской разделяющей функции.

применения процедуры градиентного спуска. Допустим, что вместо действительного градиента подставлено выражение для зашумленного варианта 2(аtуk-zk) уk. Это приведет к алгоритму спуска следующего вида:

который, по существу, представляет собой правило Видроу — Хоффа. Можно показать, что если матрица Е [ууt] не вырождена и коэффициенты ρk удовлетворяют условиям

тоаk сходится к â в среднеквадратичном:

Причины наложения данных условий на ρk просты. Первое условие не позволяет весовому вектору сходиться настолько быстро, чтобы систематическая ошибка оставалась бы нескорректированной. Второе условие обеспечивает то обстоятельство, что случайные колебания в конечном счете гасятся. Оба условия удовлетворяются при соответствующем выборе ρk=1/k. К сожалению, такой вид убывания ρk независимо от рассматриваемой задачи часто приводит к очень медленной сходимости.

Конечно, указанный алгоритм не единственный и не лучший алгоритм спуска для минимизации Jm. Например, если матрицу вторых частных производных для Jm задать следующим образом:

то можно видеть, что алгоритм Ньютона для минимизации Jm [формула (11)] имеет вид

Стохастическим аналогом данного алгоритма является

или, что эквивалентно2

С помощью данного алгоритма также образуется последовательность весовых векторов, сходящихся к оптимальному решению в среднеквадратичном. В этом случае последовательность сходится быстрее, однако требуется выполнение большего количества вычислений за шаг.

Указанные градиентные процедуры могут рассматриваться как методы минимизации функции критерия, или определения нуля ее градиента, в присутствии помех. В литературе по статистике такие функции, как Jm и Jm вида Е |f(а, х)|, называются регрессионными функциями, а итерационные алгоритмы называются процедурами стохастической аппроксимации. Наиболее известными из них является процедура Кифера — Вольфовица, применяемая для минимизации регрессионной функции, и процедура Роббинса — Монро, используемая для определения корня регрессионной функции. Зачастую легче всего доказать сходимость процедуры спуска или процедуры аппроксимации, показав, что она удовлетворяетусловиям сходимости более общих процедур. К сожалению, представление данных методов в полном объеме завело бы нас довольно далеко, и в заключение мы можем лишь посоветовать интересующимся читателям, обратиться к литературе.

Соседние файлы в папке Анализ и интерпретация данных