Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

Анализ и интерпретация данных / Глава_5.DOC

Скачиваний:

106

Добавлен:

01.05.2014

Размер:

2.76 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1911 12 13 14 15 16 17 18 19 > Следующая >>>

5.8.4. Процедура Видроу - Хоффа

Ранее было отмечено, что функциюJs(а)=||Уа-b||² можно минимизировать при помощи процедуры градиентного спуска. У такого подхода есть два преимущества по сравнению с простым выполнением псевдообращения: 1) не возникает трудностей в случае, когда матрица Y^tY вырождена, и 2) устраняется необходимость работы с большими матрицами. Кроме того, необходимые вычисления здесь с успехом реализуются схемой с обратной связью, которая автоматически справляется с некоторыми вычислительными трудностями, округляя или отбрасывая члены. Поскольку J_s,=2Y^t(Ya - b), то, очевидно, что алгоритм спуска может быть представлен в следующем виде:

Будет полезно убедиться, что если

где_i - любая положительная константа, то с помощью данного правила можно образовать последовательность весовых векторов, которая сходится к предельному вектору а, удовлетворяющему условию

Таким образом, алгоритм спуска всегда дает решение независимо от того, будет ли матрицаY^tY вырожденной или нет.

Несмотря на то что матрица Y^tY размера обычно меньше матрицыY^† размера n, сохранившиеся требования могут быть еще далее снижены при последовательном рассмотрении выборок и использовании правила Видроу — Хоффа, записанного в виде

На первый взгляд алгоритм спуска представляется таким же, как правило релаксаций. Однако главное их различие состоит в том, что правило релаксаций является правилом коррекции ошибок, так чтоа^t_kу^k всегда меньше b_k, тогда как правило Видроу — Хоффа обеспечивает «коррекцию» вектора а_k всякий раз, когда а^t_kу^k не равно b_k. В большинстве случаев, представляющих интерес, невозможно удовлетворить всем равенствам а^tу^k =b_k так что процесс коррекций будет непрекращающимся. Таким образом, для сходимости требуется, чтобы _k уменьшалось вместе с k, выбор _k =_i /k является типичным. Строгий анализ поведения правила Видроу— Хоффа для детерминированного случая довольно сложен и показывает лишь, что последовательность весовых векторов имеет тенденцию сходиться к требуемому решению. Вместо дальнейшего разбора этой темы обратимся к очень простому правилу, вытекающему из процедуры стохастического спуска.

5.8.5. Методы стохастической аппроксимации

Все итеративные процедуры спуска, рассмотренные ранее, были детерминированными: задавали некоторое множество выборок и образовывали вполне определенную последовательность весовых векторов. В данном пункте придется слегка отступить и рассмотреть процедуры решения по методу наименьшей квадратичной ошибки со случайно формируемыми выборками, что приводит к образованию случайной последовательности весовых векторов. Для полного анализа потребовалось бы использование теории стохастической аппроксимации, и мы бы с этим не справились. Однако основные идеи, которые можно дать без доказательства, просты.

Предположим, что выборки взяты независимо путем выделения состояний природы с вероятностью Р(ω_i) и последующего выбора х в соответствии с вероятностным законом р(х| ω_i). Для каждого х введем метку z, такмо, что z =+1 при х, соответствующем ω_i ,z=-1 при х, соответствующем ω₂. Тогда данные будут представлять собой бесконечную последовательность независимых пар(x₁, z₁), (x₂, z₂), … (x_k, z_k)…

Даже если меткаz будет бинарной, это может быть истолковано как зашумленный вариант байесовской разделяющей функции g₀(х). Данное утверждение вытекает из наблюдения, что

так что условное среднее для z задается выражением

Предположим, что требуется аппроксимироватьg₀(х) посредством следующего конечного разложения в ряд:

где известны как базисные функции y_i(х), так и число членов . Тогда можно определить весовой вектор â, минимизирующий среднеквадратичную ошибку аппроксимации

Для минимизацииε² необходимо знать байесовскую разделяющую функцию g_o(х). Однако, исходя из аналогичной ситуации, рассмотренной в п.5.8.3, можно показать, что весовой вектор â, минимизирующий ε²,также минимизирует функцию критерия, имеющую вид

Данное заключение также должно следовать из того факта что,z по существу, является зашумленным вариантом g₀(х) (рис. 5.11). Поскольку

то можно получить решение в замкнутой форме

Таким образом, один из способов, основанный на использовании выборок, состоит в оценке Е[уу^t] и Е[zy] и применении выражения (51) с целью получения оптимальной линейной разделяющей функции. Другой метод заключается в минимизации J_m(а) путем

Рис. 5.11.Аппроксимация байесовской разделяющей функции.

применения процедуры градиентного спуска. Допустим, что вместо действительного градиента подставлено выражение для зашумленного варианта 2(а^tу_k-z_k) у_k. Это приведет к алгоритму спуска следующего вида:

который, по существу, представляет собой правило Видроу — Хоффа. Можно показать, что если матрица Е [уу^t] не вырождена и коэффициенты ρ_k удовлетворяют условиям

тоа_k сходится к â в среднеквадратичном:

Причины наложения данных условий на ρ_k просты. Первое условие не позволяет весовому вектору сходиться настолько быстро, чтобы систематическая ошибка оставалась бы нескорректированной. Второе условие обеспечивает то обстоятельство, что случайные колебания в конечном счете гасятся. Оба условия удовлетворяются при соответствующем выборе ρ_k=1/k. К сожалению, такой вид убывания ρ_k независимо от рассматриваемой задачи часто приводит к очень медленной сходимости.

Конечно, указанный алгоритм не единственный и не лучший алгоритм спуска для минимизации J_m. Например, если матрицу вторых частных производных для J_m задать следующим образом:

то можно видеть, что алгоритм Ньютона для минимизации J_m [формула (11)] имеет вид

Стохастическим аналогом данного алгоритма является

или, что эквивалентно^²

С помощью данного алгоритма также образуется последовательность весовых векторов, сходящихся к оптимальному решению в среднеквадратичном. В этом случае последовательность сходится быстрее, однако требуется выполнение большего количества вычислений за шаг.

Указанные градиентные процедуры могут рассматриваться как методы минимизации функции критерия, или определения нуля ее градиента, в присутствии помех. В литературе по статистике такие функции, как J_m и J_m вида Е |f(а, х)|, называются регрессионными функциями, а итерационные алгоритмы называются процедурами стохастической аппроксимации. Наиболее известными из них является процедура Кифера — Вольфовица, применяемая для минимизации регрессионной функции, и процедура Роббинса — Монро, используемая для определения корня регрессионной функции. Зачастую легче всего доказать сходимость процедуры спуска или процедуры аппроксимации, показав, что она удовлетворяетусловиям сходимости более общих процедур. К сожалению, представление данных методов в полном объеме завело бы нас довольно далеко, и в заключение мы можем лишь посоветовать интересующимся читателям, обратиться к литературе.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1911 12 13 14 15 16 17 18 19 > Следующая >>>

Соседние файлы в папке Анализ и интерпретация данных

#
01.05.20142.53 Mб114Глава_3.doc
#
01.05.20144.12 Mб108Глава_4.doc
#
01.05.20142.76 Mб106Глава_5.DOC
#
01.05.201410.78 Mб110Глава_6.DOC