Недостатки алгоритма обратного распространения ошибки

Алгоритм обратного распространения ошибки осуществляет так называемый градиентный спуск по поверхности ошибок. Не углубляясь, это означает следующее: в данной точке поверхности находится направление скорейшего спуска, затем делается прыжок вниз на расстояние, пропорциональное коэффициенту скорости обучения и крутизне склона, при этом учитывается инерция, то есть стремление сохранить прежнее направление движения. Можно сказать, что метод ведет себя как слепой кенгуру – каждый раз прыгает в направлении, которое кажется ему наилучшим. На самом деле шаг спуска вычисляется отдельно для всех обучающих наблюдений, взятых в случайном порядке, но в результате получается достаточно хорошая аппроксимация спуска по совокупной поверхности ошибок.

Несмотря на достаточную простоту и применимость в решении большого круга задач, алгоритм обратного распространения ошибки имеет ряд серьезных недостатков. Отдельно стоит отметить неопределенно долгий процесс обучения. В сложных задачах для обучения сети могут потребоваться дни или даже недели, а иногда она может и вообще не обучиться. Это может произойти из-за следующих нижеописанных факторов.

1. Паралич сети

В процессе обучения сети, значения весов могут в результате коррекции стать очень большими величинами. Это может привести к тому, что все или большинство нейронов будут выдавать на выходе сети большие значения, где производная функции активации от них будет очень мала. Так как посылаемая обратно в процессе обучения ошибка пропорциональна этой производной, то процесс обучения может практически замереть. В теоретическом отношении эта проблема плохо изучена. Обычно этого избегают уменьшением размера шага (скорости обучения), но это увеличивает время обучения. Различные эвристики использовались для предохранения от паралича или для восстановления после него, но пока что они могут рассматриваться лишь как экспериментальные.

2. Локальные минимумы

Как говорилось вначале, алгоритм обратного распространения ошибки использует разновидность градиентного спуска, т. е. осуществляет спуск вниз по поверхности ошибки, непрерывно подстраивая веса в направлении к минимуму. Поверхность ошибки сложной сети сильно изрезана и состоит из холмов, долин, складок и оврагов в пространстве высокой размерности. Сеть может попасть в локальный минимум (неглубокую долину), когда рядом имеется более глубокий минимум. В точке локального минимума все направления ведут вверх, и сеть неспособна из него выбраться. Статистические методы обучения могут помочь избежать этой ловушки, но они медленны.

3. Размер шага

Алгоритм обратного распространения ошибки имеет доказательство своей сходимости. Это доказательство основывается на том, что коррекция весов предполагается бесконечно малой. Ясно, что это неосуществимо на практике, так как ведет к бесконечному времени обучения. Размер шага должен браться конечным, и в этом вопросе приходится опираться только на опыт. Если размер шага очень мал, то сходимость слишком медленная, если же очень велик, то может возникнуть паралич или постоянная неустойчивость.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1411 12 13 14 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.202535.91 Кб0тесты.docx
#
01.07.202555.15 Кб0Тесты.менеджмент.младший специалист.docx
#
01.07.2025303.1 Кб0тесты_фил.doc
#
01.07.2025229.74 Кб0Тех. механика ДКР.docx
#
20.08.2019877.57 Кб41Технологічна карта 3.doc
#
21.11.2019829.44 Кб56Технологии искусственного интеллекта вопросы.doc
#
17.07.2019480.77 Кб40технологическая часть.doc
#
11.11.2019114.69 Кб32Тимченко СУм 4.doc
#
16.03.201622.36 Кб129Типология Мак-Вильямс.docx
#
16.03.201667.58 Кб205Типология политических режимов.doc
#
01.05.2025125.44 Кб8ТИПЫ И МЕТОДЫ ОРГАНИЗАЦИИ ПРОИЗВОДСТВА.doc