Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lektsii_KOS / Тема 4. Лекция.docx
Скачиваний:
58
Добавлен:
12.05.2015
Размер:
246.65 Кб
Скачать

Трудности с алгоритмом обучения Коши

Коррекция весов в комбинированном алгоритме, использующем обратное распространение и обучение Коши, состоит из двух компонент: (1) направленной компоненты, вычисляемой с использованием алгоритма обратного распространения, и (2) случайной компоненты, определяемой распределением Коши. Эти компоненты вычисляются для каждого веса, и их сумма является величиной, на которую изменяется вес. Как и в алгоритме Коши, после вычисления изменения веса вычисляется целевая функция. Если происходит улучшение, изменение сохраняется безусловно. В противном случае, оно сохраняется с вероятностью, определяемой распределением Больцмана. Коррекция веса вычисляется с использованием представленных ранее уравнений для каждого из алгоритмов:

wmn,k(n+1)= wmn,k (n)+η[α∆wmn,k (n)+(1-α)δn,k OUTm,j]+(1-η)xc

где η — коэффициент, управляющий относительными величинами Коши и обратного распространения в компонентах весового шага. Если η приравнивается нулю, система становится полностью моделью Коши. Если η приравнивается единице, система становится моделью обратного распространения. Изменение лишь одного весового коэффициента между вычислениями весовой функции неэффективно. Оказалось, что лучше сразу изменять все веса целого слоя, хотя для некоторых задач может стать выгоднее иная стратегия. Как и в моделе Коши, если изменение веса ухудшает целевую функцию, — с помощью распределения Больцмана решается, сохранить ли новое значение веса или восстановить предыдущее значение. Таким образом, имеется конечная вероятность того, что ухудшающее множество приращений весов будет сохранено. Так как распределение Коши имеет бесконечную дисперсию (диапазон изменения тангенса простирается от -∞ до +∞ на области определения), то весьма вероятно возникновение больших приращений весов.

Очевидное решение, состоящее в ограничении диапазона изменения весовых шагов, ставит вопрос о математической корректности полученного таким образом алгоритма. На сегодняшний день доказана сходимость системы к глобальному минимуму лишь для исходного алгоритма. Подобного доказательства при искусственном ограничении размера шага не существует. В действительности экспериментально выявлены случаи, когда для реализации некоторой функции требуются большие веса и два больших веса, вычитаясь, дают малую разность.

Экспериментальные результаты

Комбинированный алгоритм, использующий обратное распространение и обучение Коши, применялся для обучения нескольких нейронных сетей. Например, этим методом была успешно обучена система, распознающая рукописные китайские иероглифы. Все же время обучения оказалось отнюдь не маленьким (было потрачено приблизительно 36 часов машинного времени).

В другом эксперименте эта сеть обучалась на задаче ИСКЛЮЧАЮЩЕЕ ИЛИ, которая была использована в качестве теста для сравнения с другими алгоритмами. Для сходимости сети в среднем требовалось около 76 предъявлений обучающего множества. В качестве сравнения можно указать, что при использовании обратного распространения в среднем требовалось около 245 предъявлений для решения этой же задачи и 4986 итераций при использовании обратного распространения второго порядка.

Ни одно из обучений не привело к локальному минимуму. Более того, ни одно из 160 обучений не обнаружило неожиданных патологий, сеть всегда правильно обучалась.

Эксперименты же с чистой машиной Коши потребовали значительно большх времен обучения. Например, при ρ =0,002 для обучения сети в среднем требовалось около 2284 предъявлений обучающего множества.

Несмотря на такие обнадеживающие результаты, метод еще не исследован до конца. Значительно большая работа потребуется для определения его достоинств и недостатков.

Литература:

1. Марков А. А., Замечательный случай испытаний, связанных в цепь, в его кн.: Исчисление вероятностей, 4 изд., М., 1924;

2. Слуцкий Е. Е., Избранные труды, М., 1960;

3. Колмогоров А. Н., Об аналитических методах в теории вероятностей, «Успехи математических наук», 1938;

4. Хинчин А. Я., Теория корреляции стационарных стохастических процессов;

5. Винер Н., Нелинейные задачи в теории случайных процессов, пер. с англ., М., 1961;

6. Дуб Дж., Вероятностные процессы, пер. с англ., М., 1956;

7. Леви П., Стохастические процессы и броуновское движение, пер. с франц., М., 1972;

8. Чандрасекар С., Стохастические проблемы в физике и астрономии, пер. с англ., М., 1947;

9. Розанов Ю. А., Случайные процессы, М., 1971;

10. Гихман И. И., Скороход А. В., Теория случайных процессов, т. 1—2, М., 1971—73.

11. Вазан М., Стохастическая аппроксимация. пер. с англ., М., 1972;

12. Невельсон М. Б., Хасьминский Р. З., Стохастическая аппроксимация и рекуррентное оценивание, М., 1972.

13.http://www.neuralmozg.ru/

14. Аткинсон Р., Бауэр Г., Кротерс З. Введение в математическую теорию обучения: Пер. с англ. - М.: Мир, 1969.

15. Растригин Л.А., Зренштейн М.Х. Адаптивное обучение с моделью обучаемого. -Рига: Зинатне, 1988.

16. Буш Р., Мостеллер Ф. Стохастические модели обучаемости. - Г.: Физматгиз, 1962.

17. Редько В.Г. Эволюция, нейронные сети, интеллект. - Москва: URSS, 2009

18. Зайченко Ю.П. Нечёткие ммодели и методы в интеллектуальных системах. -Киев: Слово, 2008

19. Глибовець М.М., Олецький О.В. Штучний інтелект. - Київ: КМ Академія, 2002

20. Тарков М.С. Нейрокомпьютерные системы, 2006

21. Образование: идеалы и ценности (историко-теоретический аспект) Под ред. З.И. Равкина. - М.: ИТПиО РАО, 1995. -361 с.

22. Кумунжиев К.В. Когнитивные основы развивающего обучения. рукопись, Ульяновск,1997.- 82 с.

23. Пугач В.И., Добудько Т.В. Методика преподавания информатики: учебное пособие для студентов пед. ин-тов / Самарский гос. пед. ин-т, 1993. - 250 с.

24

Соседние файлы в папке Lektsii_KOS