Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lektsii_KOS / Тема 4. Лекция.docx
Скачиваний:
57
Добавлен:
12.05.2015
Размер:
246.65 Кб
Скачать

Стохастический процесс, то же, что случайный процесс (вероятностный, или стохастический), процесс (т. е. изменение во времени состояния некоторой системы), течение которого может быть различным в зависимости от случая и для которого определена вероятность того или иного его течения.  Для возможности применения математических методов к изучению случайных процессов требуется, чтобы мгновенное состояние системы можно было схематически представить в виде точки некоторого фазового пространства (пространства состояний) R", при этом случайный процесс будет представляться функцией X (t) времени t со значениями из R. Наиболее изученным и весьма интересным с точки зрения многочисленных приложений является случай, когда точки R задаются одним или несколькими числовыми параметрами (обобщёнными координатами системы). В математических исследованиях под случайным процессом часто понимают просто числовую функцию X (t), могущую принимать различные значения в зависимости от случая с заданным распределением вероятностей для различных возможных её значений — одномерный случайный процесс; если же точки R задаются несколькими числовыми параметрами, то соответствующий случайный процесс X (t)={X1(t), X2(t),..., Xk (t)} называется многомерным.

Стохастическая аппроксимация - метод решения широкого класса задач статистического оценивания, при котором каждое следующее значение оценки получается в виде основанной лишь на новом наблюдении поправки к уже построенной оценке. Основными чертами, обусловившими популярность стохастической аппроксимации в теоретических и прикладных работах, явились её непараметричность и рекуррентность. Рекуррентный план отыскания корня уравнения регрессии, т. е. корня q уравнения r (x) = a в ситуации, когда каждое измеренное значение ук функции R (x) в точке Xk содержит случайную ошибку. Процедура Роббинса - Монро даётся формулой xK+i = Xkкк - a). При некоторых условиях на функцию R (x), последовательность ak, стремящуюся к нулю.

Многие психологи подходили к задачам обучения с позиций «стохастической теории обучения», предполагая при этом, что для мозга существуют лишь два возможных состояния: «обучен выполнению задания» и «не обучен выполнению задания», и что переход из одного такого состояния в другое осуществляется чисто стохастически (рис.1). Конечно, реальные процессы обучения, происходящие в реальном мозге, складываются из громадного числа более тонких изменений, и лишь их результат допускает такую двоичную оценку, маскирующую непрерывность процессов в нервной системе. Никакой конечный набор измерений переменных квантовомеханической системы не может заменить эту бесконечную функцию, поскольку только она одна удовлетворяет требованиям, предъявляемым теорией систем к состояниям: «состояние содержит всю информацию о предыстории системы, обладающую тем свойством, что добавление какой-то новой информации никак не поможет уточнить предсказание о будущем поведении системы».

Рис. 1 Психологическая модель обучаемого в стохастической теории обучения

Стохастические методы обучения приносят большую пользу, позволяя исключать локальные минимумы в процессе обучения. Но с ними также связан ряд проблем.

Любая деятельность состоит из трех частей:

- ориентировочно-мотивационной;

- операционально-исполнительной;

- рефлексивно-оценочной.

Формы обучения

Дадим следующие определения:

Форма - характер ориентации деятельности. В основе формы лежит ведущий метод.

Метод - способ совместной деятельности педагога и обучаемого с целью решения задач.

Формы обучения бывают конкретными и общими. Рассмотрим некоторые из форм более подробно.

Анализ проводимых занятий показывает, что их структура и методика во многом зависит от тех дидактических целей и задач, решаемых в процессе обучения, а также от тех средств, что имеются в распоряжении преподавателя. Все это позволяет говорить о методическом разнообразии методов обучения, которые, однако, могут быть классифицированы по типам:

1. лекции (практически - это монолог учителя на заданную тему, хотя при известном мастерстве преподавателя такие уроки приобретают характер беседы) ;

2. лабораторные (практические) занятия (такого рода уроки обычно посвящены отработке умений и навыков);

3. занятия с проверкой и оценкой знаний (контрольные работы и т.п.);

4. комбинированные занятия. Такие занятия проводятся по схеме:

- повторение пройденного - воспроизведение учащимися ранее пройденного материала, проверка домашнего задания, устный и письменный опрос и т. д.

- освоение нового материала. На этом этапе новый материал излагается преподавателем, либо «добывается» в процессе самостоятельной работы учащихся с литературой.

- отработка навыков и умений применения знаний на практике (чаще всего - решение задач по новому материалу);

- выдача домашнего задания.

Факультативные занятия как форма обучения .

Непосредственное ознакомление с объектами изучения.

Домашняя работа - форма организации обучения, при которой учебная работа характеризуется отсутствием непосредственного руководства преподавателя.

Другая работа: олимпиады, кружки и т.п., должны способствовать наилучшему развитию индивидуальных способностей учащихся.

Виды обучения

Существует множество подходов к классификации видов обучения (традиционное, дистанционное, развивающее обучение и т.д.).

Традиционное обучение

Этот вид обучения является самым (на сегодняшний день) распространенным и представляет собой обучение знаниям, умениям и навыкам по схеме: изучение нового - закрепление - контроль - оценка. Этот вид обучения обладает целым рядом недостатков, которые будут рассмотрены ниже в сравнении с двумя другими видами обучения. В настоящее время традиционное обучение постепенно вытесняется другими видами обучения. Их суть в том, что прежняя образовательная парадигма, основанная на мнении, что можно определить достаточный для успешной жизнедеятельности запас знаний и передавать его обучаемому, себя исчерпала. Необходимо от информационной ориентации перейти к личностной и преодолеть большую инертность традиционного обучения в преподаваемых дисциплинах. Этому и служат развивающее и дистанционное (соответственно) обучение.

Дистанционное обучение

Дистанционная форма обучения (ДО) - это получение образовательных услуг без посещения ВУЗа, с помощью современных информационно-образовательных технологий и систем телекоммуникации, таких как электронная почта, телевидение и INTERNET. Дистанционное образование открывает большие возможности для студентов-инвалидов. Современные информационные образовательные технологии позволяют учиться незрячим, глухим и страдающим заболеваниями опорно-двигательного аппарата. Компьютерные системы могут проэкзаменовать, выявить ошибки, дать необходимые рекомендации, осуществить практическую тренировку, открыть доступ к электронным библиотекам, за считанные секунды найти нужную цитату, абзац, параграф или главу книги, выделить в ней главное. Учебные курсы сопровождаются игровыми ситуациями, снабжены терминологическим словарем и открывают доступ к основным отечественным и международным базам данных и знаний на любом расстоянии и в любое время. Учитываются индивидуальные способности, потребности, темперамент и занятость студента. Он может изучать учебные курсы в любой последовательности, быстрее или медленнее. Все это делает дистанционное обучение качественнее, доступнее и дешевле традиционного.

Лекции ДО, в отличие от традиционных аудиторных, исключают живое общение с преподавателем. Однако, имеют и ряд преимуществ. Для записи лекций используются дискеты и CD-ROM - диски и т.д. Использование новейших информационных технологий (гипертекста, мультимедиа, ГИС-технологий, виртуальной реальности и др.) делает лекции выразительными и наглядными. Для создания лекций можно использовать все возможности кинематографа: режиссуру, сценарий, артистов и т.д. Такие лекции можно слушать в любое время и на любом расстоянии. Кроме того, не требуется конспектировать материал.

Консультации ДО являются одной из форм руководства работой обучаемых и оказания им помощи в самостоятельном изучении дисциплины. Используется телефон и электронная почта. Консультации помогают педагогу оценить личные качества обучаемого: интеллект, внимание, память, воображение и мышление.

Лабораторные работы ДО предназначены для практического усвоения материала. В традиционной образовательной системе лабораторные работы требуют: специального оборудования, макетов, имитаторов, тренажеров, химических реактивов и т.д. Возможности ДО в дальнейшем могут существенно упростить задачу проведения лабораторного практикума за счет использования мультимедиа-технологий, ГИС[1]-технологий, имитационного моделирования и т.д. Виртуальная реальность позволит продемонстрировать обучаемым явления, которые в обычных условиях показать очень сложно или вообще невозможно.

Контрольные работы ДО - это проверка результатов теоретического и практического усвоения обучаемым учебного материала.

Развивающее обучение

Развивающее обучение (РО) занимает достаточно стабильное положение и стоит на одном из первых мест по значимости и связываемых с ним ожиданий по повышению качества образования. Вместе с тем, теория и технология развивающего обучения далеки от завершения, особенно для среднего и старшего звена. Более того, понятие «развивающее обучение» существует на уровне довольно расплывчатого образа и трактуется далеко не однозначно даже специалистами.

Одно из первых определений этого понятия связано с работами пионеров в области развивающего обучения, прежде всего с работами В.В. Давыдова: «...развитие представляет собой воспроизведение индивидом исторически сложившихся типов деятельности и соответствующих им способностей, которое реализуется в процессе их присвоения. Тем самым присвоение (его можно представить как процесс воспитания и обучения в широком смысле) является всеобщей формой психического развития человека».

Смысл сказанного выше в последующем конкретизируется путем выделения двух типов мышления: рассудочно-эмпирического и теоретического. При этом, как следует из дальнейшего изложения, развивающее обучение сводится к формированию теоретического мышления. Последнее определяется следующим образом: «Следовательно, теоретическое мышление имеет свое особое содержание, отличное от содержания эмпирического мышления, - это область объективно взаимосвязанных явлений, составляющих целостную систему. Без нее и вне ее эти явления могут быть объектом лишь эмпирического рассмотрения.». Есть и более простые формулировки этих понятий.

Эмпирическое мышление - ориентация на внешние, чувственно воспринимаемые свойства. Обобщение, если оно выполняется на материале многих задач, так же базируется на внешних признаках.

Теоретическое мышление - способ ориентации, обеспечивающий выделение всеобщего для этого класса задач отношения (это первый, аналитический уровень обобщения). Использование общего способа и способность выделить особенные формы этого всеобщего отношения, то есть существенных отношений, необходимых для построения подклассов задач предложенного класса (содержательная группировка решенных задач) - это рефлексивный уровень. Если дополнительно человек может предложить условия задачи нового подкласса решаемого класса, т.е. способен вывести особенное отношение из всеобщего, то он выходит на синтетический уровень обобщения.

Другая трактовка понятия развивающее обучение базируется на структурных представлениях о знаниях человека.

Так, Н.И. Чуприкова утверждает, «...что дифференциация познавательных структур и процессов составляет ведущее содержание умственного развития (Вернер, Уиткин), что разделение в суждениях разных свойств и отношений составляет ключевой момент перехода от непосредственно чувственного познания к абстрактному мышлению, …». И далее: «Центральный вопрос проблемы умственного развития состоит в выделении субстрата развития, в определении того, что же именно развивается с возрастом и в процессе обучения. Современная психология позволяет считать таким субстратом развития внутренние когнитивные структуры субъекта».

Использование обучения

Предмет исследований в стохастической теории обучения заключается в правильной коррекции "весов" (весы здесь употребляется в качестве регуляторного параметра между процессом обучения, моделью обучаемого и оценивания) для достижения глобального минимума целевой функции, то есть сбалансированного и правильного поступления обработки и оценивания знаний обучающейся модели. Направлением исследований на данное время являются нейронные сети по-стольку по-скольку сами принципы балансировки весов, а также достижения глобального минимума сходны с моделями обучения НС, для обучения обычного человека возникает некий огромный ряд проблем, который собственно и пытаются решить модели обучения поданные Больцманом и Коши, а точнее не сами модели а их модификации. Комбинированные модели обучения помогают достичь глобального минимума балансировки весов, что и позволяет достичь практически идеальной модели обучения которую рентабельно реализовывать для обычного человека, но сам процесс комбинирования данных моделей является трудоёмким и сложным. Модель обучаемого может быть с реализованным глобальным минимумом, то есть пройти идиеальное обучение, либо не совсем идеальное, либо не пройти обучения либо пройти его частично, либо находится в состоянии "паралича", когда обучение не состыкуется с оцениванием, модель не может улучшить результат.

Характеризующая функция это закономерность отображающая коефициент проходимости обучаемого вероятность достижения глобального минимума и т.д.

Модель процеса обучения.

Процесс обучения проходит в ключе балансировки весов и достижения глобального минимума целевой функции отображающей результат прохождения модели обучаемого через входы и выходы, моделей обучения и оценивания, а, что самое важное, модели времени обучения как таковой (характеристическая функция уменьшения времени обучения). Балансировка весов сложный и трудоёмкий процесс. Для реализации такой балансировки используются основные модели стохастического обучения: модель Коши, модель Больцмана, метод исскуственной теплоёмкости, модель с обратным распространением и т.д.

Основные типы процессов обучения (ориентация на стохастическую теорию обучения):

1."Слепого обучения" - когда мы обучаем ученика с помощью определённой математической модели не имея обратной связи.

2. Обучения с обратной связью.

3. Обучения с моделью наблюдателя и памятью (замена обратной связи строится на базе ТАУ либо нейросетей).

Исходя из другой классификации:

3. Локальный:

- индивидуальный обширный (по большому курсу либо числу курсов)

- индивидуальный конкретный (по конкретному курсу)

4. Глобальный:

- обширный групповой (по большому курсу либо числу курсов)

- конкретный групповой (по конкретному курсу)

...

5. Специализированный практический

Детерминистский метод обучения шаг за шагом осуществляет процедуру коррекции весов модели, основанную на использовании их текущих значений, а также величин входов, фактических и желаемых выходов.

Стохастические методы обучения выполняют псевдослучайные изменения величин весов, сохраняя те изменения, которые ведут к улучшениям. Для обучения может быть использована следующая процедура:

1. Предъявить входной вектор и вычислить получающийся выходной вектор;

2. Сравнить полученный выходной вектор с желаемым и вычислить величину разницы между ними. Общепринято в качестве целевой функции, на уменьшения величины которой и направлено обучение, брать норму вектора разности в соответствующем евклидовом пространстве, то есть в средне-квадратичном смысле;

3. Случайным образом выбрать номер веса и небольшую величину коррекции этого веса. Если целевая функция уменьшается, то это изменение сохраняется, иначе все возвращается в исходное состояние;

4. Повторять шаги с 1 по 3 до тех пор, пока сеть не будет обучена в достаточной степени.

Обучающий процесс, ориентированный на этот метод, может попасть в ловушку локального неглобального минимума целевой функции. Если случайные шаги достаточно малы, то выбраться из этого минимума невозможно, если же они весьма велики, то система, скорее всего, будет вести себя неустойчиво.

Обычная стратегия состоит в постепенном уменьшении средней величины случайного шага. Стохастические методы дают возможность создания алгоритма, преодолевающего препятствия локальных минимумов. Общепринятым названием является термин "имитация отжига". В процессе отжига металла распределение энергетических уровней описывается следующим соотношением

P ( e ) = exp (- e / k T )

где P ( e ) обозначает вероятность того, что система находится в состоянии с энергией e, k --- постоянная Больцмана, T --- температура по шкале Кельвина. При высоких температурах высокоэнергетическое состояние почти столь же вероятно, как и низкоэнергетическое. При приближении температуры к нулю становится весьма маловероятным, чтобы система находилась в высокоэнергетическом состоянии.

На рис. 1 показано, как это может происходить в системе с единственным весом. Допустим, что первоначально вес взят равным значению в точке A. Если случайные шаги по весу малы, то любые отклонения от точки A увеличивают целевую функцию и будут отвергнуты. Лучшее значение веса, принимаемое в точке B, никогда не будет найдено, и система будет поймана в ловушку локальным минимумом вместо глобального минимума в точке B. Если же случайные коррекции веса очень велики, то как точка A, так и точка B будут часто посещаться, но то же самое будет верно и для каждой другой точки. Вес будет меняться так резко, что он никогда не установится в желаемом минимуме.

Рис. 1

Полезная стратегия для избежания подобных проблем состоит в больших начальных шагах и постепенном уменьшении размера среднего случайного шага.

Ловушки локальных минимумов досаждают всем алгоритмам обучения, основанным на поиске минимума, и представляют серьезную и широко распространенную трудность, которую почему-то часто игнорируют. Стохастические методы позволяют решить эту проблему. Стратегия коррекции весов, вынуждающая веса принимать значение глобального оптимума в точке B, вполне возможна.

В качестве объясняющей аналогии предположим, что на рис. 1 изображен шарик на поверхности внутри коробки. Если коробку сильно потрясти в горизонтальном направлении, то шарик будет быстро перекатываться от одного края к другому. Нигде не задерживаясь, в каждый момент времени шарик будет с равной вероятностью находиться в любой точке поверхности.

Если постепенно уменьшать силу встряхивания, то будет достигнуто условие, при котором шарик будет на короткое время "застревать" в точке B. При еще более слабом встряхивании шарик будет на короткое время останавливаться как в точке A, так и в точке B. При непрерывном уменьшении силы встряхивания будет достигнута критическая точка, когда сила встряхивания достаточна для перемещения шарика из точки A в точку B, но недостаточна для того, чтобы шарик мог "вскарабкаться" из B в A. Таким образом, окончательно шарик остановится в точке глобального минимума, когда амплитуда встряхивания уменьшится до нуля.

Обучаемые могут обучаться, по существу, тем же способом при помощи случайной коррекции весов. Вначале делаются большие случайные коррекции с сохранением только тех изменений весов, которые уменьшают целевую функцию. Затем средний размер шага постепенно уменьшается, и глобальный минимум в конце концов достигается.

Эта процедура весьма напоминает отжиг металла, поэтому для ее описания часто используют термин "имитация отжига". В металле, который нагрет до температуры, превышающей его точку плавления, атомы находятся в сильном беспорядочном движении. Как и во всех физических системах, атомы стремятся к состоянию минимума энергии (единому кристаллу, в данном случае), но при высоких температурах энергия атомных движений препятствует этому. В процессе постепенного охлаждения металла возникают все более низкоэнергетические состояния, пока, в конце концов, не будет достигнуто самое малое из возможных состояний, глобальный минимум. В процессе отжига распределение энергетических уровней описывается следующим соотношением:

P(e)=exp(-e/kT)

где P(e) — вероятность того, что система находится в состоянии с энергией e; k — постоянная Больцмана; T — температура по шкале Кельвина.

При высоких температурах P(e) приближается к единице для всех энергетических состояний. Таким образом, высокоэнергетическое состояние почти столь же вероятно, как и низкоэнергетическое. По мере уменьшения температуры вероятность высокоэнергетических состояний уменьшается по отношению к низкоэнергетическим. При приближении температуры к нулю становится весьма маловероятным, чтобы система находилась в высокоэнергетическом состоянии.

Больцмановское обучение

  • Определить переменную T, представляющую искусственную температуру (так сказать наше задаваемое обучение в виде функции от времени). Придать T большое начальное значение.

  • Предъявить множество входов и вычислить выходы и целевую функцию.

  • Дать случайное изменение вектору и пересчитать выход и изменение целевой функции в соответствии со сделанным изменением вектора (тут вектор состояния обучаемого).

  • Если целевая функция уменьшилась (улучшилась), то сохранить изменение вектора (можно аналогию с весами).

Если изменение веса приводит к увеличению целевой функции, то вероятность сохранения этого изменения вычисляется с помощью распределения Больцмана:

P(c)=exp(-c/kT)

где P(c) — вероятность изменения cв целевой функции; k— константа, аналогичная константе Больцмана, выбираемая в зависимости от задачи; T— искусственная температура, временной шаг.

Выбирается случайное число r из равномерного распределения от нуля до единицы. Если P(c) больше, чем r, то изменение сохраняется, в противном случае величина вектора возвращается к предыдущему значению. Это позволяет системе делать случайный шаг в направлении, портящем целевую функцию, и дает ей тем самым возможность вырываться из локальных минимумов, где любой малый шаг увеличивает целевую функцию.

Для завершения больцмановского обучения повторяют шаги 3 и 4 для каждого из весов, постепенно уменьшая температуру T (время), пока не будет достигнуто допустимо низкое значение целевой функции. В этот момент предъявляется другой входной вектор, и процесс обучения повторяется.

Величина случайного изменения веса на шаге 3 может определяться различными способами. Например, подобно тепловой системе, весовое изменение w может выбираться в соответствии с гауссовским распределением:

P(w)=exp(-w2/T2)

где P(w) — вероятность изменения вектора (аналогия с весом) на величину w, T — искусственная температура.

Так как требуется величина изменения веса ∆w, а не вероятность изменения веса, имеющего величину w, то метод Монте-Карло может быть использован следующим образом:

  1. Найти кумулятивную вероятность, соответствующую P(w). Это есть интеграл от P(w) в пределах от 0 до w. Поскольку в данном случае P(w) не может быть проинтегрирована аналитически, она должна интегрироваться численно.

  2. Выбрать случайное число из равномерного распределения на интервале (0,1). Используя эту величину в качестве значения P(w), найти в таблице соответствующее значение для величины изменения вектора (веса).

Свойства модели Больцмана широко изучены. Скорость уменьшения температуры (обучения) должна быть обратно пропорциональна логарифму времени, чтобы была достигнута сходимость к глобальному минимуму. Скорость охлаждения (достижения идеального коефициента обучения) в такой системе выражается следующим образом:

T(t)=T0/log(1+t)

где T(t) — искусственная температура, как функция времени; T0 — начальная искусственная температура; t — искусственное время.

Этот разочаровывающий результат предсказывает очень медленную скорость обучения. Вывод подтвержден и экспериментально. Модель Больцмана часто требуют для обучения очень большого ресурса времени.

Обучение Коши

Рис. 2

В этом методе при вычислении величины шага распределение Больцмана заменяется на распределение Коши. Распределение Коши имеет, как показано на рис. 2, более длинные "хвосты", увеличивая тем самым вероятность больших шагов. В действительности, распределение Коши имеет бесконечную (неопределенную) дисперсию. С помощью такого простого изменения максимальная скорость уменьшения функции по времени становится обратно пропорциональной линейной величине, а не логарифму, как для алгоритма обучения Больцмана. Это резко уменьшает время обучения. Зависимость может быть выражена следующим образом:

T(t)=T0/(1+t)

Распределение Коши имеет вид

P(x)=T(t)/(T(t)2+x2)

где P(x) есть вероятность шага величины x.

В данном уравнении P(x) может быть проинтегрирована стандартными методами. Решая относительно x, получаем

xc=ρT(t)tg(P(x))

где ρ— коэффициент скорости обучения; xc — изменение вектора (веса).

Теперь применение метода Монте-Карло становится очень простым. Для нахождения x в этом случае выбирается случайное число из равномерного распределения на открытом интервале (-π/2,π/2) (необходимо ограничить функцию тангенса). Оно подставляется в формулу в качестве P(x), и с помощью текущей температуры (яункции от времени собственно обучения) вычисляется величина шага.

Метод искусственной теплоемкости

Несмотря на улучшение, достигаемое с помощью метода Коши, время обучения может оказаться все еще слишком большим. Для дальнейшего ускорения этого процесса может быть использован способ, уходящий своими корнями в термодинамику. В этом методе скорость уменьшения температуры изменяется в соответствии с искусственной "теплоемкостью", вычисляемой в процессе обучения.

Во время отжига металла происходят фазовые переходы, связанные с дискретными изменениями уровней энергии. При каждом фазовом переходе может происходить резкое изменение величины, называемой теплоемкостью. Теплоемкость определяется как скорость изменения температуры в зависимости от изменения энергии. Изменения теплоемкости происходят из-за попадания системы в локальные энергетические минимумы.

Интелект обучаемого проходит аналогичные фазы в процессе обучения. На границе фазового перехода искусственная теплоемкость может скачкообразно измениться. Эта псевдотеплоемкость определяется как средняя скорость изменения температуры с целевой функцией. В примере шарика в коробке, приведенном выше, сильная начальная встряска делает среднюю величину целевой функции фактически не зависящей от малых изменений температуры, т. е. теплоемкость близка к константе. Аналогично, при очень низких температурах система замерзает в точке минимума, так что теплоемкость снова близка к константе. Ясно, что в каждой из этих областей допустимы сильные изменения температуры, так как не происходит улучшения целевой функции.

При критической температуре небольшое уменьшение ее значения приводит к большому изменению средней величины целевой функции. Возвращаясь к аналогии с шариком, при "температуре", когда шарик обладает достаточной средней энергией, чтобы перейти из A в B, но не достаточной для перехода из B в A, средняя величина целевой функции испытывает скачкообразное изменение. В этих критических точках алгоритм должен изменять температуру очень медленно, чтобы гарантировать, что система не "замерзнет" случайно в точке A, оказавшись пойманной в локальный минимум. Критическая температура может быть обнаружена по резкому уменьшению искусственной теплоемкости, т.е. средней скорости изменения температуры с целевой функцией. При достижении критической температуры скорость изменения температуры должна замедляться, чтобы гарантировать сходимость к глобальному минимуму. При всех остальных температурах может без риска использоваться более высокая скорость снижения температуры, что приводит к значительному снижению времени обучения.

Обратное распространение и обучение Коши

Обратное распространение обладает преимуществом прямого поиска, т.е. веса всегда корректируются в направлении, минимизирующем функцию ошибки. Хотя время обучения и велико, оно существенно меньше, чем при случайном поиске, выполняемом машиной Коши, когда отыскивается глобальный минимум, но многие шаги выполняются в неверном направлении и "съедают" много времени.

Соединение этих двух методов дало хорошие результаты. Коррекция весов, равная сумме, вычисленной алгоритмом обратного распространения, и случайный шаг, задаваемый алгоритмом Коши, приводят к системе, которая сходится и находит глобальный минимум быстрее, чем система, обучаемая каждым из методов в отдельности.

Трудности, связанные с обратным распространением

Несмотря на богатые возможности, продемонстрированные методом обратного распространения, при его применении возникает ряд трудностей, часть из которых, однако, облегчается благодаря использованию нового алгоритма.

Сходимость. Д.Е.Румельхарт доказал сходимость на языке дифференциальных уравнений в частных производных. Таким образом, доказательство справедливо лишь в том случае, когда коррекция весов выполняется с помощью бесконечно малых шагов. Это условие ведет к бесконечному времени сходимости, и тем самым метод теряет силу в практических применениях. В действительности нет доказательства, что обратное распространение будет сходиться при конечном размере шага. Эксперименты показывают, что время обучения велико и непредсказуемо.

Локальные минимумы. В обратном распространении для коррекции весов используется градиентный спуск, продвигающийся к минимуму в соответствии с локальным наклоном поверхности ошибки. Он хорошо работает в случае сильно изрезанных невыпуклых поверхностей, которые встречаются в практических задачах. В одних случаях локальный минимум является приемлемым решением, в других случаях он неприемлем.

Даже после того как обучение закончено, невозможно сказать, найден ли с помощью обратного распространения глобальный минимум. Если решение неудовлетворительно, приходится давать весам новые начальные случайные значения и повторно обучать без гарантии, что обучение закончится на этой попытке или что глобальный минимум вообще будет когда-либо найден.

Паралич. При некоторых условиях обксаемый может при обучении попасть в такое состояние, когда модификация весов не ведет к действительным изменениям. Такой "паралич" является серьезной проблемой: один раз возникнув, он может увеличить время обучения на несколько порядков (паралич тут употребляется в качестве понятия такого состояния обучаемого когда полученная информация не была усвоена, обработана повторное оценивание не дало результатов и обучаемый находится так сказать в ступоре со взгляда системы).

Нет теории, способной предсказывать, будет ли паралич во время обучения или нет. Экспериментально установлено, что малые размеры шага реже приводят к параличу, но шаг, малый для одной задачи, может оказаться большим для другой. Цена же паралича может быть высокой. При моделировании многие часы машинного времени могут уйти на то, чтобы выйти из паралича.

Соседние файлы в папке Lektsii_KOS