
- •Глава 7 индивидуально-приспособительная деятельность 297 Глава 7 Индивидуально-приспособительная деятельность
- •7.1 Неассоциативное обучение.
- •7.2 Ассоциативное обучение
- •7.2.1 Классические условные рефлексы (павловские условные рефлексы, условные рефлексы первого рода, респондентное обучение)
- •7.2.2 Инструментальные условные рефлексы (условные рефлексы второго рода, обучение методом проб и ошибок, инструментальное обучение, оперантное обучение)
- •7.2.3 Законы подкрепления и выработки рефлексов в инструментальном и оперантном обучении
- •6. Величина подкрепления.
- •Правила выработки рефлекса
- •7.2.4 Условно-рефлекторные основы управления поведением. Принципы сигнального управления
- •7.3 Дифференцировочные условные рефлексы [Зорина, з.А., Полетаева, и.И., 2003]
- •7.4 Динамический стереотип
7.2.2 Инструментальные условные рефлексы (условные рефлексы второго рода, обучение методом проб и ошибок, инструментальное обучение, оперантное обучение)
Практически одновременно с исследованиями И.П.Павлова в России, в США в исследованиях УР формировалось иное направление – концепция инструментального обусловливания. Впервые она была сформулирована Эдвардом Ли Торндайком в 1913 г и в основном развивалась трудами американских бихевиористов.
В отличие от классических (Павловских) условных рефлексов, где предъявление условного стимула и подкрепления (безусловного стимула) неразрывно связано и не требует от животного каких либо действий, при инструментальном научении, подкрепление следует только при выполнении животным какого-либо поведения.
В инструментальных условных рефлексах также пусковым элементом может служить условный раздражитель или стимульная ситуация. Она запускают поведение, совершение которого завершается подкреплением. Однако, условная связь образуется между поведением и подкреплением. Если в ответ на стимул не совершается определенного поведения – нет и подкрепления.
Формально в инструментальном поведении условного стимула может не быть. Его роль выпоняет обстановочная афферентация, представляющая собой совокупность стимулов, характеризующих условия при которых выполенение определенного поведения всегда обеспечивает подкрепление и таким образом животное или человек могут активно влиять на факт получения этого подкрепления.
Таким образом, при классических условных рефлексах связь устанавливается между стимулом и результатом, а в инструментальных рефлексах эта связь опосредована поведенческой реакцией животного. То есть, подкрепление (результат) непосредственно связано с реакцией.
В классических опытах Торндайка на кошках, голодные животные помещались в ящики сделанные с вертикальными щелями, так что через них была видна пища, расположенная снаружи. Пытаясь добраться до пищи, кошка производит множество движений: тянется к пище через щели, скребет предметы, находящиеся внутри клетки и т.д. Наконец она случайно ударяет по запирающему механизму и выходит наружу. При последующих пробах действия кошки постепенно концентрируются на этом механизме, и прочая активность при этом прекращается. Такое поведение Торндайк назвал «обучение методом проб и ошибок», теперь такое обучение называется инструментальным, поскольку правильная реакция, ведущая к вознаграждению, опосредовано неким «ИНСТРУМЕНТОМ» роль которого выполняет поведение, хотя термин, использованный Торндайком применяется довольно часто и сейчас.
Инструментальным рефлексом является также и реакция избегания – навык выполнять действия позволяющие избегать наказания или опасности. Классическим вариантом экспериментальной модели рефлекса избегания является челночная камера. Установка «челночная камера» представляет собой бокс, разделенный на две половины перегородкой с отверстием посередине. Пол камеры выполнен в виде решетки из чередующихся электродов, смонтированных на раме, укрепленной на центральной оси под перегородкой подобно качелям. Крыса своей массой опускает соответствующий край рамы и замыкает контакты электродного пола. Электрическая схема пола устроена так, что в исходном состоянии ток на пол не подаётся. После нажатия кнопки «старт» подаётся звуковой сигнал и через 10 секунд на пол того отсека, где крыса находилась в момент «старта» подаётся ток и животное получает серию ударов током, которые заставляют её переходить на другую «безопасную» половину. Как только крыса уходит на другую половину, рама замыкает контакт на противоположной стороне, и система возвращается в исходное состояние. Если за 10 секунд крыса уходит на другую половину, то она не получает «наказания». Ток всегда подаётся только на ту половину камеры, где крыса находилась до момента нажатия кнопки старт. Таким образом, при многократном повторении описанной процедуры вырабатывается условный рефлекс избегания, который заключается в том, что крыса обучается уходить на противоположную половину камеры до истечения 10 секунд после подачи звукового сигнала.
Избегание существует в двух основных формах – активной и пассивной. Активное избегание представляет собой действия, направленные на удаление от источника опасности или уничтожение его. Пассивное избегание представляет собой торможение поведения, сопряженного с опасностью или иной перспективой получения неприятных последствий. Описанный выше рефлекс в экспериментальной биологии получил названия условного рефлекса активного избегания (УРАИ), поскольку животное должно совершить определенные действия, чтобы избежать наказания. В противоположность ему в моделях рефлексов пассивного избегания животное, наоборот, не выполняет рефлекса, который в определенных условиях должно выполнять в силу безусловного предпочтения.
В классическом экспериментальном варианте методика выработки условного рефлекса пассивного избегания (УРПИ) у крыс и мышей основана на подавлении врожденного рефлекса предпочтения темного пространства, имеющегося у грызунов. Экспериментальная установка (рис. 7.5) представляет собой камеру, состоящую из двух отсеков: большого – освещенного и малого – темного. Животное помещается в светлый отсек и вскоре (через 10-20 секунд), в силу указанного врожденного рефлекса, переходит в малый отсек, после чего дверка, соединяющая оба отсека, перекрывается и на пол темного отсека, состоящего из параллельных чередующихся электродов, подается электрический ток. Через 10 секунд дверку открывают, и животное может выскочить в светлый отсек с обычным полом. В результате описанной процедуры у животных вырабатывался условный рефлекс избегания темного пространства. При проверке воспроизводимости рефлекса животных помещают в светлый отсек в угол противоположный от входа в темный отсек и наблюдали в течение 3-х минут. Выработанным рефлекс считается, если в течение всего времени наблюдения животное не перешло в темную часть установки.
|
Рис. 7.5. Установка для выработки условного рефлекса пассивного избегания (УРПИ). |
Торндайк предложил меру количественной оценки обучения животного инструментального навыка. Такой мерой по его предложению является степень поступательного сокращения времени, необходимого для решения поведенческой задачи или сокращения числа движений, которые делает животное при выполнении рефлекса, или при альтернативном варианте рефлекса, количество неправильных реакций в серии из определенного количества попыток. Он же предложил для наглядного описания процесса выработки рефлекса построение кривых научения, отражающих этот процесс. Критерием окончательной выработки рефлекса служит точка на этой кривой, после которой не происходит сокращения времени, количества движений, необходимых для достижения цели или количества ошибок. После этой точки кривая научения приближается к горизонтальной линии. Форма этой линии на графике, как правило, отличается от варианта идеального выполнения рефлекса. Это связано с тем, что любое поведение животного подвержено некоторым флюктуациям. Которые и вносят некоторые «неправильные отклонения в «идеальную» схему выполнения того или иного поведенческого навыка. Такие отклонения этологи называют «шумом». Шум является неотъемлемой частью любого поведения.
Критерием выработки рефлекса является достижение плато в нижней части кривой, т.е. такого состояния, когда время выполнения рефлекса уже не снижается, или количество неправильных реакций (ошибок) не уменьшается. Скорость выработки рефлекса характеризуется крутизной наклона кривой выработки рефлекса.
Торндайком же был сформулирован закон эффекта, который гласит:
«Для реакции, за которой следует вознаграждение или состояние удовлетворения, вероятность повторения возрастает. Таким образом, успех инструментального обучения связан с тем, что поведение может быть усилено его последствиями.
Он считал, что подкрепление повышает вероятность реакции потому, что усиливает установленную связь между ней и присутствующей стимульной ситуацией. Этот взгляд получил название «теория стимул-реакция».
Между теорией замены стимула и теорией стимул реакция есть некоторые не столь очевидные различия. 1. По теории замены стимула мы должны ждать, что УР очень сходен с БР. 2. По теории стимул-реакция научение определяется подкрепляющими последствиями. Хотя по вопросу справедливости каждой из теорий существуют разногласия, современные психологи склонны отдавать предпочтение теории замены стимула по следующим причинам.
1. Уже сам Торндайк пришел к выводу, что закон эффекта неприменим к наказанию. Наказание является классической ситуацией обучения с отрицательным подкреплением. При рефлексах с отрицательным подкреплением роль положительного подкрепления играет факт ненаказания (избегания наказания в результате поведения). Наказание не ослабляет связи стимул реакция, хотя оно иногда временно подавляет наказуемое поведение. В системе, оперирующей механизмами условных рефлексов, поведение может быть заторможено только неподкреплением. При наказании в значительной мере происходит не формирование правильного поведения, целью чего и является наказание, а вырабатывается поведение избегания самого наказания, инструментом которого может быть в том числе и другое нежелательное поведение. То есть, наказание стимулирует выработку совершенно другого поведения. Например, преступники, попадая в тюрьму, вместо того, чтобы исправляться, начинают формировать поведение противодействия пенитенциарной системе – избегания наказания.
2. Теории стимул-реакция противоречит феномен сенсорного предобусловливания, присущий инструментальным условным рефлексам точно также как и классическим. Противоречие заключается в том, что подкрепляемая реакция следует не на тот стимул, на который она вырабатывалась изначально.
3. Сама условно-рефлекторная деятельность может выступать как подкрепление, если животное или человек обучаются. Получение результата при достижении цели и удовлетворительный баланс на акцепторе результата действия служит источником положительных эмоций в связи с тем, что это является проявлением безусловного рефлекса саморазвития.
4. Нельзя подкреплением изменить любое поведение. В некоторых случаях или стимулы вступают в конфликт с инстинктами, или поведение растормаживает комплексы фиксированных действия, присущих тем или иным инстинктам и поведения по схеме «стимул-реакция» не получается. Выученное поведение всегда смещается в сторону инстинктивного, когда сильные врожденные инстинкты сходны с условной реакцией.
Все законы, характеризующие условнорефлекторный процесс, описанные для классических рефлексов, характерны и для инструментальных рефлексов. Это свидетельствует в пользу того, что две эти формы условных рефлексов являются проявлением одного и того же механизма, реализуемого в разных паттернах поведения.
Оперантное поведение и оперантное обучение
Бэррас Ф. Скиннер вместо неоднократного применения сочетаний с использованием проблемных ящиков разработал методику обучения на основе свободного (оперантного) поведения.
При этом животное в экспериментальной обстановке совершает свободные действия – ориентировочно-исследовательское поведение, поисковое поведение и т.д., а определенные действия подкрепляются экспериментатором (тренером, дрессировщиком). Скиннер полагал, что любое поведение, относящееся к категории «оперантное», можно модифицировать, если при выполнении определенных элементов давать животному подкрепление. Преимуществом обучения, основанного на свободном, оперантном поведении, является то, что эти действия можно определённым образом направлять в нужное русло. Например, крысу можно обучить нажимать на рычаг, если сначала сопровождать подкреплением любые её действия в той части камеры, где он находится. Постепенно крыса научается держаться вблизи рычага, и тогда подкрепление дают только тогда, когда она касается рычага мордой или лапой. Через некоторое время подкрепление даётся только после выполнения чётких движений – нажатий лапой на рычаг. Такое постепенное изменение поведения животного в результате вмешательства экспериментатора называется методом последовательного приближения или формированием (shaping) поведения.
В последствии оказалось, что не всякой модификации поведения животного удаётся добиться таким способом. В ряде случаев препятствием на пути такой модификации служат просто анатомические особенности строения тела или конечностей, какие-то функциональные возможности двигательной системы или других систем и органов. В некоторых случаях запреты налагают безусловные рефлексы или намерения экспериментатора наталкиваются на комплексы фиксированных действий инстинктов. В таком случае поведение «скатывается» к соответствующему паттерну инстинктивного поведения. И, наконец, нельзя подкрепить поведение, которое не встречается. В некоторых случаях не удаётся подобрать в естественных паттернах поведения такие элементы, которые в последствии путем модификации привели бы к заданному результату.
Попытка модифицировать поведение человека по заданному образцу также потерпела неудачу. Причиной явилось то обстоятельство, что люди в индивидуальных проявлениях своих физиологических реакций и, особенно, в поведении существенно отличаются друг от друга. При этом индивидуальность является важнейшим инструментом социального поведения и адаптации на социальном уровне. Различаются как навыки, так и мотивационные характеристики деятельности. В соответствии с этим, люди обладают разной готовностью к совершению того или иного поведения от полного согласия, до абсолютного отрицания допустимости для себя того или иного поступка. А, как известно, вмешательство в поведение, ориентированное на достижение цели и побуждение к поведению, к которому человек или животное не готовы, вызывают фрустрацию и могут быть толчком к агрессии.