
этология / 15. Ассоциативное поведение КУР и ИУР. Черты различия. Формирование поведения. Общие характеристики
.doc15. Ассоциативное научение: классический и инструментальный условные рефлексы. Черты различия. Формирование поведения. Общие характеристики ассоциативного научения.
А. Классический условный рефлекс (КУР) = условный рефлекс первого рода = респондентное (от англ. response – ответ) научение = павловский условный рефлекс.
Подробно изучался знаменитым отечественным физиологом И.П. Павловым. Поскольку это материал школьной программы, подробно останавливаться на экспериментах не будем, а только изобразим схему КУР, которую удобно будет сравнивать с другой формой ассоциативного научения.
Схема КУР
S 1(пища) – R (выделение слюны)
S2 (звук) –– r (не учитывается)
Эксперимент начинается с предъявления собаке, фиксированной в станке, безусловного стимула (пищи), который вызывает безусловную реакцию (выделение слюны). Затем одновременно с пищей или чуть раньше подается еще один стимул, например, свет или звук. У него тоже есть своя безусловная реакция, например, при подаче света собака мигнет, при подаче звука насторожит уши, но в данном случае она не учитывается. При некотором количестве повторений слюна начнет выделяться при подаче только звука (света), уже без предъявления безусловного стимула (пищи). Таким образом, возникает связь (ассоциация) между условным стимулом и безусловной реакцией (S2 – R). А безусловный стимул (пища) сыграл роль подкрепления. Подкрепление может быть как положительным, так и отрицательным (например, раздражение электротоком, тогда формируется оборонительный условный рефлекс, или раздражение глаза струей воздуха, тогда при сочетании со звуком возникает ассоциация звука и мигательного рефлекса).
КУР составляет только относительно небольшую долю в поведенческом репертуаре. В чистом виде практически не проявляется. Даже в классических опытах Павлова голодная собака несется в комнату, машет хвостом, прыгает в станок, реагирует на белый халат и совершает множество других реакций.
Большое затруднение представляет контроль за чистотой КУР. Сходными явлениями являются сенситизация (см. выше) и псевдонаучение, условия для возникновения которых следует исключить при постанове эксперимента.
Псевдонаучение (псевдообусловливание)– усиление ответа на ранее не эффективный раздражитель при действии другого стимула, с которым он не сочетался.
Б. Инструментальный условный рефлекс (ИУР) = условный рефлекс второго рода = оперантное научение (лат.operatic –действие) =научение методом проб и ошибок
Этот вид условных рефлексов впервые был обнаружен и изучался англичанином, основоположником американской сравнительной психологии Э.Торндайком (эксперименты с так называемыми «проблемными ящиками»). Идею проблемного ящика Торндайк почерпнул из лекции К. Ллойда-Моргана, который рассказал о своей собаке, самостоятельно научившейся открывать садовую калитку, чтобы сбегать на прогулку. Подобная ситуация была воссоздана в запертом ящике с решетчатыми стенками, который можно было открыть, совершив какое-нибудь действие (потянув за пружину, веревку, нажав на педаль или рычаг, открывающий задвижку и т.п.). Голодное животное (чаще кошка) помещалось в ящик, откуда могло видеть и обонять приманку, которая находилась за пределами ящика и побуждала его выбраться. После множества беспорядочных движений (проб), которые были безрезультатными (ошибки), животное, наконец, совершало нужное действие (случайный успех) и открывало задвижку. Впоследствии при многократном помещении в ящик оно делало это все быстрее и точнее. Отметим, что механизм открывания ящика оказывался вне восприятия животного: оно просто не могло его видеть.
Таким образом, исходным моментом формирования ИУР является наличие проблемной ситуации, т.е. таких внешних условий, для приспособления к которым у организма нет готового двигательного ответа. Решение проблемной ситуации происходит в непосредственном взаимодействии организма со средой, выбор действий осуществляется активно, а формирование правильной последовательности действий происходит путем упражнения.
Схема ИУР
r (царапание стен)
r (мяукание)
S1 (проблемная ситуация – R(нажатие на рычаг) – S2 (решение проблемы–
– помещение в ящик) r (метание по клетке) – освобождение)
r (обнюхивание рычага) и др.
При формировании ИУР изначальное поведение животных избыточно: животное учится исключать из своего репертуара все, что не ведет к желаемому результату. Связь возникает между реакцией и ее результатом.
На основании многочисленных экспериментов с проблемными ящиками Торндайк сформулировал ряд законов научения, которые оказались универсальными для всех видов, способных к такой форме научения (от беспозвоночных до человека):
-
закон упражнения – сила связи реакции на ситуацию и самой ситуации прямо пропорциональна частоте повторения совпадений;
-
закон готовности – повторение совпадений повышает готовность организма к проведению соответствующих нервных импульсов;
-
закон ассоциативного сдвига – если при одновременном действии стимулов один из них вызывает реакцию, то и другие при повторении ситуации приобретают способность вызывать ту же самую реакцию;
-
закон эффекта – если какое-то действие (любое) в данной ситуации дает положительный эффект, то при повторении ситуации вероятность выполнения этого действия повышается. И наоборот, любое действие, приводящее в данной ситуации к отрицательному эффекту, при ее повторении появляется с меньшей вероятностью.
Примечание: первые три закона были известны в психологии и до Торндайка, но он перенес смысловой акцент с постулирования формирования ассоциаций внутри нервной системы (физиологические процессы) на установление связей между движениями и внешними стимулами (поведение).
Отличия ИУР от КУР
1. Последовательность действий в КУР определяет экспериментатор, в ИУР – само животное.
2. В КУР животное начинает с безусловной реакции на безусловный стимул, которая лишь впоследствии связывается с условным стимулом. В ИУР безусловный стимул в начале реакции отсутствует, так же как и условный. Таким образом, в КУР закрепляются рефлекторные реакции, а в ИУР – произвольные активные действия.
3. В КУР связь образуется между стимулом и реакцией, в ИУР – между реакцией и ее результатом.
Изучение ИУР и использование открытых закономерностей легло в основу бихевиоризма (на это направление зоопсихологии оказали не менее важное влияние и работы Павлова). Одним из наиболее известных бихевиористов является Б.Ф. Скиннер, профессор Гарвардского университета, автор так называемой «камеры Скиннера» – высокотехнологичного варианта «ящика Торндайка». Это сравнительно небольшая, изолированная от внешних воздействий клетка, имеющая следующие особенности
– приспособление, которым животное может манипулировать (рычаг, диск, колесо и т.п.)
– механизм, который выдает положительное подкрепление после того как задача выполнена;
– устройство для подачи светового или звукового сигнала.
Автоматизированные установки обслуживаются программным оборудованием, позволяющим исследователю не следить постоянно за ходом эксперимента. Результаты регистрируются автоматически. Скиннер назвал процесс, который происходил в этих камерах оперантным научением (обусловливанием).
При изучении ИУР чаще использовались крысы или голуби. Методом проб и ошибок можно обучить сложному поведению, если подкреплять отдельные элементы. Например, крысу можно научить нажимать на рычаг, если сначала подкреплять любые ее действия в той части клетки, где находится рычаг. Когда она обучится держаться возле рычага, подкрепление дают только при касании рычага мордой или лапой (иногда на него кладут приманку). Далее подкрепляют только четкие движения нажатия на рычаг лапой. Постепенное видоизменение поведения в результате вмешательства экспериментатора, подкрепляющего желательные элементы, называется методом последовательного приближения (МПП) или формированием поведения (shaping). При этом поведение формируется под влиянием своих последствий, что составляет сущность этой формы научения.
Обучение МПП может иметь самые неожиданные результаты. Ярким примером служит история Умного Ганса, широко известного в начале XX века.Умный Ганс – орловский рысак, хозяин которого, барон фон Остен был глубоко убежден в высоких умственных способностях лошадей. Умный Ганс был не единственным, но самым способным учеником своего хозяина, который обучил животное азбуке и счету, при этом узнавание каждой буквы или цифры оно обозначало соответствующим числом ударов копытом по специальной доске. Конь демонстрировал способность считать, производить арифметические действия, отвечать на вопросы и т.п., причем делал это настолько впечатляюще, что вводил в заблуждение не только публику, но даже членов специальных комиссий, состоящих из специалистов-психологов.
Было выяснено, что хозяин, искренне верящий в разум своего питомца, не подавал ему никаких скрытых сигналов намеренно, но постепенно заметили, что конь отвечает только на те вопросы, ответы на которые знает сам экспериментатор. В дальнейшем установили, что животное реагирует на мельчайшие непроизвольные движения (например, отклонения корпуса на миллиметры, микродвижения бровей, мимику т.п.), происходящие из-за эмоционального напряжения человека, по мере того как число ударов копытом приближалось к правильному.
Эта история
-
еще раз показала необходимость применения «канона Ллойда-Моргана», поскольку кажущееся разумным поведение «умного Ганса» базировалось не на мыслительных, а на условнорефлекторных механизмах;
-
продемонстрировала высокие возможности восприятия животных, их большую наблюдательность и способность концентрировать внимание;
-
привлекла внимание к проблеме чистоты эксперимента с точки зрения возможности неосознанного влияния экспериментатора на поведение животного.
С помощью МПП удается сформировать самые сложные навыки, он составляет основу дрессировки цирковых и служебных животных. Практика показывает, что объекты дрессировки гораздо охотнее и с большим успехом воспринимают оперантное обучение, нежели классическое респондентное. Например, церемониальный шаг у лошади можно вырабатывать по типу КУР и ИУР. В первом случае тренер стоит перед лошадью, держит ее за поводья и побуждает высоко поднимать ноги с помощью хлыста. Во втором – обучает лошадь путем подкрепления касаться нарисованного на стене кружка коленом и, перенося рисунок выше, добивается подъема ноги на нужную высоту. Какой метод обучения покажется лошади наиболее подходящим – совершенно очевидно.
Примеры:
По типу КУР обусловливается вербальный или иной стимул при формировании поведения (когда вместо пищи животное поощряют одобрительным словом, свистком и т.п.).
Если собаке в станке сначала поджимать лапу, а затем кормить (как при формировании КУР), то через некоторое время она сама начнет поджимать лапу (инструментальная реакция).
ОБЩИЕ ХАРАКТЕРИСТИКИ АССОЦИАТИВНОГО НАУЧЕНИЯ
КУР и ИУР являются разными формами ассоциативоного научения и имеют общие черты.
1. Совпадение по времени действия раздражителя и подкрепления (разница должна составлять не более одной секунды). В КУР действие условного раздражителя не должно прекращаться ранее, чем за секунду до начала действия безусловного, а в ИУР вознаграждение должно действовать немедленно за реакцией. В обоих случаях даже несколько секунд отсрочки не позволят выработать УР.
1. Считалось, что совпадения по времени и наличия подкрепления достаточно, чтобы связать любой раздражитель с любым ответом. Позднее выяснилось, что определенные раздражители сочетаются только с определенными реакциями. Например, вкусовые раздражители легко сочетаются с тошнотой, а зрительные – нет, то есть легко вызвать тошноту на вкусовой стимул, но невозможно на зрительный. И наоборот, зрительные раздражители легко сочетаются с оборонительной реакцией, вызванной действием электротока, а вкусовые – нет; то есть не удастся выработать отвращение к пище путем наказания током.
2. Животные имеют склонность к определенному обучению, связанному с естественными приспособлениями, возникшими в ходе эволюции. Как правило, это часть репертуара инстинктивного поведения.
Примеры:
Пищевые КУР легко вырабатываются у кур, если от них требуется движения разрывания почвы ногами (расшаркивания).
3. Особенности двигательных реакций часто связаны с качеством вознаграждения (принцип соответствия реакции и вознаграждения).
Примеры:
Голуби, клюющие ключ в проблемной клетке, будут делать это по-разному, в зависимости от того, служит ли подкреплением вода или пища.
Таким образом, существует генетическая предрасположенность к сложным инструментальным реакциям, в тех случаях, когда они сходны с видотипичными инстинктивными движениями.
NB! Есть виды ассоциативного научения, которые оказываются успешными, хотя подкрепление отделено от реакции несколькими часами. Это так называемое аверсивное научение (при котором используются неприятные или болезненные стимулы).
2. Повторение. Иногда обучение происходит при однократном сочетании стимула и реакции, но большинство случаев требует повторений до нескольких сотен раз у разных видов в разных ситуациях.
3. Угасание. Это процесс, в течение которого приобретенные формы поведения (УР) перестают проявляться, потеряв актуальность (при отсутствии подкрепления). По непонятной пока причине КУР угасает быстрее, чем ИУР. Угасание не уничтожает первоначально выработанный УР, а только тормозит его. Доказательства:
-
при повторном обучении УР формируется гораздо быстрее;
-
может восстанавливаться спонтанно после отдыха.
Это значит, что приобретенные двигательные навыки сохраняются, даже если вы ими не пользуетесь; при необходимости учиться заново, например, ездить на велосипеде или коньках не придется.
Угасание сходно с привыканием. Разница состоит в том, что угасание развивается на приобретенные реакции, а привыкание – на врожденные.
Для угасания очень важен режим подкрепления. Он может быть:
-
постоянный (подкрепление следует всегда за правильно выполненное действие). Этот режим применяется, когда перед животным стоит задача правильного выбора одного из двух и более стимулов.
-
переменный
а) с постоянным интервалом или фиксированный (когда подкрепляется только один из серии правильных ответов.) Так, подкрепляя рыбой каждый шестой прыжок дельфина можно получить стабильные серии из шести прыжков. Трудность состоит в том, что и животное, и человек при фиксированном режиме (рыбка за каждый шестой прыжок, зарплата по пятницам) стремятся минимизировать свои усилия, чтобы только не выпасть из игры.
б) с неопределенным интервалом или вариабельный (случайный), когда подкрепления подаются в случайном, непредсказуемом порядке. В случае с дельфином, когда он научился прыгать за рыбку, можно подкрепить сначала первый прыжок, затем третий и далее наугад. Не зная, когда последует вознаграждение, животное будет прыгать чаще и сильнее, стараясь угадать «счастливый номер». В свою очередь, это позволит подкреплять выборочно наиболее сильные прыжки и улучшать их качество.
К. Прайор считает, что действенность вариативного режима подкрепления лежит в основе азартных игр и даже в основе глубоких психологических привязанностей. Так достаточно, чтобы эгоистичный человек лишь изредка одаривал своего партнера прекрасными моментами, чтобы поддерживать в нем сильную привязанность. Случайный режим подкрепления работает против угашения, то есть, если поведение длительное время не подкрепляется, но затем подкрепление все-таки последует, то поведение не только не угаснет, но может даже усилиться.
4. Генерализация. Когда у животного вырабатывается реакция на данный стимул, она проявляется и на другие сходные стимулы. Так, если у собаки выработан УР (слюноотделение) на звук высотой 1000 Гц, то слюна буде выделяться и на близкие по высоте звуки. Примером генерализации может служить поведение Умного Ганса, который ориентировался, когда прекращать стучать копытом не только по тем непроизвольным сигналам которые ему подавал хозяин, но и любой другой человек, задающий вопрос.
5. Дифференцировка. При подкреплении одних свойств раздражителя и неподкреплении других можно добиться отбора из ряда сходных раздражителей одного со строго заданными свойствами.