Отличия иур от кур
1. Последовательность действий в КУР определяет экспериментатор, в ИУР – само животное.
2. В КУР животное начинает с безусловной реакции на безусловный стимул, которая лишь впоследствии связывается с условным стимулом. В ИУР безусловный стимул в начале реакции отсутствует, так же как и условный. Таким образом, в КУР закрепляются рефлекторные реакции, а в ИУР – произвольные активные действия.
3. В КУР связь образуется между стимулом и реакцией, в ИУР – между реакцией и ее результатом.
Изучение ИУР и использование открытых закономерностей легло в основу бихевиоризма (на это направление зоопсихологии оказали не менее важное влияние и работы Павлова). Одним из наиболее известных бихевиористов является Б.Ф. Скиннер, профессор Гарвардского университета, автор так называемой «камеры Скиннера» – высокотехнологичного варианта «ящика Торндайка». Это сравнительно небольшая, изолированная от внешних воздействий клетка, имеющая следующие особенности
– приспособление, которым животное может манипулировать (рычаг, диск, колесо и т.п.)
– механизм, который выдает положительное подкрепление после того как задача выполнена;
– устройство для подачи светового или звукового сигнала.
Автоматизированные установки обслуживаются программным оборудованием, позволяющим исследователю не следить постоянно за ходом эксперимента. Результаты регистрируются автоматически. Скиннер назвал процесс, который происходил в этих камерах оперантным научением (обусловливанием).
При изучении ИУР чаще использовались крысы или голуби. Методом проб и ошибок можно обучить сложному поведению, если подкреплять отдельные элементы. Например, крысу можно научить нажимать на рычаг, если сначала подкреплять любые ее действия в той части клетки, где находится рычаг. Когда она обучится держаться возле рычага, подкрепление дают только при касании рычага мордой или лапой (иногда на него кладут приманку). Далее подкрепляют только четкие движения нажатия на рычаг лапой. Постепенное видоизменение поведения в результате вмешательства экспериментатора, подкрепляющего желательные элементы, называется методом последовательного приближения (МПП) или формированием поведения (shaping). При этом поведение формируется под влиянием своих последствий, что составляет сущность этой формы научения.
Обучение МПП может иметь самые неожиданные результаты. Ярким примером служит история Умного Ганса, широко известного в начале XX века.Умный Ганс – орловский рысак, хозяин которого, барон фон Остен был глубоко убежден в высоких умственных способностях лошадей. Умный Ганс был не единственным, но самым способным учеником своего хозяина, который обучил животное азбуке и счету, при этом узнавание каждой буквы или цифры оно обозначало соответствующим числом ударов копытом по специальной доске. Конь демонстрировал способность считать, производить арифметические действия, отвечать на вопросы и т.п., причем делал это настолько впечатляюще, что вводил в заблуждение не только публику, но даже членов специальных комиссий, состоящих из специалистов-психологов.
Было выяснено, что хозяин, искренне верящий в разум своего питомца, не подавал ему никаких скрытых сигналов намеренно, но постепенно заметили, что конь отвечает только на те вопросы, ответы на которые знает сам экспериментатор. В дальнейшем установили, что животное реагирует на мельчайшие непроизвольные движения (например, отклонения корпуса на миллиметры, микродвижения бровей, мимику т.п.), происходящие из-за эмоционального напряжения человека, по мере того как число ударов копытом приближалось к правильному.
Эта история
еще раз показала необходимость применения «канона Ллойда-Моргана», поскольку кажущееся разумным поведение «умного Ганса» базировалось не на мыслительных, а на условнорефлекторных механизмах;
продемонстрировала высокие возможности восприятия животных, их большую наблюдательность и способность концентрировать внимание;
привлекла внимание к проблеме чистоты эксперимента с точки зрения возможности неосознанного влияния экспериментатора на поведение животного.
С помощью МПП удается сформировать самые сложные навыки, он составляет основу дрессировки цирковых и служебных животных. Практика показывает, что объекты дрессировки гораздо охотнее и с большим успехом воспринимают оперантное обучение, нежели классическое респондентное. Например, церемониальный шаг у лошади можно вырабатывать по типу КУР и ИУР. В первом случае тренер стоит перед лошадью, держит ее за поводья и побуждает высоко поднимать ноги с помощью хлыста. Во втором – обучает лошадь путем подкрепления касаться нарисованного на стене кружка коленом и, перенося рисунок выше, добивается подъема ноги на нужную высоту. Какой метод обучения покажется лошади наиболее подходящим – совершенно очевидно.
МПП лежит в основе теории положительного подкрепления, положения которой и возможности использования для формирования поведения людей и животных в очень доступной форме изложены в книге знаменитой американской дрессировщицы дельфинов и зоопсихолога Карен Прайор «Не рычите на собаку» (1994).
ИУР и КУР тесно связаны друг с другом. Любые инструментальные действия животных сопровождаются классической условнорефлекторной реакцией, так же как и в любом КУР можно обнаружить инструментальный двигательный компонент. В их основе лежат сходные нейрофизиологические механизмы. Связь КУР и ИУР проявляется в так называемом самоформировании (autoshaping).
Примеры:
По типу КУР обусловливается вербальный или иной стимул при формировании поведения (когда вместо пищи животное поощряют одобрительным словом, свистком и т.п.).
Если собаке в станке сначала поджимать лапу, а затем кормить (как при формировании КУР), то через некоторое время она сама начнет поджимать лапу (инструментальная реакция).
Если голодного голубя поместить в камеру Скиннера и сначала в течение нескольких секунд освещать ключ для клевания, а после прекращения освещения давать порцию пищи, то через некоторое время голубь начинает клевать ключ сначала независимо от освещения (инструментальная реакция), а затем только при его освещении, как бы вместо зерна (классическая реакция).
ОБЩИЕ ХАРАКТЕРИСТИКИ АССОЦИАТИВНОГО НАУЧЕНИЯ
КУР и ИУР являются разными формами ассоциативоного научения и имеют общие черты.
1. Совпадение по времени действия раздражителя и подкрепления (разница должна составлять не более одной секунды). В КУР действие условного раздражителя не должно прекращаться ранее, чем за секунду до начала действия безусловного, а в ИУР вознаграждение должно действовать немедленно за реакцией. В обоих случаях даже несколько секунд отсрочки не позволят выработать УР. При оперантном обучении часто невозможно немедленно подкрепить действие животного, которое может находиться вдали от тренера, например, на арене цирка. В таком случае применяют условное подкрепление: пищевое вознаграждение предварительно связывают с каким-либо условным сигналом: словом, жестом, звуком, светом и поощряют посредством этого «вторичного подкрепления».
Бихевиористская концепция Скиннера основывалась на том, что поведением можно полностью управлять, создав соответствующий порядок подкреплений и вовремя подавая их. Однако оказалось, что это не так. Существуют определенные ограничения, не позволяющие научить кого угодно чему угодно.
1. Считалось, что совпадения по времени и наличия подкрепления достаточно, чтобы связать любой раздражитель с любым ответом. Позднее выяснилось, что определенные раздражители сочетаются только с определенными реакциями. Например, вкусовые раздражители легко сочетаются с тошнотой, а зрительные – нет, то есть легко вызвать тошноту на вкусовой стимул, но невозможно на зрительный. И наоборот, зрительные раздражители легко сочетаются с оборонительной реакцией, вызванной действием электротока, а вкусовые – нет; то есть не удастся выработать отвращение к пище путем наказания током.
2. Животные имеют склонность к определенному обучению, связанному с естественными приспособлениями, возникшими в ходе эволюции. Как правило, это часть репертуара инстинктивного поведения.
Примеры:
Пищевые КУР легко вырабатываются у кур, если от них требуется движения разрывания почвы ногами (расшаркивания).
Кролика легко научить бить в барабан, так как барабанные движения лапами являются частью репертуара тревожного поведения.
Свиньи легко учатся разворачивать коврик (движения сходные с рытьем земли рылом), но их невозможно научить поднимать монету и класть ее в корзину.
Собака очень легко обучается подавать переднюю лапу (элемент социального поведения, выражающий подчиненность и дружескую расположенность, производное от милхтритта), но намного сложнее научить ее подавать по команде заднюю лапу.
Все кошачьи легко совершают по команде точные прыжки, морские львы искусно балансируют предметами, медведи кувыркаются и т.п., что активно используется цирковыми дрессировщиками.
На основании подобных данных Брэленды (Breland K. Breland M., 1961) выдвинули принцип инстинктивного смещения, согласно которому выученное поведение животного смещается в сторону инстинктивного всегда, когда сильные врожденные инстинкты сходны с условной реакцией. Вместо того чтобы формироваться в направлении, нужном дрессировщику, активность животных как бы устремляется по привычному руслу.
3. Особенности двигательных реакций часто связаны с качеством вознаграждения (принцип соответствия реакции и вознаграждения).
Примеры:
Голуби, клюющие ключ в проблемной клетке, будут делать это по-разному, в зависимости от того, служит ли подкреплением вода или пища.
Крыса легко (за пять проб) обучается избегать удара электротоком, перебегая в другой отсек клетки (естественное оборонительное поведение), но нужно несколько сотен повторений, чтобы для той же цели обучиться нажимать рычаг.
В тех же условиях голуби легко учатся избегать электротока, нажимая ногой на педаль (движение ногами – элемент избегания), но гораздо труднее – путем клевания ключа (элемент пищевого поведения). При выработке пищевого УР – наоборот.
Таким образом, существует генетическая предрасположенность к сложным инструментальным реакциям, в тех случаях, когда они сходны с видотипичными инстинктивными движениями.
NB! Есть виды ассоциативного научения, которые оказываются успешными, хотя подкрепление отделено от реакции несколькими часами. Это так называемое аверсивное научение (при котором используются неприятные или болезненные стимулы). При аверсивном научении формируются поведенческие реакции, проявляющиеся в избегании или неприятии пищи после однократного сочетания «стимул–болезнь». Наиболее известны случаи формирования пищевого отвращения у крыс. Эти грызуны чрезвычайно осторожны при поедании незнакомой пищи и пробуют ее маленьким кусочком. Крысы очень легко связывают болезненное состояние, которое наступает через несколько часов после приема новой пищи, с ее вкусом и запахом. Выжившее после приема отравленной приманки животное больше никогда к ней не притронется.
2. Повторение. Иногда обучение происходит при однократном сочетании стимула и реакции, но большинство случаев требует повторений до нескольких сотен раз у разных видов в разных ситуациях.
3. Угасание. Это процесс, в течение которого приобретенные формы поведения (УР) перестают проявляться, потеряв актуальность (при отсутствии подкрепления). По непонятной пока причине КУР угасает быстрее, чем ИУР. Угасание не уничтожает первоначально выработанный УР, а только тормозит его. Доказательства:
при повторном обучении УР формируется гораздо быстрее;
может восстанавливаться спонтанно после отдыха.
Это значит, что приобретенные двигательные навыки сохраняются, даже если вы ими не пользуетесь; при необходимости учиться заново, например, ездить на велосипеде или коньках не придется.
Угасание сходно с привыканием. Разница состоит в том, что угасание развивается на приобретенные реакции, а привыкание – на врожденные.
Для угасания очень важен режим подкрепления. Он может быть:
постоянный (подкрепление следует всегда за правильно выполненное действие). Этот режим применяется, когда перед животным стоит задача правильного выбора одного из двух и более стимулов.
переменный
а) с постоянным интервалом или фиксированный (когда подкрепляется только один из серии правильных ответов.) Так, подкрепляя рыбой каждый шестой прыжок дельфина можно получить стабильные серии из шести прыжков. Трудность состоит в том, что и животное, и человек при фиксированном режиме (рыбка за каждый шестой прыжок, зарплата по пятницам) стремятся минимизировать свои усилия, чтобы только не выпасть из игры.
б) с неопределенным интервалом или вариабельный (случайный), когда подкрепления подаются в случайном, непредсказуемом порядке. В случае с дельфином, когда он научился прыгать за рыбку, можно подкрепить сначала первый прыжок, затем третий и далее наугад. Не зная, когда последует вознаграждение, животное будет прыгать чаще и сильнее, стараясь угадать «счастливый номер». В свою очередь, это позволит подкреплять выборочно наиболее сильные прыжки и улучшать их качество.
К. Прайор считает, что действенность вариативного режима подкрепления лежит в основе азартных игр и даже в основе глубоких психологических привязанностей. Так достаточно, чтобы эгоистичный человек лишь изредка одаривал своего партнера прекрасными моментами, чтобы поддерживать в нем сильную привязанность. Случайный режим подкрепления работает против угашения, то есть, если поведение длительное время не подкрепляется, но затем подкрепление все-таки последует, то поведение не только не угаснет, но может даже усилиться.
4. Генерализация. Когда у животного вырабатывается реакция на данный стимул, она проявляется и на другие сходные стимулы. Так, если у собаки выработан УР (слюноотделение) на звук высотой 1000 Гц, то слюна буде выделяться и на близкие по высоте звуки. Примером генерализации может служить поведение Умного Ганса, который ориентировался, когда прекращать стучать копытом не только по тем непроизвольным сигналам которые ему подавал хозяин, но и любой другой человек, задающий вопрос.
5. Дифференцировка. При подкреплении одних свойств раздражителя и неподкреплении других можно добиться отбора из ряда сходных раздражителей одного со строго заданными свойствами. Например, если у животного выработан УР на выбор одного цвета, можно предъявлять ему оттенки этого цвета, подкрепляя только один из них. То же и в отношении звука, запаха, фактуры, формы и т.д. Дифференцировка лежит в основе многих методов, позволяющих изучать сложные формы научения и коммуникации, а также для оценки сенсорных возможностей животных. Именно дифференцировка использовалась К. фон Фришем для исследования способности пчел различать цвета.
Если животное может различать два стимула, то, постепенно делая их все более похожими, можно дождаться момента, когда животное уже не сможет этого делать, что означает предел сенсорных возможностей. В лаборатории Павлова собаку довели до невроза, заставляя различать эллипс и круг одинакового размера и делая их все более сходными по форме.
Считается, что генерализация и дифференцировка – это свойства на разных стадиях выработки УР: генерализация – на более ранней, а дифференцировка – на более поздней.
ДИФЕРЕНЦИРОВОЧНЫЕ УСЛОВНЫЕ РЕФЛЕКСЫ (ДУР) ИЛИ ДИФФЕРЕНЦИРОВОЧНОЕ ОБУЧЕНИЕ (ДО)
В основе ДУР – дифференцировочное торможение: животное должно отреагировать лишь на один из предъявляемых стимулов. Порядок предъявления стимулов может быть
– последовательным;
– одновременным.
При систематическом варьировании второстепенных признаков можно выявить способность к обобщению (одна из интеллектуальных способностей). Например, животное обучают выбирать из ряда геометрических фигур круг. Затем предъявляют те же фигуры, но других размера, цветов, сделанные из других материалов и т.п. При наличии способности к обобщению животное почти всегда выбирает из предъявленных фигур круг; если эта способность отсутствует – всякий раз учится выбирать круг заново.
РАЗНОВИДНОСТИ ДО
Переделка сигнального значения условных раздражителей.
При достижении определенного критерия выработки различения (обычно 80% правильных ответов) условия получения подкрепления меняются на противоположные: подкрепляется ранее не подкреплявшаяся реакция и не подкрепляется та, которая выработалась. Например, если животное было обучено выбирать круг, то теперь начинают подкреплять треугольник; или если был выработан подход к правой кормушке, начинают подкреплять подход к левой.
2. Метод последовательных обратимых переделок (Биттерман, 1973, США). Если переделки осуществляются многократно, то можно оценить, сколько проб понадобится животному для очередной переделки. Снижение числа этих проб происходит тем быстрее, чем выше уровень эволюционного развития данного вида.
