Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Хретоматия_коммуникация.doc
Скачиваний:
18
Добавлен:
25.08.2019
Размер:
856.06 Кб
Скачать

7.1 Восприятие и порождение речи

7.1.1 Фонологическое восприятие

французский врач Поль Брока (1824—1880) первым описал в 1861 году участок коры передней части левого полушария (с тех пор зона Брока), поражения которого у взрослых людей ведут к нарушениям артикуля­ции и синтаксиса речи. Несколько позднее немецкий невролог Карл Вернике (1848—1905) обнаружил второй регион левого полушария, явно участвующий в восприятии звуков речи и понимании слов. Зона Верни­ке расположена в задней трети верхней височной доли и непосредствен­но примыкает сзади к кортикальным механизмам слухового анализа. Анатомические и физиологические исследования свидетельствуют о том, что этот регион служит основой восприятия речи уже в раннем онтогенезе. Так, вызванные потенциалы мозга в ответ на предъявление фонем, слогов и слов более выражены у новорожденных в области ле­вой височной доли, чем правой. В случае неречевых звуков наблюдает­ся обратная зависимость. Более того, разница в интенсивности ответов височных долей левого и правого полушарий новорожденных на рече­вые звуки служит хорошим предиктором развития речевых навыков в возрасте трех лет (Bornstein, 1996).

Биологические предпосылки восприятия речи едины для всех представителей вида Homo sapiens sapiens (то есть человека современно­го биологического вида, предположительно появившегося примерно 100 тысяч лет назад) и связаны, прежде всего, с восприятием фонем — наименьших смыслоразличительных единиц потока речевых звуков. Сравнительные лингвистические работы показывают, что различные языки используют ограниченный репертуар хорошо отличающихся друг от друга смыслоразличительных звуков. Например, полинезийские язы­ки имеют лишь 15 фонем, тогда как в отдельных европейских и азиат­ских языках их число может превышать 60 (как в случае абхазского язы­ка). В русском и английском насчитывается порядка 40 фонем. Судя по всему, имеются универсальные или почти универсальные фонологичес­кие признаки, присутствующие в большом числе языков. К числу таких признаков относятся звонкость, например /б/ или /п/, и место артику­ляции согласных. Последний признак связан с местом перекрытия арти-куляторного тракта при произнесении звука: подъемом задней части языка к мягкому нёбу, прикосновением языка к зубам и твердому нёбу или соединением губ, как, скажем, при произнесении звонких соглас­ных /г/, /д/ и /б/.

Многие фонологические признаки, однако, не являются универ­сальными. Англичане, например, не способны различать некоторые фонемы довольно насыщенного согласными звуками чешского языка. Проблематичен, даже для ближайших географических соседей, голланд-

95

ский язык1, а европейцы в целом не слышат некоторых смыслоразли-чительных признаков фонем тайского языка и не способны правильно управлять ими в собственной речи, что, как утверждают, приводило к дипломатическим недоразумениям. Хорошо известны трудности вос­приятия и порождения согласных /р/ и /л/ носителями японского языка, в котором нет соответствующего фонологического различия. Во многих языках Восточной и Юго-Восточной Азии (таких как стандарт­ный китайский, вьетнамский и другие) смыслоразличительным призна­ком является и высота тона.

Доказательство восприятия собственно фонем, а не просто отдель­ных признаков, связано с существованием эффекта категориалъности. Если предъявить слушателям в лабораторных условиях искусственные звуки, градуально превращающие, скажем, звонкое /ба/ в глухое /па/, то существует некоторое промежуточное значение, при котором люди начинают слышать другую, в данном случае глухую фонему. Это значе­ние физической стимуляции называется границей категории. Оказалось, что положение границы категории на континууме физических стимулов предопределяет успешность различения пар звуков. Два близких по фи­зическим параметрам звука различаются легко, если они попадают по разные стороны границы соответствующих фонологических категорий. Напротив, сравнительно сильно отличающиеся звуки могут идентифи­цироваться как одинаковые, когда они расположены по одну сторону границы.

Замечательный результат этой линии исследований, установленный первоначально американцем Питером Эймасом, состоит в том, что мла­денцы демонстрируют при предъявлении синтезируемых искусственно фонем такие же категориальные эффекты, как и взрослые. Об этом мож­но судить по динамике изменения ориентировочной реакции: ее возник­новение свидетельствует о различении двух звуков, отсутствие — о том, что они обрабатываются как представители одной категории. Интерес­но, что категориальное восприятие младенцев распространяется на фо­немы, не воспринимающиеся их родителями. Так, японские младенцы легко различают /р/ и /л/, а европейские дети — неразличимые для взрослых европейцев фонемы тайского языка. Если это действительно так, то фундаментальная проблема соотношения врожденного и приоб­ретенного может получить здесь неожиданное решение: биогенетически ребенку предоставлены максимальные возможности для развития, но культурная (в данном случае, языковая) среда эти возможности ограни-

1 Сразу после освобождения Нидерландов союзниками в 1945 году местное население идентифицировало переодетых немецких солдат, предлагая им произнести название сто­ лицы своего государства. То, что известно нам как «Гаага», произносится носителями гол­ ландского языка с использованием гортанно-хрипящего звука, отсутствующего в других 96 языках и для иностранцев обычно невоспроизводимого.

чивает (в действительности, эта проблема не имеет однозначного обще­го решения — см. 9.4.2).

Не исключено, правда, что категориальность — это какой-то эле­ментарный эффект, связанный лишь с анатомией слухового аппарата млекопитающих и не доказывающий врожденность восприятия фонем. Имеются данные о южноамериканских крысах шиншиллах, которые в экспериментах с выработкой условных рефлексов обнаружили катего­риальное различение звуков на континууме звонкости /ба-па/, причем с аналогичным положением границы категорий, как и у людей. По­скольку трудно предположить, что шиншилле может понадобиться врожденный механизм восприятия звуков человеческой речи, эти ре­зультаты затрудняют объяснение эффекта категориальное™ и у чело­века. Совершенно другой аргумент относится к особенностям воспри­ятия взрослых людей. Категориальность восприятия фонем оказалась зависящей от того, относятся ли слушатели к ним, как к звукам речи или шумовым сигналам. Если бы эти механизмы были чем-то вроде врожденного модуля, то субъективная установка слушателя не влияла бы на их работу. Таким образом, эффекты категориального восприятия не столь автоматичны, как этого требуют известные критерии выделе­ния когнитивных модулей, сформулированные Фодором (см. 2.3.2).

Против узкой специализации механизмов восприятия речевых зву­ков, предполагаемой гипотезой врожденного лингвистического модуля, также говорят данные о существовании целого ряда интермодальных, зрительно-слуховых эффектов. Так, ученица Найссера и Элеоноры Гиб-сон Элизабет Спелке одной из первых и, надо сказать, весьма элегант­ным образом продемонстрировала раннюю предрасположенность детей к восприятию речи в координации со зрительно воспринимаемыми со­бытиями. В ее экспериментах младенцам в возрасте примерно 5 месяцев на разных экранах одновременно показывались два обычных, «взрос­лых» фильма с большой долей диалогов, причем лишь один из фильмом озвучивался из динамика, расположенного строго между экранами. Ана­лиз движений глаз детей показал, что они преимущественно смотрели на экран с озвучивавшимся фильмом.

Самым известным примером интермодальных взаимодействий при восприятии фонем взрослыми нормально слышащими людьми является так называемый эффект Μακ,-Гурка (по имени описавшего его амери­канского психолога — см., например, McGurk & MacDonald, 1976). Если испытуемый слышит одну фонему, но при этом видит по движениям губ, что произносится другая, то фонологические признаки «видимой речи» включаются в процесс слухового восприятия с тем результатом, что слы­шаться начинает третья фонема, комбинирующая акустические и зритель­ные признаки. Так, если акустически предъявляется звук /ба/, а движения губ соответствуют слогу /га/, то слышится звук /да/. Для приведенной и некоторых других комбинаций слогов данный эффект выражен весьма отчетливо и, подобно всем перцептивным иллюзиям (см. 2.3.2), не зави­сит от знания реального положения дел. Закрытие глаз ведет к его ис­чезновению, а открытие — к немедленному восстановлению. Эффект Мак-Гурка сохраняется даже тогда, когда вводится рассогласование слы-

шимого и видимого пола говорящего, например, испытуемый видит изображение говорящей женщины, но слышит мужской голос2.

Анализ фонем в контексте живой речи, а не при их изолированном предъявлении связан с некоторыми техническими осложнениями, ко­торые даже побуждают отдельных авторов сомневаться в существова­нии фонем как реальных единиц восприятия и порождения речи. Дело в том, что акустические признаки фонем сильно зависят от контекста: предшествующих, а также непосредственно следующих сегментов рече­вого потока. Поэтому некоторые авторы считают, что единицей рече­вого сообщения является не фонема, а слог3. Совершенно очевидно, од­нако, что и сами слоги не являются полностью инвариантными единицами. Как и слова, они связаны с общим, в том числе смысловым контекстом сообщения. Попытки выделить элементарные компоненты восприятия, таким образом, рано или поздно приводят к проблеме рас­познавания значения.

Исторически первой теорией, предназначенной для объяснения ус­тойчивого восприятия речи в условиях неустойчивости акустических признаков фонем, была моторная теория восприятия (Lieberman & Blumstein, 1988). Сторонники этой теории пытались объяснить инвари­антное восприятие меняющихся в зависимости от контекста фонем встречной артикуляцией соответствующих сегментов речи по ходу их восприятия. Действительно, при осложнении условий восприятия мы часто повторяем услышанное, но, возможно, это лишь проявление об­щей стратегии перепроверки полученной в процессе нарушенного обще­ния информации, а не специализированный моторный механизм, встро­енный в само восприятие. У моторной теории мало доказательств «за» и много аргументов «против». В частности, против предположения о су­щественной роли артикуляции говорят данные о возможности нормаль­ного восприятия в случае паралича речевой мускулатуры и при затруд­нениях артикуляции. Об этом же говорит анализ синхронного перевода. Последний действительно может быть практически «синхронным», то есть настолько близким к одновременному прослушиванию языка-ис­точника и произнесению слов в целевом языке, что ни о какой проме-

2 С нейрофизиологической точки зрения, этот эффект достаточно неожиданен, так как кортикальные вызванные потенциалы на акустические события всегда примерно на 40 мс опережают зрительные. Иными словами, чтобы добиться одновременной регистрации зрительных и слуховых событий кортикальными механизмами сенсорной обработки слу­ шателя, говорящего нужно было бы отодвинуть на расстояние, примерно равное 10 м.

3 О. критической роли слогов в восприятии речи мог бы говорить тот факт, что дли­ тельность типичного слога, примерно равная 250 мс, совпадает со средней оценкой продолжительности сохранения акустической информации в слуховом сенсорном ре­ гистре — эхоической памяти (см. 3.2.2). Типичный слог представляет собой движение от закрытого положения рта к открытому (гласному звуку) и вновь к относительно закрыто­ му, соответствующему либо конечной согласной данного слога, либо первой согласной следующего. Существует предположение, что в основе слоговой организации устной речи

98 может лежать древняя синергия жевательных движений.

жуточной артикуляции слов языка-источника, якобы необходимой для его восприятия, не может быть и речи.

Психолингвист из английского Кэмбриджа Уильям Марслен-Уилсон (например, Marslen-Wilson, 1990) разработал когортную модель восприя­тия слов, согласно которой детальный фонологический анализ вообще не имеет места.

На основании когнитивных ожиданий, генерируемых из контекста, и общего анализа первых звуков слова активируется предва­рительный список слов-кандидатов, называемый когортой. Любая после­дующая информация, как акустическая, так и семантико-синтаксическая, используется для удаления из когорты неподходящих слов. Обработка прерывается при удалении всех кандидатов, кроме одного. Достижение «точки узнавания», таким образом, является результатом параллельной обработки информации на нескольких уровнях. Под влиянием экспери­ментальных данных в последних версиях когортной модели предположе­ние о полной параллельности обработки было изменено: влияние семан­тического и синтаксического контекста сильнее сказывается в них на относительно поздних стадиях восприятия слова. Предсказания этой те­ории, в целом достаточно успешные, в настоящее время продолжают , проверяться. Конкуренцию ей составляют только коннекционистские модели.

Как мы отмечали выше (см. 2.3.3), коннекционистские модели вос­ходят к ранним моделям распознавания конфигураций, перцептронам. Эти модели допускают возможность любых коммутаций источников све­дений, тем самым объясняя также интермодальные эффекты в восприя­тии речи. С помощью относительно простых алгоритмов обучения они способны усваивать нерегулярные, чисто ассоциативные переходы, для которых нет соответствующих правил, например, «man—>men» или «go->went». Помимо этого, они способны аппроксимировать то, что описывается в генеративной грамматике как примеры применения аб­страктных правил, например, постепенно моделировать — при воспри­ятии и порождении — регулярные синтаксические эффекты, типа выяв­ления множественного числа английских существительных на основе окончания «s» или прошедшего времени глаголов по «ed». Данные о раз­витии речи и о статистическом соотношении регулярных и нерегуляр­ных эффектов в отдельных языках оставляют пока открытым вопрос воз- ' можной коннекционистской природы синтаксической компетентности в целом, свидетельствуя скорее о различиях в механизмах обработки регулярных и нерегулярных грамматических переходов (Pinker, 2000)4.

В современных лингвистике и психолингвистике часто используют­ся гибридные архитектуры, когда, например, нейросетевые компоненты вводятся в качестве адаптивного модуля в модели символического типа. Это позволяет обеспечить настройку на индивидуальные характеристи­ки голоса или (в моделях чтения) на особенности движений глаз пользо­вателя. Смешанную архитектуру предполагает теория оптимальности

4 Например, при образовании множественного числа существительных в немецком языке более частотными оказываются нерегулярные переходы и, естественно, возникает вопрос, как нейронная сеть может путем чисто ассоциативного обучения выделить соот­ ветствующее правило, если ей чаще приходиться сталкиваться с отклонениями от него. 99

100

наиболее влиятельная на сегодняшний день модель восприятия и по­рождения фонологических аспектов речи (Prince & Smolensky, 1997; Smolensky, 2005). Она относится к классу влиятельных моделей удовлет­ворения множественных ограничений, позволяющих описывать нахожде­ние решения, которое оптимальным образом удовлетворяет нескольким различным правилам, таким как правила чередования согласных и глас­ных звуков, а также варьирования тона в тональных языках (таких как китайский). Коннекционистские модели также находят применение в задачах распознавания слов из заранее фиксированного и относительно небольшого набора команд. В этом качестве они начинают использо­ваться при речевом взаимодействии с различными техническими уст­ройствами. Некоторые из подобных прикладных разработок будут рас­смотрены нами в конце данной главы (см. 7.4.3).

Огромный интерес представляет восприятие глобальных акусти­ческих признаков, характеризующих сегменты речи, более крупные, чем отдельные фонемы, слоги и слова. Так, повышение тона голоса к концу фразы обычно означает вопрос, то есть то, что говорящий с вы­сокой степенью вероятности хочет что-то от вас услышать (хотя вопрос вполне может быть и риторическим, не предполагающим ответа — см. 7.1.2 и 7.4.1). Подобные интонационные, или просодические, признаки оказываются более инвариантными, чем акустические признаки от­дельных фонем, как с точки зрения возможного влияния актуального речевого контекста, так и в отношении межъязыковых различий.

К сожалению, эти аспекты восприятия речи стали интенсивно изу­чаться лишь сравнительно недавно (Кодзасов, 2004). В одном из иссле­дований (Ishii, Reyes & Kitayama, 2003) было проверено и получило экс­периментальное подтверждение давнее предположение, что в восточных культурах (в данной работе, в Японии и на Филиппинах) именно инто­нация, а не содержание речи, как это характерно для Европы или Север­ной Америки, спонтанно привлекает внимание слушателя. Смена языка, а именно переход испытуемыми-билингвами на английский язык, ниче­го не меняла в этой базовой направленности внимания. Итак, оказав­шись в Японии или Китае и получив в ответ на прямой вопрос, казалось бы, положительный ответ «да», нам следует очень внимательно отсле­дить тональность голоса собеседника! Имеющиеся нейропсихологичес -кие данные говорят о том, что подобные формы восприятия, равно как и процессы восприятия эмоциональных характеристик речи, преимуще­ственно вовлекают правое полушарие мозга, а следовательно, заведомо не классические речевые зоны Брока и Вернике, локализованные в ле­вом полушарии.