Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2 курс / Нормальная физиология / Физиология_речи_Восприятие_речи_человеком_Чистович_Л_А_

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
13.47 Mб
Скачать

В работе Мушникова и Чистович [107] определялась граница по Fr между [i] и [е] при разных значениях уровня интенсивности второй форманты двухформантного гласного. Полученные данные показали (рис. 10.11), что изменения уровня интенсивности в диа­ пазоне 40 дБ не влияют на положение границы.

Рис. 10.11. Положение границы по частоте первой форманты между глас­ ными [i] и [е] при разных значениях интенсивности второй форманты (Т?2= =2250 Гц). По [107].

По оси абсцисс — уровень интенсивности второй форманты; по оси ординат — ча­ стота первой форманты.

Вывод о том, что существенным является именно частотное положение спектрального максимума, а форма спектра сигнала даже вблизи этого максимума не имеет большого значения, следует также из данных по фонемной классификации стационарных шум-

Рис. 10.12. Спектры естественных изолированно произнесенных соглас­ ных [s] (вверху) и [J] (внизу). По Рм].

ных согласных [165, 167]. На рис. 10.12 приведены спектры естест­ венных изолированных согласных [s] и [J], Точкой отмечен спек­ тральный максимум, частотное положение которого, как пока­ зано в [165], определяет высоту звука и одновременно используется носителями русского языка для различения твердых и мягких согласных.

261

В контрольных экспериментах [1в7] использовались полусинтетические стимулы: основная часть спектра стимула (выше 2500 Гц) создавалась за счет естественных согласных, нижняя часть спектра создавалась с помощью шума, пропущенного через резонансный контур с перестраиваемой частотой. Определялась частота контура (спектрального максимума), соответствующая границе между твердыми и мягкими согласными. Оказалось, что значения границы практически идеально совпали для [s] и [)], хотя, как видно из рис. 10.12, спектры этих звуков в основной их части сильно различаются.

Для того чтобы приведенные данные были совместимы с гипо­ тезой кодирования величиной возбуждения (см. раздел 10.1.1), необходимо допустить, что коэффициенты связи суммирующего элемента с частотными каналами периферической слуховой системы не равны нулю лишь на весьма ограниченных участках шкалы z. Лишь в этом случае отклик сумматора будет определяться только локальными свойствами спектра. Очевидно, что при этом допуще­ нии гипотеза теряет всю свою привлекательность.

10.3.2. НЕОДНОРОДНОСТЬ НА СПЕКТРЕ КАК ФОНЕТИЧЕСКИЙ ПРИЗНАК

В работе [108] была сделана попытка определить, какими особенностями должен характеризоваться спектр синте­ тического гласного, чтобы человек мог обнаружить присутствие

вэтом гласном второй форманты.

Вэкспериментах применялись двухформантные синтетические гласные с ^=600 Гц, Го=300 Гц и переменными значениями Г2. Когда вторая форманта в стимуле полностью подавлялась, сигнал воспринимался как [о] или [и]. Определялось минимальное значе­ ние амплитуды второй форманты, при котором звук изменял фо­ немное качество. В результате эксперимента был получен набор спектров, соответствующих порогу обнаружения второй форманты. Три из них приведены на рис. 10.13. Можно видеть, что в спектре, соответствующем стимулу с Г2=1500 Гц, формально нет второго максимума (амплитуда гармоники с частотой 1500 Гц равна та­ ковой для ближайшей более низкой гармоники). В данном слу­

чае

приходится говорить не о максимуме, а о неоднородности

на

спектре.

 

В ряде психоакустических экспериментов показано, что высота

полосового или широкополосного шума со срезом в области низ­

ких

(высоких) частот определяется частотой края (или краев)

на

спектре этого шума [257, 47°].

В одном из вариантов упоминавшихся выше экспериментов [1661

по восприятию твердости/мягкости полусинтетических согласных [s] и [(] низкочастотная часть спектра стимула создавалась за счет шума, пропущенного через фильтр высоких частот; исследуемой переменной была частота среза. Оказалось, что край на спектре

202

играет ту же роль, что и спектральный максимум. В зависимости от значения частоты среза согласный воспринимался как твердый или мягкий.

Таким образом, приведенные в насто­ ящем разделе экспериментальные 'данные позволяют сформулировать два требова­ ния к модели, осуществляющей выделе­ ние признаков на слуховом спектре сти­ мула: 1) модель должна выделять локаль­ ные особенности функции g (z), 2) модель должна схожим образом реагировать на максимумы и на неоднородности на g (z). Этим требованиям удовлетворяет модель латерального торможения. Использование латерального торможения для выделения неоднородностей на g(z) представляется достаточно правдоподобным с точки зрения физиологии слуха.

Подчеркнем еще раз, что допущение гипотезы латерального торможения еще отнюдь не означает, что тем самым автома­ тически принимается формантная гипо­ теза. В зависимости от параметров модели латерального торможения она будет вы­ делять или форманты, или какие-то дру­ гие особенности на слуховом спектре гласного.

Рис. 10.13. Линейчатые спектры синтетических гласных, соответствующие порогу обнаружения второй ^форманты. По [108].

По оси. абсцисс — частота; по оси ординат — уровень интенсивности. Стрелкой показана гармоника с часто­ той F2.

10.4. ВЫДЕЛЕНИЕ НЕОДНОРОДНОСТЕЙ НА СЛУХОВОМ СПЕКТРЕ МОДЕЛЬЮ ЛАТЕРАЛЬНОГО ТОРМОЖЕНИЯ

Хотя идея использования латерального торможения в моделях слуховой обработки сигнала является весьма популяр­ ной (см. обзор [ш]), работы, направленные на определение значе­ ний параметров латерального торможения, совместимых с психо­ акустическими данными, находятся в самой начальной стадии.

Если вход модели определен как слуховой спектр стимула (см. раздел 10.2) и сделан ряд общепринятых допущений относи­ тельно структуры модели (см. главу 9), то требующими определе­

263

ния параметрами остаются весовые функции возбуждающих и тор­ мозных связей и значения порога. При этом следует еще подчеркнуть, что вопрос о способе взаимодействия суммарных воз­ буждающих и тормозных сигналов пока остается открытым (см. главу 9). Неясно также, какую амплитудную характеристику преобразователя энергии в "плотность импульсации (степенную или логарифмическую) следует предпочесть. В модели Карницкой [313] принималось первое допущение, Темов [131] рассматривал вариант, соответствующий второму допущению.

В обеих работах использовался следующий подход. Выби­ рался небольшой набор спектров стимулов, для которых было установлено, что человек обнаруживает в стимулах те или другие неоднородности. Принималось, что обнаружение неоднородности соответствует представлению этой неоднородности в отклике мо­ дели положительным выбросом g* (z), отделенным от соседних выбросов некоторым интервалом, где g* (z) ниже порога. Тре­ бовалось найти параметры весовых функций (вид функций прини­ мался априорно), при которых это условие, а также некоторые дополнительные условия выполняются. Существенный результат, полученный в обеих работах, состоял в том, что интервал Az, на котором задаются весовые функции, должен быть достаточно узким, не должен превышать 2—3 Барк.

Остановимся в качестве иллюстрации на одной из попыток подбора параметров, предпринятой Карницкой. За основу при

подборе параметров были

взяты данные

эксперимента

Хирато

и др. [296] по восприятию

синтетического

гласного [а].

Экспери­

мент состоял в том, что испытуемые сравнивали стандартный глас­ ный (значения амплитуд его 32 гармоник показаны точками на рис. 10.14) с тем же гласным, одна из гармоник которого была уменьшена по амплитуде. Определялось минимальное уменьше­ ние уровня интенсивности гармоники, при котором человек раз­ личает эти два стимула. Такие измерения поочередно проводи­ лись для всех гармоник. Полученные данные приведены в нижней части рис. 10.14. Крестиками отмечены те гармоники, исключение которых из спектра звука испытуемые не обнаруживали.

Можно видеть, что в области выше 1500 Гц человек чувствует уменьшение интенсивности только тех двух гармоник, которые соответствуют формантным максимумам (третьей и четвертой формантам). Рис. 10.9 показывает, что на слуховом спектре глас­ ного эти верхние формантные максимумы отчетливо представлены.

При подборе параметров модели латерального торможения была принята следующая интерпретация данных Хирато и др. Считалось, что на отклике модели все четыре формантные пика должны быть представлены отделенными друг от друга выбро­ сами. Модель «чувствует» уменьшение интенсивности гармоники, если оно приводит или к сдвигу положения выброса по шкале z, или к изменению порядковых отношений между выбросами по их величине (например, четвертый выброс становится большим,

264

чем третий). Кроме того, использовалось еще одно ограничение, состоящее в том, что отклик модели на чистый тон должен харак­

теризоваться только

одним положительным выбросом.

В отношении вида

весовых функций было принято, что для

каждого из 240 элементов модели возбуждающая связь ограни­ чена одним соответствующим ему периферическим частотным ка­ налом (одним фильтром модели вычисления слухового спектра), а весовая функция тормозных связей имеет колоколообразную

Рис. 10.14. Восприятие изменений интенсивности отдельных гармоник в спектре синтетического гласного [а]. По [29eJ.

По оси абсцисс — частота гармоники; по оси ординат справа — относительный уровень интенсивности гармоник в спектре стандартного гласного, слева — пороговые уменьше­

ния уровня тестируемой гармоники, при котором обнаруживается различие между стан­ дартным и переменным гласными. Остальные обозначения см. в тексте.

форму (импульс Гаусса) и характеризуется двумя параметрами — J3 и А (рис. 10.15). Порог принимался равным нулю.

Оказалось, что наилучшее согласие с данными эксперимента Хирато и др. достигается при 6=0.9 Барк и А =—0.088, причем диапазоны допустимых значений параметров являются очень уз­ кими. Отклик модели латерального торможения, g* (z), на слухо­ вой спектр исходного гласного [а] при этих значениях параметров приведен на рис. 10.16. Можно видеть, что, кроме формантных максимумов, модель выделяет также максимумы, соответствую­ щие пяти нижним гармоникам Fo (f0=125 Гц).

Основной вывод, вытекающий из пока еще весьма ограничен­ ного опыта исследования моделей латерального торможения, состоит в следующем: 1) весовые функции должны быть достаточно узкими по шкале z, иначе модель не будет выделять тех неодно­ родностей на спектре гласных, которые обнаруживает человек;

265

2) при описании отклика модели приходится учитывать не только положение положительных выбросов на шкале z, но также хотя бы порядковые отношения между выбросами по их величине; без этого модель не будет различать гласные стимулы, различаемые

человеком.

Рис. 10.15. Весовая функция тормозных связей, принятая в модели латераль­ ного торможения.

А и р — параметры весовой функции.

Иначе говоря, совместимая с психоакустикой модель латераль­

ного

торможения не может еще обеспечить чисто пространствен­

ного

кодирования спектральной информации — кроме

сведений

о положении неоднородностей по шкале z, должна еще в

какой-то

мере присутствовать информация о величине, или «мощности»,

Рис. 10.16. Отклик модели латерального торможения на слуховой спектр синтетического гласного [а], приведенный на рис. 10.9.

По оси абсцисс — высота; по оси ординат — величина отклика. —Г4 — формантные максимумы.

неоднородностей. Кроме того, число выделяемых неоднородностей оказывается в общем случае большим числа формант в гласном.

Так как это приходит в противоречие с формантной гипотезой восприятия гласных, приходится думать, что или выделение формант происходит каким-то другим способом, или сама формант­ ная гипотеза является ошибочной и человек пользуется при фо­ немной классификации гласных более «богатым» описанием спек­ тра стимула, чем это предполагается формантной гипотезой.

266

10.5. ЧИСЛО ПОЛЕЗНЫХ ПРИЗНАКОВ ГЛАСНЫХ

Известно, что при синтезе гласных [и], [о], [а] можно обойтись одним формантным контуром или группой из двух-трех соседних по частоте гармоник. Испытуемый будет достаточно уверенно идентифицировать эти стимулы с фонемами, хотя естест­ венность гласного будет значительно снижена. Весь набор гласных может быть синтезирован с использованием двух формант [229]. Существенно, что значения Fz в двухформантном гласном должны в случае гласных [i], [е] существенно превышать по частоте зна­ чения F2 в естественном гласном [208, 253].

Одна из возможных интерпретаций этих фактов состоит в том, что человек использует в качестве признаков спектра естествен­ ного гласного не формантные максимумы, а что-то вроде «центров тяжести». В принципе такие признаки могли бы появиться, если бы разрешающая способность слухового анализатора была очень низкой (это предположение, как мы видели, исключается) или в модели латерального торможения использовались бы весьма широкие по z весовые функции. Эта интерпретация была очень отчетливо высказана в работах [206, 207]. Авторы использовали предположение, что, воспринимая четырехформантный (близкий к естественному) синтетический гласный, человек определяет его значения всего по двум признакам — двум «субъективным» фор­ мантам. По таким же двум признакам описывается при восприя­ тии и двухформантный гласный. Если эта точка зрения верна, то, найдя пары, состоящие из максимально субъективно близких четырехформантного и двухформантного гласных, можно по­ пытаться придумать такую модель (процедуру обработки сигна­ лов), отклик которой на четырехформантный и двухформантный гласные будет одинаковым. Эта модель и будет, согласно приня­ тому допущению, моделью восприятия гласного.

Однако априорно допустима и такая точка зрения, что в че­ тырехформантном или естественном гласном человек выделяет больше признаков, чем реально есть в двухформантном или одно­ формантном гласном. Если перед человеком ставится задача по­ добрать к «богатому» признаками сигналу такой «бедный» при­ знаками сигнал, чтобы оба звука были максимально похожи, ему, возможно, ничего не остается, кроме как игнорировать неко­ торые из признаков «богатого» сигнала, т. е. ориентироваться лишь на самые важные признаки. Главная трудность, с которой сталки­ вается эта вторая точка зрения, состоит в том, что она необхо­ димо предполагает использование какой-то меры важности, или мощности, признака.

Экспериментальная процедура, при которой от испытуемого требуется подобрать к предположительно более «богатому» сиг­ налу наиболее похожий на него более «бедный» сигнал, широко используется в психоакустике (подбор стационарного тона к тону, изменяющемуся во времени, подбор тона к полосовому шуму

267

Рис. 10.17. Спектры шведских гласных. По [208].

Па оси абсцисс — частота (в Гц); по оси ординат — уровень интенсивности (в дБ).

и т. д.). Основная информация, получаемая в таком эксперименте, содержится в гистограмме подобранных значений. Только в том случае, если распределение подобранных значений является одно­ модальным, можно делать вывод о том, что человек основывается на некотором среднем из предположительных параметров иссле­ дуемого стимула. Наличие двух максимумов на распределении (соответствующих, например, начальному и конечному значениям частоты изменяющегося стимула, или частотам среза полосовых шумов) подтверждает гипотезу большого «богатства» исследуемого стимула, а относительная выраженность максимумов позволяет

Рис. 10.18. Результаты подбора

для достижения наибольшего сходства

двухформантного гласного

с четырехформантным. По [208].

Горизонтальными линиями показаны частоты формант в исходных четырехформантных гласных; прямоугольниками показаны средние значения F->.

примерно оценить относительную важность параметров. Такая характеристика как среднее из подобранных значений несет очень мало информации, так как не позволяет выбрать между гипоте­ зами.

Во всех описываемых ниже экспериментах использовалась процедура подбора более «бедного» сигнала к предположительно более «богатому».

В уже упоминавшейся работе Карлсона и др. [208] применялись четырехформантные синтетические гласные, огибающие спектров которых приведены на рис. 10.17. Испытуемые сравнивали эти гласные с двухформантными гласными. Двухформантный гласный совпадал с четырехформантным по Fx. Задача испытуемого состояла в подборе F'2, т. е. такого значения частоты второй форманты двухформантного гласного (F'„), при котором сравниваемые глас­ ные оказывались наиболее близкими.

269

Средние из подобранных значений приведены на рис. 10.18. Можно видеть, что для [и], [о], [а] они хорошо совпадают с F2 в четырехформантном гласном. В остальных случаях наблюдается отчетливое смещение среднего в сторону более высоких формант.

На основании этих данных авторы сделали вывод о том, что все три верхние форманты описываются при восприятии одним параметром, являющимся функцией или только частот этих фор­ мант (один вариант) или всего спектра в высокочастотной области (второй вариант). Так как авторы не приводят никаких данных относительно распределений устанавливаемых значений F2, вопрос об обоснованности этого вывода остается открытым. Сопоставив

рис. 10.17 и 10.18, легко заме­ тить, что близость F'„ к тому или другому формантному максимуму,

возможно,

связана

с

амплиту-

Рис.

10.19.

Результаты

подбора F3

для

достижения наибольшего

сход­

ства двухформантного гласного с трех­

 

 

формантным.

 

 

А — среднее

значение F2

(по

оси

ординат)

как функция уровня интенсивности третьей форманты в трехформантном гласном; Б — стандартное отклонение (по оси ординат)

подбираемых значений F'j- По оси абсцисс — уровень интенсивности третьей форманты.

Суммарные данные трех испытуемых.

дой этого максимума на спектре. Смещения F2 и F2 не наблюдается для тех гласных, где относительные амплитуды верхних формант очень малы ([и], [о], [а]). В случае [i] третья и четвертая фор­ манты больше по амплитуде, чем вторая, соответственно среднее F'2 находится между F3 и Для [е] амплитуда третьей форманты больше амплитуды второй и F2 находится ближе к F3- для [у] амплитуда второй форманты больше, чем амплитуда третьей, и F2 располагается ближе к F2. Наконец, в случае [ае] амплитуды второй и третьей формант примерно равны и F2 располагается примерно посередине между F2 и F3.

Роль относительных амплитуд формант была показана в экс­ периментах [40°] по подбору F2 в двухформантном гласном для получения наибольшего сходства с трехформантным гласным. Fo и в обоих стимулах совпадали (^=120, /г1=300 Гц). Час­ тоты второй и третьей формант в трехформантном стимуле состав­ ляли 1480 и 2500 Гц соответственно. Переменным параметром трехформантного стимула являлся относительный уровень интен­ сивности третьей форманты. Он изменялся в диапазоне 45 дБ шагом до 5 дБ.

Рис. 10.19, А показывает, что при малых уровнях интенсив­ ности третьей форманты F2 совпадает с F2, при больших уровнях

270

Соседние файлы в папке Нормальная физиология