2 курс / Нормальная физиология / Физиология_речи_Восприятие_речи_человеком_Чистович_Л_А_
.pdfВ работе Мушникова и Чистович [107] определялась граница по Fr между [i] и [е] при разных значениях уровня интенсивности второй форманты двухформантного гласного. Полученные данные показали (рис. 10.11), что изменения уровня интенсивности в диа пазоне 40 дБ не влияют на положение границы.
Рис. 10.11. Положение границы по частоте первой форманты между глас ными [i] и [е] при разных значениях интенсивности второй форманты (Т?2= =2250 Гц). По [107].
По оси абсцисс — уровень интенсивности второй форманты; по оси ординат — ча стота первой форманты.
Вывод о том, что существенным является именно частотное положение спектрального максимума, а форма спектра сигнала даже вблизи этого максимума не имеет большого значения, следует также из данных по фонемной классификации стационарных шум-
Рис. 10.12. Спектры естественных изолированно произнесенных соглас ных [s] (вверху) и [J] (внизу). По Рм].
ных согласных [165, 167]. На рис. 10.12 приведены спектры естест венных изолированных согласных [s] и [J], Точкой отмечен спек тральный максимум, частотное положение которого, как пока зано в [165], определяет высоту звука и одновременно используется носителями русского языка для различения твердых и мягких согласных.
261
В контрольных экспериментах [1в7] использовались полусинтетические стимулы: основная часть спектра стимула (выше 2500 Гц) создавалась за счет естественных согласных, нижняя часть спектра создавалась с помощью шума, пропущенного через резонансный контур с перестраиваемой частотой. Определялась частота контура (спектрального максимума), соответствующая границе между твердыми и мягкими согласными. Оказалось, что значения границы практически идеально совпали для [s] и [)], хотя, как видно из рис. 10.12, спектры этих звуков в основной их части сильно различаются.
Для того чтобы приведенные данные были совместимы с гипо тезой кодирования величиной возбуждения (см. раздел 10.1.1), необходимо допустить, что коэффициенты связи суммирующего элемента с частотными каналами периферической слуховой системы не равны нулю лишь на весьма ограниченных участках шкалы z. Лишь в этом случае отклик сумматора будет определяться только локальными свойствами спектра. Очевидно, что при этом допуще нии гипотеза теряет всю свою привлекательность.
10.3.2. НЕОДНОРОДНОСТЬ НА СПЕКТРЕ КАК ФОНЕТИЧЕСКИЙ ПРИЗНАК
В работе [108] была сделана попытка определить, какими особенностями должен характеризоваться спектр синте тического гласного, чтобы человек мог обнаружить присутствие
вэтом гласном второй форманты.
Вэкспериментах применялись двухформантные синтетические гласные с ^=600 Гц, Го=300 Гц и переменными значениями Г2. Когда вторая форманта в стимуле полностью подавлялась, сигнал воспринимался как [о] или [и]. Определялось минимальное значе ние амплитуды второй форманты, при котором звук изменял фо немное качество. В результате эксперимента был получен набор спектров, соответствующих порогу обнаружения второй форманты. Три из них приведены на рис. 10.13. Можно видеть, что в спектре, соответствующем стимулу с Г2=1500 Гц, формально нет второго максимума (амплитуда гармоники с частотой 1500 Гц равна та ковой для ближайшей более низкой гармоники). В данном слу
чае |
приходится говорить не о максимуме, а о неоднородности |
на |
спектре. |
|
В ряде психоакустических экспериментов показано, что высота |
полосового или широкополосного шума со срезом в области низ
ких |
(высоких) частот определяется частотой края (или краев) |
на |
спектре этого шума [257, 47°]. |
В одном из вариантов упоминавшихся выше экспериментов [1661 |
по восприятию твердости/мягкости полусинтетических согласных [s] и [(] низкочастотная часть спектра стимула создавалась за счет шума, пропущенного через фильтр высоких частот; исследуемой переменной была частота среза. Оказалось, что край на спектре
202
играет ту же роль, что и спектральный максимум. В зависимости от значения частоты среза согласный воспринимался как твердый или мягкий.
Таким образом, приведенные в насто ящем разделе экспериментальные 'данные позволяют сформулировать два требова ния к модели, осуществляющей выделе ние признаков на слуховом спектре сти мула: 1) модель должна выделять локаль ные особенности функции g (z), 2) модель должна схожим образом реагировать на максимумы и на неоднородности на g (z). Этим требованиям удовлетворяет модель латерального торможения. Использование латерального торможения для выделения неоднородностей на g(z) представляется достаточно правдоподобным с точки зрения физиологии слуха.
Подчеркнем еще раз, что допущение гипотезы латерального торможения еще отнюдь не означает, что тем самым автома тически принимается формантная гипо теза. В зависимости от параметров модели латерального торможения она будет вы делять или форманты, или какие-то дру гие особенности на слуховом спектре гласного.
Рис. 10.13. Линейчатые спектры синтетических гласных, соответствующие порогу обнаружения второй ^форманты. По [108].
По оси. абсцисс — частота; по оси ординат — уровень интенсивности. Стрелкой показана гармоника с часто той F2.
10.4. ВЫДЕЛЕНИЕ НЕОДНОРОДНОСТЕЙ НА СЛУХОВОМ СПЕКТРЕ МОДЕЛЬЮ ЛАТЕРАЛЬНОГО ТОРМОЖЕНИЯ
Хотя идея использования латерального торможения в моделях слуховой обработки сигнала является весьма популяр ной (см. обзор [ш]), работы, направленные на определение значе ний параметров латерального торможения, совместимых с психо акустическими данными, находятся в самой начальной стадии.
Если вход модели определен как слуховой спектр стимула (см. раздел 10.2) и сделан ряд общепринятых допущений относи тельно структуры модели (см. главу 9), то требующими определе
263
ния параметрами остаются весовые функции возбуждающих и тор мозных связей и значения порога. При этом следует еще подчеркнуть, что вопрос о способе взаимодействия суммарных воз буждающих и тормозных сигналов пока остается открытым (см. главу 9). Неясно также, какую амплитудную характеристику преобразователя энергии в "плотность импульсации (степенную или логарифмическую) следует предпочесть. В модели Карницкой [313] принималось первое допущение, Темов [131] рассматривал вариант, соответствующий второму допущению.
В обеих работах использовался следующий подход. Выби рался небольшой набор спектров стимулов, для которых было установлено, что человек обнаруживает в стимулах те или другие неоднородности. Принималось, что обнаружение неоднородности соответствует представлению этой неоднородности в отклике мо дели положительным выбросом g* (z), отделенным от соседних выбросов некоторым интервалом, где g* (z) ниже порога. Тре бовалось найти параметры весовых функций (вид функций прини мался априорно), при которых это условие, а также некоторые дополнительные условия выполняются. Существенный результат, полученный в обеих работах, состоял в том, что интервал Az, на котором задаются весовые функции, должен быть достаточно узким, не должен превышать 2—3 Барк.
Остановимся в качестве иллюстрации на одной из попыток подбора параметров, предпринятой Карницкой. За основу при
подборе параметров были |
взяты данные |
эксперимента |
Хирато |
и др. [296] по восприятию |
синтетического |
гласного [а]. |
Экспери |
мент состоял в том, что испытуемые сравнивали стандартный глас ный (значения амплитуд его 32 гармоник показаны точками на рис. 10.14) с тем же гласным, одна из гармоник которого была уменьшена по амплитуде. Определялось минимальное уменьше ние уровня интенсивности гармоники, при котором человек раз личает эти два стимула. Такие измерения поочередно проводи лись для всех гармоник. Полученные данные приведены в нижней части рис. 10.14. Крестиками отмечены те гармоники, исключение которых из спектра звука испытуемые не обнаруживали.
Можно видеть, что в области выше 1500 Гц человек чувствует уменьшение интенсивности только тех двух гармоник, которые соответствуют формантным максимумам (третьей и четвертой формантам). Рис. 10.9 показывает, что на слуховом спектре глас ного эти верхние формантные максимумы отчетливо представлены.
При подборе параметров модели латерального торможения была принята следующая интерпретация данных Хирато и др. Считалось, что на отклике модели все четыре формантные пика должны быть представлены отделенными друг от друга выбро сами. Модель «чувствует» уменьшение интенсивности гармоники, если оно приводит или к сдвигу положения выброса по шкале z, или к изменению порядковых отношений между выбросами по их величине (например, четвертый выброс становится большим,
264
чем третий). Кроме того, использовалось еще одно ограничение, состоящее в том, что отклик модели на чистый тон должен харак
теризоваться только |
одним положительным выбросом. |
В отношении вида |
весовых функций было принято, что для |
каждого из 240 элементов модели возбуждающая связь ограни чена одним соответствующим ему периферическим частотным ка налом (одним фильтром модели вычисления слухового спектра), а весовая функция тормозных связей имеет колоколообразную
Рис. 10.14. Восприятие изменений интенсивности отдельных гармоник в спектре синтетического гласного [а]. По [29eJ.
По оси абсцисс — частота гармоники; по оси ординат справа — относительный уровень интенсивности гармоник в спектре стандартного гласного, слева — пороговые уменьше
ния уровня тестируемой гармоники, при котором обнаруживается различие между стан дартным и переменным гласными. Остальные обозначения см. в тексте.
форму (импульс Гаусса) и характеризуется двумя параметрами — J3 и А (рис. 10.15). Порог принимался равным нулю.
Оказалось, что наилучшее согласие с данными эксперимента Хирато и др. достигается при 6=0.9 Барк и А =—0.088, причем диапазоны допустимых значений параметров являются очень уз кими. Отклик модели латерального торможения, g* (z), на слухо вой спектр исходного гласного [а] при этих значениях параметров приведен на рис. 10.16. Можно видеть, что, кроме формантных максимумов, модель выделяет также максимумы, соответствую щие пяти нижним гармоникам Fo (f0=125 Гц).
Основной вывод, вытекающий из пока еще весьма ограничен ного опыта исследования моделей латерального торможения, состоит в следующем: 1) весовые функции должны быть достаточно узкими по шкале z, иначе модель не будет выделять тех неодно родностей на спектре гласных, которые обнаруживает человек;
265
2) при описании отклика модели приходится учитывать не только положение положительных выбросов на шкале z, но также хотя бы порядковые отношения между выбросами по их величине; без этого модель не будет различать гласные стимулы, различаемые
человеком.
Рис. 10.15. Весовая функция тормозных связей, принятая в модели латераль ного торможения.
А и р — параметры весовой функции.
Иначе говоря, совместимая с психоакустикой модель латераль
ного |
торможения не может еще обеспечить чисто пространствен |
|
ного |
кодирования спектральной информации — кроме |
сведений |
о положении неоднородностей по шкале z, должна еще в |
какой-то |
мере присутствовать информация о величине, или «мощности»,
Рис. 10.16. Отклик модели латерального торможения на слуховой спектр синтетического гласного [а], приведенный на рис. 10.9.
По оси абсцисс — высота; по оси ординат — величина отклика. —Г4 — формантные максимумы.
неоднородностей. Кроме того, число выделяемых неоднородностей оказывается в общем случае большим числа формант в гласном.
Так как это приходит в противоречие с формантной гипотезой восприятия гласных, приходится думать, что или выделение формант происходит каким-то другим способом, или сама формант ная гипотеза является ошибочной и человек пользуется при фо немной классификации гласных более «богатым» описанием спек тра стимула, чем это предполагается формантной гипотезой.
266
10.5. ЧИСЛО ПОЛЕЗНЫХ ПРИЗНАКОВ ГЛАСНЫХ
Известно, что при синтезе гласных [и], [о], [а] можно обойтись одним формантным контуром или группой из двух-трех соседних по частоте гармоник. Испытуемый будет достаточно уверенно идентифицировать эти стимулы с фонемами, хотя естест венность гласного будет значительно снижена. Весь набор гласных может быть синтезирован с использованием двух формант [229]. Существенно, что значения Fz в двухформантном гласном должны в случае гласных [i], [е] существенно превышать по частоте зна чения F2 в естественном гласном [208, 253].
Одна из возможных интерпретаций этих фактов состоит в том, что человек использует в качестве признаков спектра естествен ного гласного не формантные максимумы, а что-то вроде «центров тяжести». В принципе такие признаки могли бы появиться, если бы разрешающая способность слухового анализатора была очень низкой (это предположение, как мы видели, исключается) или в модели латерального торможения использовались бы весьма широкие по z весовые функции. Эта интерпретация была очень отчетливо высказана в работах [206, 207]. Авторы использовали предположение, что, воспринимая четырехформантный (близкий к естественному) синтетический гласный, человек определяет его значения всего по двум признакам — двум «субъективным» фор мантам. По таким же двум признакам описывается при восприя тии и двухформантный гласный. Если эта точка зрения верна, то, найдя пары, состоящие из максимально субъективно близких четырехформантного и двухформантного гласных, можно по пытаться придумать такую модель (процедуру обработки сигна лов), отклик которой на четырехформантный и двухформантный гласные будет одинаковым. Эта модель и будет, согласно приня тому допущению, моделью восприятия гласного.
Однако априорно допустима и такая точка зрения, что в че тырехформантном или естественном гласном человек выделяет больше признаков, чем реально есть в двухформантном или одно формантном гласном. Если перед человеком ставится задача по добрать к «богатому» признаками сигналу такой «бедный» при знаками сигнал, чтобы оба звука были максимально похожи, ему, возможно, ничего не остается, кроме как игнорировать неко торые из признаков «богатого» сигнала, т. е. ориентироваться лишь на самые важные признаки. Главная трудность, с которой сталки вается эта вторая точка зрения, состоит в том, что она необхо димо предполагает использование какой-то меры важности, или мощности, признака.
Экспериментальная процедура, при которой от испытуемого требуется подобрать к предположительно более «богатому» сиг налу наиболее похожий на него более «бедный» сигнал, широко используется в психоакустике (подбор стационарного тона к тону, изменяющемуся во времени, подбор тона к полосовому шуму
267
Рис. 10.17. Спектры шведских гласных. По [208].
Па оси абсцисс — частота (в Гц); по оси ординат — уровень интенсивности (в дБ).
и т. д.). Основная информация, получаемая в таком эксперименте, содержится в гистограмме подобранных значений. Только в том случае, если распределение подобранных значений является одно модальным, можно делать вывод о том, что человек основывается на некотором среднем из предположительных параметров иссле дуемого стимула. Наличие двух максимумов на распределении (соответствующих, например, начальному и конечному значениям частоты изменяющегося стимула, или частотам среза полосовых шумов) подтверждает гипотезу большого «богатства» исследуемого стимула, а относительная выраженность максимумов позволяет
Рис. 10.18. Результаты подбора |
для достижения наибольшего сходства |
двухформантного гласного |
с четырехформантным. По [208]. |
Горизонтальными линиями показаны частоты формант в исходных четырехформантных гласных; прямоугольниками показаны средние значения F->.
примерно оценить относительную важность параметров. Такая характеристика как среднее из подобранных значений несет очень мало информации, так как не позволяет выбрать между гипоте зами.
Во всех описываемых ниже экспериментах использовалась процедура подбора более «бедного» сигнала к предположительно более «богатому».
В уже упоминавшейся работе Карлсона и др. [208] применялись четырехформантные синтетические гласные, огибающие спектров которых приведены на рис. 10.17. Испытуемые сравнивали эти гласные с двухформантными гласными. Двухформантный гласный совпадал с четырехформантным по Fx. Задача испытуемого состояла в подборе F'2, т. е. такого значения частоты второй форманты двухформантного гласного (F'„), при котором сравниваемые глас ные оказывались наиболее близкими.
269
Средние из подобранных значений приведены на рис. 10.18. Можно видеть, что для [и], [о], [а] они хорошо совпадают с F2 в четырехформантном гласном. В остальных случаях наблюдается отчетливое смещение среднего в сторону более высоких формант.
На основании этих данных авторы сделали вывод о том, что все три верхние форманты описываются при восприятии одним параметром, являющимся функцией или только частот этих фор мант (один вариант) или всего спектра в высокочастотной области (второй вариант). Так как авторы не приводят никаких данных относительно распределений устанавливаемых значений F2, вопрос об обоснованности этого вывода остается открытым. Сопоставив
рис. 10.17 и 10.18, легко заме тить, что близость F'„ к тому или другому формантному максимуму,
возможно, |
связана |
с |
амплиту- |
||
Рис. |
10.19. |
Результаты |
подбора F3 |
||
для |
достижения наибольшего |
сход |
|||
ства двухформантного гласного с трех |
|||||
|
|
формантным. |
|
|
|
А — среднее |
значение F2 |
(по |
оси |
ординат) |
как функция уровня интенсивности третьей форманты в трехформантном гласном; Б — стандартное отклонение (по оси ординат)
подбираемых значений F'j- По оси абсцисс — уровень интенсивности третьей форманты.
Суммарные данные трех испытуемых.
дой этого максимума на спектре. Смещения F2 и F2 не наблюдается для тех гласных, где относительные амплитуды верхних формант очень малы ([и], [о], [а]). В случае [i] третья и четвертая фор манты больше по амплитуде, чем вторая, соответственно среднее F'2 находится между F3 и Для [е] амплитуда третьей форманты больше амплитуды второй и F2 находится ближе к F3- для [у] амплитуда второй форманты больше, чем амплитуда третьей, и F2 располагается ближе к F2. Наконец, в случае [ае] амплитуды второй и третьей формант примерно равны и F2 располагается примерно посередине между F2 и F3.
Роль относительных амплитуд формант была показана в экс периментах [40°] по подбору F2 в двухформантном гласном для получения наибольшего сходства с трехформантным гласным. Fo и F± в обоих стимулах совпадали (^=120, /г1=300 Гц). Час тоты второй и третьей формант в трехформантном стимуле состав ляли 1480 и 2500 Гц соответственно. Переменным параметром трехформантного стимула являлся относительный уровень интен сивности третьей форманты. Он изменялся в диапазоне 45 дБ шагом до 5 дБ.
Рис. 10.19, А показывает, что при малых уровнях интенсив ности третьей форманты F2 совпадает с F2, при больших уровнях
270