Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2 курс / Нормальная физиология / Физиология_речи_Восприятие_речи_человеком_Чистович_Л_А_

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
13.47 Mб
Скачать

третьей форманты F2 совпадает с Р3. Переходный участок, где Р2 находится между F2 и F3, составляет примерно 25 дБ. Существенно, что среднее квадратичное отклонение устанавливаемых значений F'„ (рис. 10.19, Б) резко возрастает на этом переходном участке. Это связано с тем, что на переходном участке испытуемые уста­ навливают F2 в части случаев близко к F2, а в части случаев — близко к F3 (см. рис. 10.20, где показаны распределения установ­ ленных значений F2 для одного испытуемого).

Данные рис. 10.19 и 10.20 несовместимы с предположением, что F2 и F3 описываются всего одним обобщенным параметром. Необходимо принять, что в диапазоне уровней, по крайней мере не меньшем 10 дБ, человек располагает информацией о частотах и F2, и F3, т. е. обе форманты представлены как самостоятельные признаки гласного.

Отсутствие усреднения по z при восприятии гласных было показано в работе [217]. В роли предположительно более богатых признаками стимулов выступали синтетические двухформантные гласные. Для исключения гармонической структуры спектра использовалось возбуждение формантных фильтров от генератора шума. Частоты Fr и F2 изменялись в диапазоне 200—1100 Гц, разница формантных частот (F2—Рг) составляла 100, 150 и 200 Гц. Всего в эксперименте было использовано 26 сочетаний формант­ ных частот. Испытуемому предъявлялись следующие друг за дру­ гом пары стимулов, один из которых имел две форманты (частоты их устанавливались экспериментатором), второй стимул был одноформантным, а частота его форманты F^ подбиралась испы­ туемым для получения наибольшего сходства стимулов в паре. Гистограммы подобранных частот F[ представлены на рис. 10.21. Значения по оси абсцисс соответствуют нормированному расстоя­ нию между величинами F[ и частотами формант исходного стимула, 0 означает равенство F[ с Fx, i — равенство F[ с F2. Гистограмма А построена для случая, когда расстояние между Ft и Fz больше критической полосы. Гистограмма Б — для случая, когда рас­ стояние равно или меньше критической полосы. Можно видеть, что только вторая гистограмма характеризуется одним макси­ мумом, находящимся на частоте, близкой к половине расстояния между формантами. Гистограмма А свидетельствует о том, что F[

устанавливается

испытуемыми на

частотах,

близких к Fr и F3,

т. е. что и Fv и Р2 выступают в

роли самостоятельных признаков

гласного.

расстояние между

и Р2

в этих экспериментах

Заметим, что

(ЮО—200 Гц)

соответствует

расстоянию

между гармониками

в спектре нормальных гласных, образуемых при голосовом источ­ нике возбуждения.

Вопрос о том, определяет ли человек при восприятии некоторый суммарный максимум на слуховом спектре, соответствующий первой форманте в гласном с гармоническим спектром, или он

271

Рис. 10.20. Распределения значений F’2, установленных одним испытуемым при подборе двухформантных гласных, максимально приближающихся к трех­ формантным гласным с различными уровнями интенсивности третьей фор­ манты (Л3).

Рис. 10.21. Гистограммы значений F[, установленных при подборе однофор­ мантного стимула, максимально приближающегося к двухформантному гласному.

А — разница F, и F„ в исходных двухформантных стимулах превышает ширину критиче­ ской полосы; В — разница равна или меньше ширины критической полосы. Обозначения см. в тексте.

выделяет максимумы, соответствующие отдельным гармоникам, исследовался в работе [163].

В роли предположительно более «богатого» признаками сиг­ нала выступал двухформантный гласный с фиксированным зна­ чением ^=2300 Гц и переменным значением Fv Уравниваемый с ним стимул представлял собой сумму чистого тона и сигнала, соответствующего изолированной второй форманте с тем же зна­ чением 7,,2=2300 Гц. Эксперимент проводился при нескольких

значениях

частоты основного тона в диапазоне от 80 до 200 Гц.

Частота

двухформантного гласного менялась в диапазоне

Рис. 10.22. Зависимость среднего значения подобранной частоты тона в слож­ ном стимуле (гео оси ординат) от частоты первой форманты в двухформантном гласном (гео оси абсцисс). По [1вз].

А - частота основного тона (Го) в двухформантном гласном равна 100 Гц; В — Го=80 Гц.

300—600 Гц ступенями по 20 Гц. Задача испытуемого состояла в подборе значений частоты тона (/) во втором стимуле, при кото­ ром оба стимула в паре максимально совпадали по фонетическому

качеству.

На рис. 10.22 приведены зависимости среднего значения уста­ новленной частоты тона от Fr, полученные при 7^0=80 и 100 Гц. Можно видеть, что при 7^0=100 Гц зависимость имеет отчетливо ступенчатый характер, т. е. испытуемый устанавливает частоту

тона не на частоте форманты, а на

частоте гармоники, наибо­

лее близкой к F, гласного. При 7^o=8O Гц кривая

зависимости

приобретает более плавный характер,

однако анализ гистограмм

установленных значений / показывает, что в нижней области

(300—400 Гц) по-прежнему имеются

выраженные

максимумы

на частотах гармоник.

Таким образом, приходится сделать вывод, что человек дей­ ствительно выделяет в слуховом спектре гласного стимула зна­ чительно большее число неоднородностей, чем этого хотелось бы с точки зрения наибольшей простоты схемы фонемной классифи­ кации гласных.

13 Физиология речи

273

10.6. ПРОБЛЕМЫ ФОНЕМНОЙ ИНТЕРПРЕТАЦИИ

СЛУХОВОГО ОПИСАНИЯ ГЛАСНЫХ

Если бы гипотеза двухформантного описания гласных оправдалась, разработка модели фонемной классификации глас­ ных, очевидно, не представляла бы формальных трудностей. К сожалению, гипотеза не оправдывается. Приходится считать, что число неоднородностей в спектре гласного, обнаруживаемых человеком, не только больше двух, но, что особенно неприятно, различно в разных гласных и зависит от конкретных особенностей стимула — таких, например, как значение его основной частоты.

Рис. 10.23. Схематическое изображение спектра стимула, применявшегося в экспериментах по определению условий «равной значимости» нижних гар­ моник в стимуле. По [110].

Это значит, что мы никак не можем просто пронумеровать все неоднородности слева направо (как это делается с формантами)

исчитать соответствующие им значения z признаками гласного. Экспериментальные данные, приведенные выше (раздел 10.5),

заставляют думать, что человек учитывает что-то вроде «мощности» неоднородности, причем эта «мощность» связана с относительной величиной максимума на спектре. Вопрос о том, как оценивается «мощность», пока остается открытым.

Попытка найти экспериментальные подходы к решению воп­ роса была сделана в работах [106> 109’ 110], где применялся гармо­ нический сигнал, спектр которого схематически показан на рис. 10.23. Гармоника а всегда была ниже, а гармоника b — выше 400 Гц.

274

В зависимости от разности уровней гармоник (£я, Lt) стимул воспринимался как [i] (при La >> L4) или как [е] (при La <Lb). Задачей эксперимента было нахождение комбинаций La, Lb, со­ ответствующих «равной значимости» гармоник (равная вероят­ ность восприятия [i] и [е]), и построение частотного контура «равной значимости». Эксперимент проводился методом уста­ новки (испытуемый сам изменял La или Г4); этим же методом определялись комбинации La, Lb, соответствующие равной гром­ кости. Результаты показали, что контур «равной значимости» отличается от контура равной громкости в основном понижением «значимости» гармоники с повышением частоты. Не исключено, что это связано с угнетающим влиянием высокочастотной об­ ласти спектра применявшегося стимула.

Выяснился также такой неприятный факт, что величина La—Lb, соответствующая «равной значимости», подвержена мед­ ленным флюктуациям, резко превышающим по величине размаха как флюктуации разности уровней при последовательных уста­ новках равной громкости, так и флюктуации порога обнаружения слабого спектрального максимума [по]. Это означает, что нужно искать какие-то другие экспериментальные методы исследования.

Необходимо заметить, что использование «мощности» для нумерации (ранжирования) неоднородностей кажется совмести­ мым с экспериментальными данными лишь при таком дополни­ тельном допущении, что шкала z разбита на два интервала (с гра­ ницей около 1500 Гц) и что ранжирование неоднородностей осу­ ществляется внутри этих интервалов. Необходимость этого до­ пущения следует из двух фактов. Во-первых, очень значительные изменения относительной амплитуды первой форманты весьма мало влияют на восприятие таких гласных, как [i], [е], [у], [п] (см. раздел 10.3). Во-вторых, появление едва обнаруживаемой неоднородности на спектре звука в области выше 1500 Гц несов­ местимо с восприятием стимула как [и], [о] [108].

Итак, имеющиеся в настоящее время экспериментальные дан­ ные не оставляют, как кажется, сомнений в том, что обработка слухового спектра обеспечивает выделение неоднородностей на g (z) и что положение неоднородностей на шкале z является по­ лезной информацией, используемой при распознавании фонем. Однако вопрос о том, по каким правилам происходит ранжирова­ ние неоднородностей, при каких условиях выделенная неодно­ родность определяет фонемное качество звука речи, а при каких относится, например, к индивидуальным характеристикам дик­ тора, пока остается открытым.

18*

Г , г а а а Л

СЛУХОВАЯ ОБРАБОТКА ОГИБАЮЩЕЙ СТИМУЛА

11.1. ОБЩИЕ ПРЕДСТАВЛЕНИЯ О СЛУХОВОЙ

обработке огибающей

Как показано в главе 8, плотность импульсации в Z-том частотном канале периферической слуховой системы g. (t) приближенно воспроизводит колебания на выходе Z-того фильтра улитки, подвергнутые одно-полупериодному выпрямлению. При дальнейшей обработке сигнала на более высоких уровнях слухо­ вой системы g; (t) подвергается сглаживанию, благодаря чему выделяется огибающая сигнала (см. главу 9) в частотном канале.

Проблема обработки огибающей стимула рассматривалась в психоакустической литературе преимущественно с точки зре­

ния

характеристик сглаживания gi (Z) [2во, 2sij Принимая, что

g( (Z)

пропускается через фильтр нижних частот, задача исследова­

ния формулируется как определение амплитудно-частотной ха­ рактеристики этого фильтра или, если априорно допускается, что фильтр является инерционным звеном первого порядка, как определение его постоянной времени.

Легко заметить, что модель, состоящая только из фильтра нижних частот, не может воспроизвести способность человека обнаруживать изменения в огибающей стимула, например, обна­ руживать наличие амплитудной модуляции. При сопоставлении экспериментальных данных с моделью молчаливо предполагается присутствие наблюдателя, который оценивает осциллограмму отклика фильтра нижних частот на gt (Z) и решает, присут­ ствуют ли на ней колебания или неравномерности.

Естественно, что обработка g(. (Z) в устройстве, моделирующем восприятие речи, должна быть полностью автоматической, т. е. модель должна включать не только сглаживание g,- (Z), но и извле­ чение из g( (Z) полезной информации.

Рассматривая психоакустические и электрофизиологические данные, можно выделить два типа полезных признаков g<(Z),

276

предполагающих, по всей вероятности, разные процедуры ее обра­ ботки.

Одна группа признаков связана с абсолютными значениями более или менее сильно сглаженной Это «громкость» в час­ тотной полосе. Предполагается, что суммирование по всем частот­ ным полосам дает общую громкость звука (см. главу 10). Вопрос о том, сколько значений громкости приписывается при восприятии одному звуку — отрезку звукового потока — пока остается от­ крытым. Допускаются значения громкости как в ее экстремаль­ ной точке, так и в моменты времени, привязанные к началу и окон­ чанию звука [66°]. Процедура измерения громкости пока остается неизвестной, однако несомненно, что она требует выделения осо­ бых точек на временной функции громкости и обеспечивает воз­ можность запоминания на достаточно долгое время или самих вы­ деленных значений, или каких-то результатов их преобразования. Последнее следует из способности человека сравнивать по гром­ кости два звука, разделенных паузами значительной длительности.

В случае непрерывного амплитудно-модулированного сигнала восприятие его как меняющегося по громкости возможно лишь при низких частотах модуляции (не выше 10 Гц).

Вторая группа признаков, которая будет рассматриваться вщастоящей главе, касается изменений огибающей gf (t) во времени.

Существование нейронов, реагирующих только в моменты из­ менений огибающей g{(t), в частности в моменты начала и окон­ чания звука, бесспорно доказано электрофизиологическими иссле­ дованиями (см. главу 9). Выделение человеком моментов начал и концов звуковых посылок также не вызывает сомнений (см. об­ суждение в главах 3, 6).

Для выделения неравномерности в огибающей сигнала необ­ ходимо подвергнуть огибающую некоторой операции, аналогичной дифференцированию. Заметим, что это означает, что признаком является уже не амплитуда огибающей, а нечто близкое к ско­ рости ее изменения. Однако выделить огибающую можно, лишь предварительно сгладив выпрямленный сигнал, т. е. отфильтро­ вав несущую. Таким образом, система, выделяющая изменения огибающей, должна осуществлять нечто вроде полосовой филь­ трации g,(t).

Для того чтобы система не только представляла изменения («производную») огибающей gf (/) как самостоятельную перемен­ ную, но и обнаруживала бы неравномерности, необходимо до­ пустить, что на выходе полосового фильтра находится пороговое устройство. При этом, естественно, возникает вопрос о том, реа­ гирует ли система только на положительные значения «производ­ ной» или на значения обоих знаков, существен ли для нее только знак или важна также величина «производной», и т. д.

Психоакустические исследования восприятия изменений оги­ бающей стимула находятся сейчас еще на самой начальной ста­ дии, и о конструкции системы обработки огибающей можно пока

277

делать только очень грубые предположения. Примем, в качестве рабочей гипотезы, что в каждом частотном канале стоит своя

система

обработки (анализатор) огибающей, входным сигналом

которой

является g{ (Z).

Состоит эта система из безынерционной

нелинейности,

одного

или

нескольких

полосовых фильтров 1

и пороговых

устройствах на

ик выходах.

Рассмотрим, согласу­

ются ли существующие данные с такой гипотезой.

11.1.1. СВИДЕТЕЛЬСТВА В ПОЛЬЗУ ДИФФЕРЕНЦИРОВАНИЯ

Для обнаружения факта изменения огибающей в стимуле, образованном из двух примыкающих друг к другу звуковых посылок с одинаковым спектром и разными уровнями интенсивности (рис. 11.1), можно в принципе использовать разные процедуры обработки. Одна со­ стоит в том, чтобы измерить абсо­ лютные значения огибающей в мо­ менты начала и конца стимула

Рис. 11.1. Зависимость порогового пере­ пада интенсивностей на соседних сег­ ментах стимула от постоянной времени выключения. По [в2].

По

оси абсцисс — постоянная времени; по

оси

ординат — пороговый перепад интенсив­

ностей. 1 —порог восприятия неопределенного согласного, 2 и 3 — пороги восприятия [ш] или [nJ. Точки и крестики соответствуют разным испытуемым. В верхней части рисунка схема­ тически показана огибающая применявшихся

в эксперименте стимулов,

и проверить, совпадают ли эти значения. Эта процедура предпо­ лагается, когда говорится о сравнении по громкости. Другая процедура, основанная на полосовой фильтрации gffl), позволяет обнаружить изменение огибающей как таковое. Существенно, что при этом обнаруживается не только факт изменения, но и мо­ мент времени, когда оно произошло.1

1 Гипотеза о том, что обработка огибающей осуществляется гребенкой полосовых фильтров, причем все фильтры имеют одинаковую абсолютную ширину полосы (6—8 Гц), была выдвинута Дубровским и Тумаркиной [Ь7]. Авторы основывались на том обнаруженном ими факте, что в условиях моду­ ляции сигнала суммой двух синусоидальных колебаний человек восприни­ мает «биения» — изменения характера звука во времени — при одной и той же разности модулирующих частот, независимо от их абсолютных зна­ чений и от частоты несущей. Однако этот факт может объясняться времен­ ными ограничениями процесса интерпретации звукового потока как после­ довательности (см. главу 6).

278

Если применяется полосовая фильтрация, естественно ожидать, что пороговые (едва обнаруживаемые) значения перепада в оги­ бающей сигнала будут тем больше, чем меньше скорость измене­ ния огибающей; в случае сравнения по громкости такой зависи­ мости быть не должно.

В экспериментах [в2' 214]

использовался тот факт, что стимул

с гласноподобным спектром

и такой огибающей, как показано

на рис. 11.1, воспринимается при достаточно большом С7Х как со­ четание ГС. В качестве несущей использовалась группа из 6 гар­ моник основной частоты 180 Гц; амплитуды гармоник были подоб­ раны так, чтобы стимул максимально приближался к гласному [а]. Постоянными параметрами стимула были £г=210 мс, £с=250 мс и Uo, соответствующее уровню ощущения стимула 70 дБ. Оги­ бающая стимула убывала от U0Jt-U1 до Uo по экспоненте. Экспе­ риментатор задавал постоянную времени этой экспоненты т, испытуемый подбирал пороговое значение U1. Измерения были сделаны для двух критериев. Критерий 1 соответствовал появле­ нию любого согласного ([11, [v], [w]), критерий 2 — появлению [ш] или [и].

Результаты эксперимента приведены на рис. 11.1. Можно ви­ деть, что при малых значениях т устанавливаемое значение С7Х не зависит от т. При больших значениях т увеличение т приводит к увеличению Ut. Такая зависимость явно говорит в пользу поло­ сового фильтра. Из того что иг начинает увеличиваться только при т > 10 мс можно заключить, что сглаживание в этом случае довольно велико. Приведенные данные указывают также на то, что человек обнаруживает изменения огибающей отрицательного знака.

11.1.2. СВИДЕТЕЛЬСТВА ПРОТИВ ОДНОГО ФИЛЬТРА

Предположение, что в обработке огибающей участ­ вуют два различных механизма, вытекает из экспериментов Грина [2821. В этих экспериментах применялись посылки 'тона частотой 1, 2 и 4 кГц с огибающими, показанными в верхней части рис. 11.2. Один стимул обозначался как тихий-громкий (ТГ), другой — как громкий-тихий (ГТ).

Стимулы предъявлялись парами со случайным порядком следования внутри пары. Испытуемый сообщал, какой из стимулов в паре ТГ, а какой — ГТ. Длительность стимулов t изменялась. Определялся процент правильных ответов.

Полученные данные показали, что для несущих 2 и 4 кГц пороговая длительность стимула (соответствующая 75% правиль­ ных ответов)*лежит несколько ниже 2 мс. Для несущей 1 кГц она находится между 2 и 4 мс. Изменение уровня интенсивности стимула на 20 дБ не привело к изменению процента правильных ответов.

279

Данные для несущей 1 кГц приведены на рис. 11.2. Можно ви­ деть, что начиная с 4 мс дальнейшее увеличение длительности стимула приводит не к улучшению, но к ухудшению различения. Вторичный подъем на психометрической функции начинается, когда длительность стимула становится больше 32 мс, т. е. когда длительность первого отрезка превышает 16 мс. Как было пока­ зано в главе 6, это соответствует появлению «согласного» — обна­ ружению неравномерности начала стимула.

При длительностях стимула, равных 2—4 мс, различение осно­ вывается на каких-то качественных особенностях звучания воспринимаемого единичного щелчка. Для обнаружения этих качественных особенностей тре­ буется значительная тренировка.

В работе [40Д также исследо­ валось различение форм огибаю-

Рпс. 11.2. Зависимость правильного различепия сигналов ТГ и ГТ от пх

 

 

 

длительности.

По

оси

абсцисс — длительность стимула;

по

оси

ординат — процент правильных

ответов.'В

верхней части рисунка пока­

 

 

заны

огибающие сигналов.

щей коротких посылок тона и шума. Использовались три формы огибающей: куполообразная и две треугольных. Сравниваемые посылки имели одинаковую несущую частоту, равную энергию и равную пиковую интенсивность. Оказалось, что минимальная длительность посылок (определенная как длительность прямо­ угольной посылки, равной тестируемым по энергии и пиковой интенсивности), при которой возможно различение форм огибаю­ щей, составляет примерно 2 мс, как и по данным Грина [282].

Очень малые времена получаются и в экспериментах по воспри­ ятию двух звуковых импульсов. Так, эффект обратной маски­ ровки (повышение порога обнаружения звукового импульса в случае, когда за ним следует более интенсивный импульс — маскер) наблюдается, если интервал между импульсами не пре­ вышает 10 мс [1б6, 183' 239, 437' 448]. В работе [448] показано, что ми­ нимальный интервал, при котором возможно различение пар импульсов с уровнями LxL2 и L2Lx, составляет 2 мс.

280

Соседние файлы в папке Нормальная физиология