Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2 курс / Нормальная физиология / Физиология_речи_Восприятие_речи_человеком_Чистович_Л_А_

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
13.47 Mб
Скачать

вателя, при которой достигается согласие результатов психоакустического эксперимента и эксперимента на модели.

Как будет показано в главе И, модель, обнаруживающая не­ равномерности на огибающей стимула, должна включать преобра­ зователи с близкой к логарифмической характеристикой. Вместе с тем характеристика преобразователей в модели, вычисляющей громкость звука, описывается степенной функцией I145].

Правильный выбор амплитудной характеристики важен не столько для вычислений g(z), сколько для моделирования про­ цесса выделения признаков g(z). В настоящее время работа в этом направлении только начинается. Были опробованы как логариф­ мическая характеристика [131], так и степенная «функция гром­ кости» I313]. Какая из них лучше, пока сказать нельзя.

10.2.1. ЭКСПЕРИМЕНТАЛЬНЫЕ МЕТОДЫ

ИЗМЕРЕНИЯ ЭКВИВАЛЕНТНОГО СПЕКТРА

Наиболее известный метод основан на измерении маскировки стимулом тональных сигналов, предъявляемых на фоне этого стимула.

Принимается, что за обнаружение тона ответствен только тот частотный канал, который настроен на данный тон. Прибавление тона к стимулу вызывает приращение «текущей» энергии, попадаю­ щей в этот канал. Приращение обнаруживается (человек слышит тон), если оно в к раз превышает значение «текущей энергии», попадающей в данный канал в отсутствие тона. Таким образом, зная энергию тона, соответствующую порогу его обнаружения на фоне стимула, и зная k(z) [145], легко вычислить ту энергию, которая была в канале, когда тон отсутствовал — действовал один маскирующий стимул.

Произведя измерения порогов обнаружения тонов во всем частотном диапазоне, мы получаем эквивалентный спектр сти­ мула, т. е. уровень энергии стимула в канале, как функцию z — частоты, на которую настроен канал.

Принципиальные ограничения практической применимости этого метода связаны с тем, что мозг человека обнаруживает не только медленные изменения огибающей g(i) в частотном канале периферической слуховой системы, отражающие изменения «те­ кущей энергии», но и достаточно быстрые изменения (см. главу 11). Присоединение тестирующего тона к такому, например, стимулу, как гласный звук, приводит к возникновению биений между то­ ном и гармоническими составляющими гласного. Эти биения, естественно, отражаются во флюктуациях огибающей g(Z) в час­ тотных каналах. Так как обнаружение этих флюктуаций оги­ бающей g(t) зависит от их частоты (частоты биений), полученная зависимость маскировки от частоты тестирующего тона оказы­ вается чрезвычайно сложной.

251

По этой причине этот метод реально не применяется для экспе­ риментального измерения эквивалентного спектра любого произ­ вольного сигнала. Он был применен для определения кривых маскировки, вызываемых полосовыми шумами с шириной полосы, равной «критической» (см. главу 7). По полученным кривым маски­ ровки были построены «образцы возбуждения» (см. ниже), ис­ пользуемые для вычисления эквивалентного спектра произволь­ ного стимула по значениям его энергетического спектра [И4].

Прямой экспериментальный метод измерения эквивалентного спектра, применимый для любых стационарных стимулов, был недавно предложен Хоутгастом [зи’ 302]. При этом методе испы­ туемому предъявляется последовательность, составленная из че­ редующихся посылок исследуемого стимула и тестирующего тона. Метод основан па допущении, что если огибающая плотности импульсации в частотном канале, соответствующем частоте тона, не изменяется на переходе от стимула к тону, то человек слышит непрерывный тон, на фоне которого воспринимаются посылки стимула. Если плотность импульсации является большей на про­ тяжении тестирующего тона, то человек слышит пульсации тона.

В эксперименте определяется порог пульсаций, т. е. такой макси­ мальный уровень интенсивности тестирующего тона, при котором, согласно принятому допущению, плотность импульсации во время тона еще практически не отличается от таковой во время стимула.

На рис. 10.1 приведен эквивалентный спектр (порог пульсаций) стимула, представляющего собой 10 равных по интенсивности гармоник частоты 250 Гц. Можно видеть, что если нижние гармо­ ники представлены самостоятельными максимумами на экви­ валентном спектре, то выделение верхних гармоник на кривой уже затруднительно. Из рис. 10.1 видно также, что порог пуль­ саций на частотах гармоник во многих случаях ниже уровня интенсивности гармоник, т. е. тон (гармоника), действующий в со­ ставе сложного звука, оказывается как будто бы менее эффектив­ ным. чем тот же тон, действующий изолированно (тестирующий тон).

Основным результатом работ Хоутгаста [300’ 302] является об­ наружение этого эффекта подавления и установление ряда его свойств. Автор показал, что по своим характеристикам эффект весьма напоминает так называемое двухтоновое торможение, на­ блюдавшееся впервые в ответах одиночных волокон слухового нерва [45в’ 457]. Природа этого эффекта до сих пор остается невыяс­ ненной. Для нас существенны два обстоятельства, отчетливо по­ казанные Хоутгастом. Во-первых, эффект обеспечивает увеличе­ ние контрастности изображения, подчеркивает разницу между минимумами и максимумами на спектре. Во-вторых, наблюдае­ мые закономерности таковы, как если бы подавление осуществля­ лось за счет уменьшения коэффициента передачи в соответствую­ щем частотном канале анализатора. Если это так, то методом одновременной маскировки этого эффекта принципиально нельзя обнаружить. Нечувствительность метода одновременной маски

2,13

ровки к эффекту подавления, выявляемому при измерении порога

пульсаций, была экспериментально

показана Хоутгастом [3021.

Из приведенных данных следует,

что процедура вычисления

эквивалентного спектра должна в принципе учитывать как «раз­ мазывание» идеального спектра звука, связанное с ограниченной разрешающей способностью фильтров улитки, так и обострение

Рис. 10.1. Порог пульсаций для сложного стимула (10 гармоник частоты /0=250 Гц), измеренный при двух вариантах уровня интенсивности стимула (1 и 2). По [3°2].

По оси абсцисс — частота; по оси ординат — уровень звукового давления. Вверху дано схематическое изображение временной последовательности, состоящей из исследуемого стимула (7) и тестирующего тона (2); з — порог спышимости, треугольники — амплитуды гармоник в спектре стимула.

изображения, связанное с эффектом подавления. Однако, так как эти два эффекта действуют в противоположном направлении, достаточного приближения к действительности, возможно, удастся добиться, учитывая только фильтры (отражение их в характерис­ тиках одновременной маскировки), но приписав им несколько большую добротность.

Иначе говоря, кажется возможным взять за основу процедуру вычисления эквивалентного спектра, предложенную Цвике-

253

ром [U5 5И], но изменить ее параметры так, чтобы получаемый результат максимально приближался к эквивалентному спектру, экспериментально получаемому методом порога пульсаций.

Основным параметром в процедуре расчета эквивалентного спектра является «образец возбуждения», повторяющий с неболь-

Рис. 10.2. Порог пульсаций для чистых тонов. По [303].

По оси. абсцисс — частота; по оси ординат — уровень звукового давления. Треугольниками

показаны характеристики (частота и уровень звукового давления) исследуемых тонов (маскеров). Штриховая кривая — порог слышимости.

шими поправками кривую маскировки. Цвикер аппроксимирует его трапецией с меньшим (верхним) основанием, равным ширине критической полосы. Данные Хоутгаста (рис. 10.2) свидетель­ ствуют о том, что лучшей аппроксимацией должен быть треуголь­ ник с зависящим от уровня сигнала высокочастотным склоном.

10.2.2. ПРОЦЕДУРА ВЫЧИСЛЕНИЯ

СЛУХОВОГО СПЕКТРА

Описываемая ниже процедура вычисления слухового спектра [”] является модификацией метода, предложенного Цвикером [145]. В согласии с Цвикером, принимается, что шкала z совпадает со шкалой высоты [54°], называемой иначе шкалой Барк;1 вид зависимости z(f) приведен на рис. 10.3. Кривые

1 Один Барк соответствует расстоянию между двумя частотами, равному «критической» полосе (см. главу 7).

254

маскировки, получаемые при разных частотах маскера, практи­ чески совпадают, если они изображены на шкале высот [371]. Следовательно, приняв шкалу высот, можно резко упростить процедуру вычислений — использовать независимый от частоты «образец возбуждения» (см. ниже).

Вслед за Цвикером принимается также, что сигналом на выходе частотного канала является плотность громкости. Мы будем ее условно обозначать тем же символом, g, что и плотность импуль­ сации. Использование плотности громкости дает возможность вычисления общей громкости стимула путем интегрирования g(z) по всему интервалу z.

Рис. 10.3. Связь между частотой (по оси ординат) и высотой (по оси абсцисс). По [ш].

Рис. 10.4. «Образец возбуждения» (7) и его аппроксимация (2).

По оси абсцисс — высота; по оси ординат — уровень интенсивности относи­ тельно абсолютного порога.

Проверка показала [77], что описываемая процедура вполне удовлетворительно воспроизводит известные психоакустические зависимости между громкостью звука и его спектром и является в этом смысле более мощной, чем исходный метод Цвикера.

Вычисление слухового спектра состоит из двух этапов. Пер­ вый этап интерпретируется как расчет энергий колебаний, выз­ ванных стимулом, на выходе гребенки из 240 фильтров. Резо­ нансные частоты фильтров образуют ряд по шкале z с шагом в 0.1 Барк.

Отклик гребенки фильтров на чистый тон с высотой zT и уров­ нем £, — «образец возбуждения» — аппроксимируется треуголь­ ником (рис. 10.4). Такой треугольник можно задать формулами

г<2г, L (г) = Лг4 27 (г — г.,), z>zT, L (z) = LT — К (z —zj.

255

Наклон К высокочастотной стороны зависит от уровня вход­ ного сигнала:

При вычислении отклика на сложный стимул спектр стимула разбивается на полосы шириной 0.1 Барк; каждая полоса заменя­ ется условной составляющей — чистым тоном с высотой zT, рав­ ной высоте центра полосы, и уровнем LT, определяемым энергией в полосе. Для каждого из этих тонов вычисляются по приведенной выше формуле уровни энергии отклика во всех точках шкалы z.

Общая энергия отклика в точке z, обозначим ее а, определя­ ется как сумма энергий откликов на условные составляющие в этой точке:

где т — количество условных составляющих.

Заметим, что a(z) соответствует эквивалентному спектру сти­ мула и должна, по идее, совпадать с эквивалентным спектром, измеренным в эксперименте.

Следующий этап расчета обеспечивает переход от a (z), или вычисленной описанным выше способом, или определенной в экс­ перименте, к g(z).

Согласно Цвикеру, используется формула

(О где a„(z) = 1001tu(zi , Lu(z) — порог слышимости (в дБ относи­

тельно абсолютного порога). Плотность громкости (g) выражается

256

в сон/Барк, где сон — принятая единица громкости [145].

Как говорилось выше, единственный существующий в настоя­ щее время прямой метод измерения эквивалентного спектра,

минимумами и максимумами) и изменение изрезаННости с увели­ чением z. Эти характеристики отражают разрешающую способ­ ность слухового анализатора и зависимость разрешающей способ­ ности от частоты. Можно видеть, что по этим признакам обе кри-

Рис. 10.5. Слуховой спектр сложного стимула, приведенного на рис. 10.1, В.

По оси абсцисс — частота; по оси ординат — плотность громкости. 1 — результаты вы­ числений по значениям порога пульсаций [902]; 2 — результаты расчета по линейчатому спектру стимула.

вые достаточно похожи. Так как изрезанность кривой 1 в области нижних частот несколько больше, чем изрезанность кривой 2, следует считать, что, используя описанную выше процедуру вычисления, мы получаем слегка сглаженное по сравнению с ис­ тинным изображение слухового спектра.

10.2.3. ПРИМЕРЫ СЛУХОВЫХ СПЕКТРОВ ГЛАСНЫХ

На рис. 10.6 приведены пороги пульсаций для двух синтетических гласных [302]. Так как порог определялся только на частотах гармонических составляющих стимула, полученные кривые следует рассматривать не как полный эквивалентный спектр стимула, но как его огибающую.

Рис. 10.7 показывает значения плотности громкости (g) на частотах (значениях z) гармоник синтетического [а], приведен­ ного на рис. 10.6. Кривая 2 получена при использовании значе­ ний a(z), соответствующих порогу пульсаций. Кривая 1 получена при использовании значений a(z), вычисленных непосредственно по гармоническому спектру стимула. Можно видеть, что совпаде­ ние кривых является вполне удовлетворительным. Это означает, что вычислительная процедура обеспечивает достаточно близкую к реальной картину a(z).

На рис. 10.8 показан слуховой спектр естественного гласного [i]. Для вычислений использован гармонический спектр этого гласного, приведенный Фантом [253].

На рис. 10.9 показан слуховой спектр синтетического глас­ ного [а], применявшегося в экспериментах Хирато и др. [2в6].

17 Физиология речи

257

Рис. 10.6. Пороги пульсаций для синтетических гласных [а] и [е]. По [302].

По оси абсцисс — частота; по оси ординат — уровень звукового давления. Вертикальные линии, соединенные кривой, — амплитуды гармонических составляющих в спектре глас­ ного. Кружки, соединенные жирной кривой, — значения порога пульсаций на частотах гармоник стимула. Штриховая кривая — порог слышимости.

Рис. 10.7. Огибающие слухового спектра синтетического гласного [а], линей­ чатый спектр которого приведен на рис. 10.6.

По оси абсцисс — частота; по оси ординат — плотность громкости. 1 — результаты рас­ чета по линейчатому спектру стимула; г — результаты вычислений по значениям порога пульсаций [’«], приведенного на рис. 10.6.

Общий вывод, основанный на этих примерах, а также на ре­ зультатах вычислений слуховых спектров большого числа ес­ тественных русских гласных, состоит в том, что в слуховом спектре обнаруживается, как правило, больше чем два формантных мак-

2, Вари

Рис. 10.8. Слуховой спектр естественного гласного [i], рассчитанный по линейчатому спектру, приведенному Фантом [263].

По оси абсцисс — высота; по оси ординат — плотность громкости. К,—F, —формантные максимумы.

Рис. 10.9. Слуховой спектр синтетического гласного [а], рассчитанный по линейчатому спектру стимула, из работы Хирато и др. [29в].

Обозначения те же, что на рис. 10.8.

симума (рис. 10.8 и 10.9), кроме того, имеются максимумы, соот­ ветствующие первым низкочастотным гармоникам (рис. 10.9).

Если верно распространенное допущение о том, что фонемное распознавание гласных основывается на весьма сглаженном изо­ бражении их спектров [191’ 20в’ 426], то такое сглаживание следует, очевидно, искать на уровнях дополнительной обработки g (z), обеспечивающих выделение признаков.

10.3. ПРИРОДА ПОЛЕЗНЫХ ПРИЗНАКОВ СПЕКТРА

Экспериментальные данные по фонемной классифи­ кации стационарных речеподобных стимулов позволяют утверж­ дать, что по крайней мере часть из полезных признаков имеет локальный характер, т. е. касается особенностей спектра в огра­ ниченной частотной области. Кроме того, данные свидетельствуют о том, что край и максимум на спектре в известном смысле экви­ валентны.

10.3.1. ЛОКАЛЬНЫЙ ХАРАКТЕР ПРИЗНАКОВ

Вывод о локальном характере признаков напраши­ вается уже из того приведенного в главе 4 факта, что для ряда пар гласных фонемная граница в пространстве формант опре­ деляется только частотой одной из формант и не зависит от час-

17* 359

тот других формант. В случае русских слушателей такая ситуация была обнаружена для пар [i]—[е], [о]—[а], [о]—[е].

Другим доводом в пользу локального характера признаков является нечувствительность фонемной границы по частоте фор­ манты к значительным искажениям общей формы спектра, заклю­ чающимся в искусственном усилении или, наоборот, подавлении энергии в области первой форманты.

Рпс. 10.10. Результаты идентификации синтетических гласных с ослаблен­ ной (сплошные кривые) или усиленной (штриховые кривые) первой формантой.

По [385].

ГГо оси абсцисс — F = VF2F3, где F2 — частота второй форманты, F3 — частота третьей форманты стимула; по оси ординат — процент идентификации стимула с соответствую­

щими гласными [i] — 1, [у] — 2 и [н] — 3.

В работе Линдквиста и Паули [365] исследовалось восприятие синтетических гласных [i], [у], [а]. Все стимулы имели одинаковую частоту первой форманты, равную 266 Гц. Вторая и третья фор­ манты изменялись таким образом, что среднее геометрическое их частот \/F2F3(F3IF2 — coyisI) принимало значения в диапазоне

от 1620 до 3060 Гц. Стимулы были сначала синтезированы с нор­ мальными для речевого тракта амплитудными отношениями между формантами. Затем с помощью полосовых фильтров вводились амплитудные искажения — область первой форманты в одном варианте усиливалась на 12.5 дБ по сравнению с нормой, во вто­ ром варианте подавлялась на 12.5 дБ.

Функции идентификации, полученные при этих двух вариан­ тах искажений, приведены на рис. 10.10. Можно видеть, что функ­ ции идентификации, а следовательно и фонемные границы, в обоих случаях совпадают.

26П

Соседние файлы в папке Нормальная физиология