Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2 курс / Нормальная физиология / Физиология_речи_Восприятие_речи_человеком_Чистович_Л_А_

.pdf
Скачиваний:
1
Добавлен:
24.03.2024
Размер:
13.47 Mб
Скачать

на разных интервалах времени от начала или от конца посылки. Если пауза была близка к началу посылки, то фиксированным (установленным экспериментатором) был интервал от начала стимула до начала паузы. Если пауза была близка к концу по­ сылки, то фиксированным был интервал между концом паузы и концом стимула. Задача испытуемого состояла в установке поро­ гового значения длительности паузы (£„), при которой он ее обна-

Рис. 11.21. Зависимость порога обнаружения паузы от ее положения в шу­ мовом стимуле. По [28в].

По оси абсцисс — длительность интервала от начала стимула до начала паузы (1 и з) или от конца паузы до конца стимула (г и 4); по оси ординат — пороговая длительность

паузы. 1 и 2 — при уровне ощущения стимула 15 дБ, 3 и 4 — 46 дБ. Остальные обозначе­ ния см. в тексте.

Рис. 11.22. Минимальная длительность паузы, соответствующая порогу раз­ личения стимулов А и В, как функция уровня ощущения стимула на слабом сегменте.

По оси абсцисс — уровень ощущения стимула; по оси ординат — минимальная длитель­ ность паузы. В верхней части рисунка показаны огибающие стимулов. 1 — ]„,==25 дБ, г — L,=45 дБ, з — L, = 65 дБ. Престики — порог обнаружения паузы, находящейся

вдали от краев стимула Р86].

руживает. Измерения проводились при двух значениях уровня ощущения стимула: 15 и 46 дБ. Полученные данные (средние по обоим испытуемым значения t„) приведены на рис. 11.21. Можно видеть, что увеличение tu с приближением паузы к началу стимула выражено очень отчетливо и наблюдается при обоих уровнях интенсивности стимула. Приближение паузы к концу стимула также ухудшает ее обнаружение. Эффект оказывается статисти­ чески значимым при обоих уровнях интенсивности стимула, однако он количественно очень мал при уровне 46 дБ.

Более интересная ситуация, при которой приходится дону-

301

стить какие-то логические операции для различения форм, иссле­ довалась в работе Пломпа [4а4]. Вверху на рис. 11.22 схематически изображены применявшиеся в работе стимулы. В работе опреде­ лялось пороговое значение паузы (Q, при которой испытуемые отличали стимул А от стимула Б. Измерения проводились при трех значениях Lr; исследовалась зависимость t„ от Ь2.

На рис. 11.22 приведены данные для тех комбинаций LjL.j, где обнаруживаемая пауза была еще достаточно малой и можно быть уверенным, что различение основывалось именно на восприятии паузы. Можно видеть, что отчетливо возрастает при увеличении перепада интенсивностей, причем скорость относительного изме­ нения tn при увеличении перепада (уменьшении Л2) зависит от начального уровня интенсивности (Zq). При /^=45 дБ наклон прямой (скорость изменения f„) больше, чем при Lx=65 дБ.

Из данных Пломпа следует также, что пороговая длительность паузы возрастает при уменьшении L1=LZ. Это согласуется с дан­ ными Герена и Жуковой|286]; полученные в их экспериментах значе­ ния t„ (для случая, когда пауза находилась вдали от краев сти­ мула) приведены на рис. 11.22 крестиками. Данные Пломпа можно объяснить, предположив, что сигнал относится к классу Б в том случае, если на выходе «фильтра хриплости» превышаются и поло­ жительный, и отрицательный пороги; в остальных случаях сигнал относится к классу А.

Конечно, высказанные в этом разделе соображения о детекто­ рах форм сугубо приблизительны. Экспериментальных данных пока слишком мало, чтобы построить сколько-нибудь пригодную модель классификации форм огибающей. Кроме того, такую мо­ дель едва ли можно построить не имея хорошей модели системы обработки огибающей.

Глава 12

СЛУХОВОЕ ОПИСАНИЕ СИГНАЛОВ С ИЗМЕНЯЮЩИМСЯ ВО ВРЕМЕНИ СПЕКТРОМ

Существующие в настоящее время данные относи­ тельно слухового анализа сигналов с изменяющимся спектром касаются или синусоидальных тонов, модулированных по частоте (ЧМ-тоны), или звуков со сложным спектром, у которых один из спектральных максимумов изменяет свое положение на шкале частот. Функцию, описывающую зависимость от времени частоты спектрального максимума исходного сигнала, обозначим f(t).

Естественно исходить из того, что слуховая обработка звуковых сигналов основана на спектральном анализе, т. е. преобразовании исходного акустического сигнала в пространственно-временное распределение плотности импульсации g(z, t). Будем считать, что

последующей

необходимой процедурой является

определение

или текущего

положения спектрального максимума на шкале z

(переход к z*(£); z* — координата спектрального

максимума),

или каких-то параметров, отражающих особенности изменения частоты максимума во времени.

Такое представление отражает существо явлений несколько упрощенно, так как не исключено, что слуховое измерение час­ тоты может быть основано также и на анализе периодичности g(t) в частотных каналах системы [276 396 ■ 46°].

Насколько подробно высшие отделы слуховой системы могут «отслеживать» временной ход частоты спектрального максимума, зависит от инерционности спектрального анализа и техпроцессов, которые приводят к определению положения спектрального мак­ симума на шкале z. Качественные данные, полученные в экспери­ ментах по восприятию быстрых тональных последовательностей [231] и п0 определению маскировки короткого стационарного тона ЧМ-сигналом [295, 449[, показывают, что переходные процессы этих преобразований не очень длительны.

В первой цитируемой работе испытуемые идентифицировали (после предварительной тренировки) шесть стимулов, представляю­

303

щих собой последовательность из трех примыкающих друг к другу тональных посылок равной длительности, образующих разные мелодические контуры, но "занимающие одно и то же среднее на весь стимул положение по частоте (1000 Гц). Оказалось, что не­ случайные ответы наблюдаются уже в том случае, когда длитель­ ность каждой из посылок составляет 'всего 4—6 'мс. (Пороговая длительность зависит от некоторых факторов, в том числе и от расстояния между соседними звуками по шкале частот; здесь указана та величина, которая получена при достаточно боль­ шом разнесении частот — 1/3 октавы).

Рис. 12.1. Маскировка короткой посылки тона частотно-модулированным сигналом. По [449].

На А — изменение частоты маскера во времени. По оси абсцисс — время; по оси ординат — частота; штрихами указана частота маскируемого тона (1000 Гц). На Б — кривые маски­ ровки посылки тона при разном положении его во времени относительно начала маскера. По оси абсцисс — время задержки начала тональной посылки; по оси ординат — разность порогов обнаружения тона при маскировании и в тишине; разные кривые — данные раз­

ных испытуемых.

Кривые одновременной маскировки короткой посылки (20 мс) стационарного тона непрерывным ЧМ-сигналом были получены в экспериментах Ронкена [449] при 2 условиях: 1) тестовый сигнал варьировал по частоте, но имел фиксированное положение относи­ тельно периода изменения частоты маскера; 2) тестовый сигнал имел постоянную частоту, равную центральной частоте маскера, а его положение относительно периода ЧМ-маскера изменялось ступенями. Результаты одного из экспериментов, выполненных в соответствии со вторым условием для периода модуляции маскера 300 мс, приведены на рис. 12.1. Как видно из рисунка, макси­ мумы маскировки приходятся только на те положения тестового сигнала, при которых его частота совпадает с мгновенной частотой маскера. Объясняя инерционность всех процессов, приводящих

304

к обнаружению тона на фоне маскера низкочастотной фильтра­ цией огибающей g(t), автор находит, что постоянная времени интегрирования не должна превышать 10 мс.

Свидетельством малой инерционности спектрального слухо­ вого анализа могут служить также результаты опытов [295J по определению остаточной маскировки. Маскером служила посылка тона длительностью 50 мс с частотой, линейно изменяющейся во времени от 1000 до 1500 Гц (или в обратном направлении). Тесто­ вая посылка стационарного тона длительностью 20 мс следовала через 5 мс после окончания маскера и могла иметь разные значе­ ния частоты. В этих условиях наиболее выраженная маскировка имела место только на частоте, близкой к конечной частоте маскера.

Таким образом, приведенные данные дают основание считать, что инерционность спектрального преобразования исходного сиг­ нала, обусловленная переходными процессами слухового анали­ затора, ограничивается длительностями порядка нескольких мил­ лисекунд (не более 10).

Будем условно считать функцию f(t) достаточно медленной, если она задана на интервалах, больших длительности переход­ ных процессов, и при этом не будем различать / (t) и называя и ту и другую функцию временнйм контуром стимула.

Определив таким образом понятие контура f(t), будем рас­ сматривать проблему восприятия изменяющихся по частоте сиг­ налов как задачу определения способов слуховой обработки кон­ тура и выяснения признаков, по которым он описывается.

12.1. ПРЕДПОЛОЖЕНИЯ ОБ ОПИСАНИИ КОНТУРА ИЗМЕНЕНИЯ ЧАСТОТЫ

Среди современных исследователей речи [483] распро­ странено предположение о том, что на некотором этапе слуховой обработки контур f (£) может быть представлен полностью — в виде последовательности отсчетов, производимых через равномерные интервалы времени (см. обсуждение в главе 6). В таком виде ин­ формация о контуре сохраняется некоторое время в непосредствен­ ной, слуховой памяти и считывается устройствами, осуществляю­ щими дальнейшую специфическую обработку, в частности детек­ торами фонетических признаков.

В противоположность этой гипотезе выдвигается другое пред­ положение, в принципе отвергающее возможность полного, пото­ чечного описания. Предполагается обработка стимула, в результате которой слуховое описание контура представляет собой набор его характерных признаков, таких, например, как местоположе­ ние «особых точек» (начало, конец, экстремумы) по координате z и некоторые характеристики изменений (например, направление и скорость). Функция определения характерных признаков кон­

тура возлагается

на

специальные детекторы.

20 Физиология

речи

305

В работах [48, 98 100' зп], предпринятых для выбора между этими гипотезами, использовались следующие соображения. При описании / (t) поточечным способом расстояние между двумя па­ раллельно сдвинутыми друг относительно друга по частоте кон­

турами

является возрастающей функцией

от числа отсчетов,

т. е. от

длительности сигнала’ (следует из

определения метрик,

употребляющихся при поточечном описании функций [143]).

При втором способе описания предполагается, что набор при­ знаков для контуров одинаковой формы будет одним и тем же, независимо от длительности, и потому длительность не должна влиять на субъективное расстояние. Как было показано в работе ["], при численном шкалировании высотных интервалов, образу­ емых двумя стационарными тонами, субъективное расстояние есть функция не только частотного различия стимулов, но и их длительности: при изменении последней в пределах от 5 до 100 мс субъективное расстояние для звуков с одинаковым различием по частоте монотонно увеличивается. Этот эффект может свидетель­ ствовать в пользу гипотезы полного описания, однако для ее утверждения требуется, чтобы подобным свойством обладали расстояния для звуков с изменяющейся во времени частотой. Насколько выполнимо это условие, показали результаты следую­ щих экспериментов, проводившихся также с помощью метода численного шкалирования субъективных расстояний.

Стимулы — пары следующих друг за другом синтезированных гласноподобных звуков — оценивались слушателями по степени их различия, создаваемого либо за счет частоты основного тона, либо за счет частоты второй форманты (в каждом опыте изменялся только один параметр). В каждой паре, подлежащей оценке, звуки были одинаковы по всем параметрам и различались только парал­ лельным сдвигом контуров друг относительно друга. Примеры схематического изображения контуров частоты основного тона звуков в парах и результаты экспериментов по шкалированию таких стимулов представлены на рис. 12.2.

Средние оценки, характеризующие субъективное расстояние при сравнении стационарных звуков (рис. 12.2, В, стимулы I и 1а), а также в том случае, когда только один из звуков стационарный (стимулы IV), увеличиваются с удлинением стимулов при одной и той же разности частот основного тона. Для звуков с изменяю­ щейся частотой основного тона субъективное расстояние либо не зависит от длительности, либо зависит в гораздо меньшей степени, чем для стационарных. При этом для стимулов типа III в тех случаях, когда эта зависимость проявляется, оценки поло­ жительно ^коррелируют только с длительностью постоянной части стимула.

Как следует из принятых допущений, зависимость субъектив­ ного расстояния от длительности должна наблюдаться для изменя­ ющихся по частоте сигналов с любым законом изменения. Настоя­ щие результаты не согласуются с этим условием и дают основание

306

полагать, что, оценивая различия между звуками, испытуемые пользовались не полным их описанием, а некоторым набором спе­ циальных признаков контура. К этому же выводу приводят ре-

Рис. 12.2. Результаты опытов по шкалированию субъективных расстояний между синтетическими гласными. По [10°].

На А — временные контуры частоты основного тона для разных типов стимулов. На В — зависимость от длительности средних оценок различий разных типов стимулов по высоте. По оси абсцисс — длительность посылки (для стимулов типа III — длительность стацио­ нарного участка); по оси ординат — средние оценки в баллах. Параметр ^кривых — &F0: 1 — 0, 2 — 50, 3 — 100, 4 — 200 Гц. Вертикальные штрихи у каждой точки обозначают доверительные интервалы (критерий значимости 0.05). Римские цифры обозначают, к ка­

кому типу стимулов относятся кривые (I и 1а — данные разных опытов).

зультаты экспериментов по шкалированию тембральных разли­ чий звуков с разными контурами частоты второй форманты [®8].

Полученные в работе [10°] данные позволили сделать также некоторое предположение о природе признаков контура частоты основного тона, на основании которых оценивались различия между звуками. Анализируя те отличия, которые проявляются в оценках высотных интервалов стимулов типа I и IV (кривые и IV на рис. 12.2, В), удалось показать, что требуемыми свой­

307

ствами должны обладать расстояния, если они определяются ша пространстве двух признаков, один из которых характеризует по­ ложение стимула на шкале частот, другой есть некоторый экви­ валент изменения частоты на протяжении звука.

Эффект увеличения субъективного расстояния при увеличении длительности стационарных стимулов, по-видимому, имеет отноше­ ние к известномущвлению улучшения точности различения частоты при больших длительностях, что проявляется при исследовании дифференциальных порогов f101 395' 4вз]. Оба эффекта наблюда­ ются при одном и том же диапазоне длительностей сравниваемых стимулов.

12.2.ВЫДЕЛЕНИЕ «ОСОБЫХ ТОЧЕК»

ВКОНТУРЕ f(*)

Измерение слухом частоты спектральных максимумов (частоты формант) при восприятии фонетического качества речевых сигналов можно считать экспериментально установленным фактом. Устанавливается он на примере восприятия стационарных сти­ мулов. В отношении к сигналам с изменяющимся спектром это положение требует более конкретной формулировки: в какие моменты времени слуховая система осуществляет измерение частоты, чем определяется задание моментов измерения и какова природа измеряемых величин (мгновенные отсчеты или средние значения и т. д.).

12.2.1.ВОСПРИЯТИЕ РЕЧЕПОДОБНЫХ ЗВУКОВ

СОДНОНАПРАВЛЕННЫМ КОНТУРОМ

В главе 6 при обсуждении проблемы сегментации при­ водились данные о том, что твердость или мягкость [г], создаваемого кратковременным прерыванием гласноподобного стимула, опре­ деляется значением У2 в момент начала второго гласного. Этот результат качественно согласуется с данными, полученными ранее Деркачом [23°], который исследовал восприятие твердостимягкости согласных [t] и [s| в сочетаниях ГСГ. На рис. 12.3 при­ ведена схема синтеза параметров для 7 стимулов: интервалы вклю­ чения голосового и шумового источников возбуждения, контур второй форманты и контур первой форманты. Частота формант на участке аб соответствует гласному [i], на участке вг — глас­ ному [а]. Начало переходов второго гласного обозначено точками (его форманты для стимулов 1 и 2, а также 6 и 7 начинаются из общих точек). Цифры под стрелками обозначают процент ответов, в которых согласный опознан как мягкий. Видно, что признак мягкости распознается почти полностью (в 90%) начиная со сти­ мула 6, т. е. только тогда, когда начальная точка переходов F{ и F2 гласного [а] соответствует частотам, характерным для [i].

308

Экспериментальное доказательство использования краевых значений F2 для фонемной классификации гласных русскими слушателями было получено Люблинской и Слепокуровой при исследовании восприятия синтетических гласноподобных звуков дифтонгоидного характера.

Сочетание двух разных гласных, а также дифтонги в потоке речи реализуются в виде непрерывно изменяющегося спектра: зависимости частот формант от времени образуют плавные траек-

Рпс. 12.3. Схема параметров синтетических ГСГ-слогов при исследовании восприятия признака мягкости согласных. По [23°].

Объяснения в тексте.

Рис. 12.4. Результаты опытов по идентификации синтетических дифтонгоидных гласных звуков.

По оси абсцисс — частота второй форманты в начале звука; по оси ординат — частота вто­ рой форманты в конце звука. Сплошные линии — фонемные границы, точки — параметры

стимулов, штриховая линия соответствует условию

тории, при этом формантные максимумы перемещаются из поло­ жения, характерного для первого по времени гласного, ко второму. В естественной речи, произносимой в нормальном темпе, началь­ ные и конечные положения оформляются в виде стационарных участков. При быстром произношении стационарные участки могут отсутствовать, и остается, практически, только участок однонаправленного изменения частот формант. Известные работы, в которых исследуются признаки восприятия дифтонгов [271’ 273,

274], показывают, что стационарные участки

роли не

играют.

В опытах Люблинской и Слепокуровой в

качестве

стимулов

использовались синтетические гласноподобные звуки с частотой основного тона 125 Гц, частотой первой форманты 300 Гц и длительностью 80 мс. Частота второй форманты либо линейно воз­ растала, либо убывала, либо оставалась постоянной. В изменяю­ щихся сигналах начальное и конечное значения частоты фиксиро­

309

вались в течение 10 мс, образуя стационарные участки. Изме­

нение частоты осуществлялось в середине звука

на интервале

в 60амсна величину ДД = +200,

+400 Гц. (Величина частотного

перепада ЛД определялась как

разность частот

начального FiB

и конечного F2k участков). При фиксированном перепаде &F2 положение звуков по шкале частот второй форманты варьировало в широком диапазоне: F2b = 1000 +- 2400 Гц, ступенями через 50 или 100 Гц (сетка значений параметров стимулов приведена на рис. 12.4). Испытуемые идентифицировали предъявляемые им звуки с одним из 4 гласных: [i], [uj, [ij или [и]. Последний звук представляет собой аллофон гласного [ul, встречающийся в сочетаниях после мягких согласных, который воспринимается носителями русского языка как подкласс звуков, отличный от собственно [и] после твердых согласных [32].

На рис. 12.4 представлены границы между указанными кате­ гориями, определенные по матрице ответов по критерию равно­ вероятного опознавания. Основное значение для вопроса о при­ знаках траекторий имеет форма границ между гласными Ш, [1] и [й]. Образуя смежные области классов, они отделяются довольно простыми по форме границами: между |д] и [ij—это прямая, па­ раллельная оси Дк, между [и] и [1] — прямая, параллельная оси F2b.

Вобоих случаях граница описывается только одним числом,

ичисла эти очень близки друг к другу: 1670 и 1660 Гц соответ­ ственно. Малые различия этих значений позволяют их считать случайными реализациями одной и той же величины. Существенно, что в случае опознавания [4] и [i], у которых Г2нДГ2к, граница устанавливается по значению F2a, в случае [i] и [и], у которых F2k<ZF2b, граница устанавливается по F2k, т. е. граница опреде­ ляется по наименьшему из параметров.

Из приведенных данных следует, что обработка звуков с одно­ направленным изменением формантного контура в условиях фо­ немной идентификации должна включать в себя измерение час­ тоты в начальной и конечной точках контура и процедуру при­ нятия решения, основанную на сравнении измеренных значений с некоторым фиксированным порогом П.

Вкачестве одного из возможных алгоритмов можно предполо­ жить следующий:

1) стимул S определяется как [i], (5 С П1), если (г^ЩД (г^ДП); здесь zj и z£ обозначают результат слухового измерения частоты 2-й форманты в начале и конце звука;

2)S е [Я, если (2;<П) Л (Zj*<z*);

3)S е [й], если (гКП) Д (Д<Д).

Можно видеть, что обработка сигналов в данной ситуации, кроме измерения отсчетов и сравнения их с порогом, должна вклю­ чать в себя или сравнение z2 и z*, или прямое измерение направ­ ления изменения частоты (о способности слуховой системы выделять этот параметр переменного звука будет сказано ниже).

310

Соседние файлы в папке Нормальная физиология