
Глава 2 акустические характеристики сегментных и супрасегментных единиц звучащей речи
2.1. Введение. Центральным понятием акустики является понятие сигнала. Под сигналом понимают физический процесс, несущий какую-либо информацию.
Сигнал порождается некотором событием, фактом, действием. Он имеет самостоятельную физическую природу и самостоятельное существование в пределах некоторой организованной системы, всегда воплощен в некотором материальном объекте или процессе. В этом виде сигнал может быть зафиксирован и может существовать длительное время. Сигнал может быть передан на большие расстояния, может превратиться в действие или событие. Он может воздействовать как на живого наблюдателя, так и на неживую физическую систему и породить ответную реакцию этого наблюдателя или системы.
Событие, описываемое сигналом, может иметь характер либо непрерывно изменяющейся величины, либо состоять из различающихся ступеней или градаций, т.е. иметь дискретный характер. Сигналы бывают дискретными или непрерывными. Дискретные сигналы состоят из отдельных различных символов (речь, записанная в виде текста, число, записанное цифрами, — примеры дискретного сигнала). Непрерывные сигналы характеризуются тем, что два соседних сигнала могут отличаться друг от друга сколь угодно мало, незначительно (например, устный речевой поток, отсчет значений по шкале амперметра и т.д.).
Дискретный сигнал выражается с помощью непрерывного сигнала, так как среди возможных значений непрерывных величин содержатся дискретные. Если использовать достаточное число дискретных символов, то во всех реальных случаях можно с определенной точностью сопоставить непрерывные и дискретные сигналы. Непрерывный процесс, например телефонный разговор, может быть представлен при определенных условиях в виде набора дискретных величин. Это утверждение было использовано В.А.Котельниковым1 для передачи сигналов по каналам связи.
Представление непрерывного сигнала в виде дискретного называют "квантованием" сигнала. При этом непрерывная физическая величина заменяется конечным множеством ее значений ("квантовых уровней"). Различают два аспекта: а) квантование по уровню; б) квантование по времени.
1. При квантовании по уровню дискретный сигнал остается неизменным до момента, когда значение непрерывного сигнала достигает некоторой заданной величины. Это может произойти в любой момент времени.
2. При квантовании по времени фиксируются те величины, которые существуют в заданное мгновение времени. При квантовании по времени можно "округлять" дискретную величину до ближайшего квантового уровня.
Протекание сигнала во времени — это смена различных состояний этого сигнала, выбранных из числа возможных. Множество возможных состояний может быть дискретным или непрерывным, представлять собой одну величину или совокупность многих. Каждому состоянию события может быть приведено в соответствие определенное состояние физического процесса, представляющего собой сигнал. Посылка сообщения о событии есть выбор определенного символа сигнала из множества возможных символов.
Элементы множества сигнальных символов, подобно состояниям описываемого события, могут быть либо дискретными символами (буквы печатного текста, цифры, точки и тире азбуки Морзе), либо непрерывными (частота основного тона, амплитуда колебания).
Множество возможных состояний или символов сигнала называется алфавитом сигнала. Отдельный символ — буква алфавита; серия (или комбинация) символов — слово алфавита. Простейший алфавит символов: 1 — 0 или "да" — "нет".
На пути от источника информации — говорящего к адресату (слушающему) сигнал может проходить различные участки. Каждый из участников характеризуется своим физическим алфавитом. Например, при передаче сигнала по радио сигнал представляет собой то звуковое колебание, то колебание электрического тока, то колебания электромагнитного поля и т.д.
Сигнал испытывает преобразование из одного физического алфавита в другой. Но содержание сигнала (информация), т.е. соответствие первоначальной форме сообщения, сохраняется.
Преобразование сигнала из одного физического алфавита в другой происходит путем сопоставления символов первого алфавита с символами второго. Такое сопоставление алфавитов называется кодированием сигнала. Правило, по которому производится кодирование, называется кодом. Передача сигналов осуществляется по каналу связи. Примеры: телеграф, телефон, нервные пути живого существа и др. Алфавит выходного сигнала необязательно совпадает с алфавитом на входе. Причины — шумы или помехи в канале связи. Адресат получает сигнал, искаженный помехами. Типичным каналом связи является нерв. Он представляет собой полную аналогию техническим каналам связи. В первой системе — множество нейронов различных типов. Их общие черты: нейрон — это клетка (клеточное тело) размером приблизительно 0,1 мм с отходящими от нее отростками (дендритами). Образуется как бы дерево, длина которого несколько миллиметров. Кроме того, от клеточного тела отходит один осевой отросток (аксон) большой длины (от нескольких сантиметров до нескольких метров). От аксона отходит небольшое число боковых волокон — коллатералей. Таким образом, нервная клетка — это как бы длинный провод, оканчивающийся на одном конце телом клетки. Провода (нервные волокна) объединены в пучки, называемые нервами. Нерв можно сравнить с телефонным кабелем, а не с одиночным проводом.
Самую большую информационную пропускную способность имеет зрение (совокупность зрительных нервов), далее идет осязание и лишь потом слух.
Акустические сигналы подразделяют на первичные и вторичные. К первичным акустическим сигналам относятся сигналы, создаваемые музыкальными инструментами, пением, речью; шумовые сигналы (шум поезда, треск кузнечиков и т.д.). К вторичным относят сигналы, воспроизводимые электроакустическими устройствами, т.е. первичные акустические сигналы, прошедшие по электроакустическим трактам связи и видоизмененные по ряду параметров [1;13].
Примеры частотного диапазона первичных акустических сигналов:
речь 70 — 7000 Гц;
скрипка 250 — 15 000 Гц;
орган 20 — 15 000 Гц;
симфонический оркестр 30 — 15 000 Гц.
Акустические сигналы
относятся к случайным процессам
(исключение — вой сирены, гудок и
т.п.). Они характеризуются распределением
по уровню, по частоте и по времени,
соответственно динамическим диапазоном,
формой спектра, частотным диапазоном
и временем корреляции отдельных участков
сигнала. Уровень акустического сигнала
непрерывно меняется. Диапазон его
изменений может быть довольно широким.
Введены понятия квазимаксимального
динамического уровня
и квазиминимального
.
Разность
и
между уровнями называется динамическим
диапазоном акустического сигнала:
.
Для различных акустических сигналов:
речь диктора 25—35 дБ
телефонный разговор 35—45 дБ
небольшие ансамбли 45—55 дБ
симфонический оркестр 65—75 дБ
2.2 Основы акустического анализа речи. Речь является конечным акустическим продуктом произвольных формализованных движений дыхательных и жевательных органов и относится к моторным видам поведения, приобретенным индивидом в процессе обучения. Предполагается, что речь возникла, когда первобытный человек счел возможным дополнить код (сигнализацию с помощью рук) движениями органов голосового тракта [15].
Акустический анализ речевого сигнала базируется на ряде определенных принципов, основным из которых является положение о том, что всякий речевой сигнал представляет собой реакцию резонансной системы речевого тракта на возбуждение его одним или несколькими генераторами (источниками) звуковых колебаний [12;15;16]. Иными словами, звуковая волна является результатом воздействия генератора звука на фильтрующую (резонансную) систему речевого тракта и определяется характеристиками как источника звука, так и фильтрующей системы.
Основным свойством голосового
источника является периодичность
создаваемого звукового эффекта. Время,
необходимое для реализации одного цикла
работы голосовых связок (
—период
колебаний голосовых связок), является
величиной, обратно пропорциональной
величине подсвязочного давления и
степени упругости (натяжения) голосовых
связок. Число колебаний голосовых связок
за единицу времени — величина,
обратная
.
Эта величина
характеризует частоту основного тона
(в Гц).
Периодичность колебаний
голосовых связок, по существу, носит
квазипериодический характер, ибо
длительность каждого цикла изменяется,
что при восприятии оценивается как
вибрация голосового источника. Изменения
от периода к периоду характеризуют
тонкую структуру основного тона.
Информация о тонкой структуре основного
тона необходима при изучении индивидуальных
особенностей голоса диктора, речевого
выражения эмоций, патологических
отклонений.
Частота основного тона, длительность и интенсивность речевого сигнала известны в фонетике как просодические характеристики речи, основные физические характеристики, вторичные характеристики в отличие от первичных или спектральных. Просодические характеристики, как правило, относятся к акустическим характеристикам, относительно независимым от основной артикуляции звука.
Интенсивность звука определяется звуковой энергией, проходящей за единицу времени через единицу площади. Для измерения интенсивности пользуются десятичным логарифмом отношения мощности данного звука к условному нулевому уровню (Б) и величиной, которая в 10 раз меньше (дБ).
Структура речевого сигнала сложна по своей природе. На форму звуковой волны, исходящей от источника голосообразования, накладываются частотные характеристики резонирующих полостей. Поскольку такой генератор звуковых колебаний, как гортань, дает монотонный по форме спектр, то спектральные максимумы могут определяться только передаточной функцией речевого тракта, т.е. его резонансными частотами. Изменение размеров резонаторов и щелей, соединяющих их, вызывает изменение резонансных частот (явление резонанса и антирезонанса).
Принято считать, что в процессе артикуляции полость рта делится на две части: переднюю и заднюю. Изменения конфигурации этих частей и их соотношения вызывают появление тех или иных резонансных частот.
Одним из основных понятий спектрального анализа речи является понятие форманты. Существует несколько определений частоты форманты. Первое — частотой форманты называют частоту полюса фильтрующей функции речевого тракта (частотой антиформанты — частоту нулевого значения фильтрующей функции). Второе — частотой форманты называют среднюю (средневзвешенную) частоту спектра в области соответствующей форманты. Третье — за частоты формант принимают частоты максимумов спектра.
Наиболее общепринятым
следует считать понимание форманты как
максимума концентрации энергии в спектре
звука. Так как гармоническая структура
речевого сигнала обусловлена характером
работы голосовых связок, то локализация
формант зависит прежде всего от изменения
конфигурации всей резонансной системы,
т.е. она находится в прямой зависимости
от изменения формы и объема резонирующих
полостей. Положение формант и гармоник
основного тона на частотной шкале
зачастую не совпадает, что объясняется,
видимо, отсутствием прямой корреляции
между ними. Форманта обычно обозначается
через
,
где номинал изменяется в зависимости
от изменения частотного положения
форманты, например:
,
,
и т.д.
Понятию форманты, характеризующей
качественную сторону спектра, идентично
понятие полюса передаточной функции
речевого тракта
:
,
где
—
речевой сигнал,
—
спектр источника,
—
передаточная функция. Передаточная
функция определяется системой резонансов
и антирезонансов в данный момент времени.
Кроме понятия форманты в спектральных исследованиях используют такие понятия, как "формантная область", "формантный уровень", "формантная полоса".
Формантная область позволяет описать область концентрации энергии в спектре звука речи.
Под формантным уровнем,
обозначаемым через
,
понимается уровень формантных пик в
огибающей спектра, который равен уровню
пиковых значений спектральной огибающей,
соответствующему среднему эффективному
значению звукового давления. Формантный
уровень обусловлен особенностями голоса
диктора.
Формантные полосы,
обозначаемые через
,
соотносятся с отдельными местоположениями
формант и определяются данными
артикуляции, поскольку речевой тракт
является многорезонансной системой.
Формантные полосы тесно связаны со
специфическим характером формантных
частот. Для
и
величины полос не столь значительны
(40—70 Гц). Выше этих формант, в основном
начиная с 2000 Гц, величина полос заметно
возрастает. Среднее расстояние
равно 75 Гц.
Формантный анализ речи рассматривается как один из видов спектрального анализа. Основной задачей формантного анализа является определение частот формант в процессе их изменения во времени, описание формантной структуры звуков речи.
Помимо такого источника, как голосовые связки, генерирующие периодическую звуковую волну, в процессе речепроизводства участвуют еще два типа источника:
а) турбулентный шум, возникающий вследствие завихрений потока воздуха в щелевидных проходах;
б) импульсный шум, наблюдающийся при резком спаде воздушного давления после раскрытия закрытого до этого прохода в речевом тракте.
Первый тип источника генерирует фрикативные и придыхательные звуки, второй тип — эксплозивные (взрывные). В зависимости от этого трактуется -картина. На спектрограммах периодические колебания представлены характерной гармонической структурой, а шум — иррегулярным распределением энергии во времени.
Фонетическое качество
гласной определяется главным образом
распределением энергии в спектре, от
чего в значительной степени зависит
положение формант
и т.д. В практике спектрального анализа
обнаружено, что конкретные формантные
структуры одной и той же гласной зависят
от многих факторов, включая индивидуальные
особенности произношения диктора, его
пол, возраст, состояние здоровья, тип
произнесения, эмоциональный настрой в
момент произнесения и т.д.
Форманты гласных звуков являются основным акустическим коррелятом их качества. Как показал целый ряд исследований с помощью синтеза речи, наиболее значимыми являются две-три первые форманты. Однако известно также, что всякая часть речевого тракта влияет в той или иной степени на настройку всех формант. Уровень интенсивности формант обусловливается как источником звуковых колебаний, так и резонансной системой речевого тракта. Длительность звука определяется длительностью работы голосовых связок и всего артикуляторного аппарата.
Спектрографическое представление, несмотря на некоторую условность соотнесения его с реальной речью, позволяет установить непосредственную связь между конкретным видом спектрограммы, особенностями воспринимаемого звука и фонетическими единицами [6;7].
Итак, при интерпретации
спектральных данных сталкиваются с
двумя типами частотных характеристик:
частотой основного тона
и формантными частотами
.
Обе характеристики определяются
процессом речеобразования.
Голосовые связки генерируют последовательность затухающих акустических импульсов. В настоящее время механизм колебаний голосовых связок находит объяснение в механико-миоэластической теории, согласно которой на частоту основного тона влияют следующие факторы: мускулатура связок, определяющая их натяжение, распределение массы связок; изменение величины подсвязочного давления, сечения речеобразующего тракта, положения языка в процессе артикуляции.
Первостепенное значение имеют такие факторы, как степень натяжения связок, изменение в связи с этим их эффективной массы, а также уменьшение величины подсвязочного давления. Остальные два фактора рассматриваются как второстепенные, проявляющиеся в процессе взаимодействия элементов артикуляторной системы.
При производстве глухих согласных голосовые связки практически не принимают участия, хотя в целом ряде исследований отмечается наличие медленных колебаний связок с частотой, не превышающей 30 Гц. Шумовой источник находится внутри речевого тракта. В большинстве случаев он является турбулентным. Производимые им глухие звуки могут быть непрерывными и прерывистыми.
Звонкие согласные являются результатом комбинации действия источника монотонных периодических по форме колебаний и источника шума. Во всех этих случаях происходит усиление определенных участков частотного спектра, т.е. образование формантных областей.
При рассмотрении временны2х и спектральных характеристик звуков речи особое внимание следует обращать на следующие два момента:
1) основная информация о гласных и некоторых согласных заключается почти исключительно в формантной структуре и в отношениях их амплитуд;
2) для изучения согласных наиболее важную роль играют характеристики переходных процессов (изменение формантной картины на переходах и временны2е изменения).
Частотная характеристика форманты может быть измерена двояким способом: а) по центру видимой формантной полосы; б) по местоположению пика в спектральной огибающей.
Среднее расстояние между
формантами равно
,
где
см/с
(скорость звука), а
—
средняя длина речевого тракта (ширина
речевого тракта не оказывает существенного
влияния на расстояние между формантами).
Обычно
см,
соответственно
Гц.
Расстояние между формантами в 1000 Гц
рассматривается как среднее, теоретически
исходное.
Формантная модель является
относительным физическим коррелятом
какой-либо конфигурации речевого тракта,
включающим языковую, глоточную и губную
артикуляции. Формантные частоты для
мужских голосов равняются приблизительно
следующим величинам:
Гц;
Гц;
Гц;
Гц.
Формантные частоты для женских голосов примерно на 15—17% выше, чем для мужских.
При рассмотрении звуков речи решающей оказывается характеристика по трем признакам: 1) источнику; 2) особенностям развития; 3) резонансным особенностям. Каждый из этих признаков имеет определенную спектральную картину. На спектрограммах отражаются следующие свойства речевого сигнала:
а) изменения спектральной структуры в координатах "частота — время";
б) изменение энергетической насыщенности резонансных частот во времени;
в) последовательность звуков с гармонической, шумовой, сложной "тон — шум" структурой;
г) наличие квазистационарных и переходных участков.
По источнику различают два основных признака звуков речи: вокалические и консонантические.
Звуки, обладающие первым
признаком, характеризуются специфической
спектральной структурой.
—
картина гласных на спектрограмме состоит
из ряда лежащих друг над другом темных
полос, местоположение которых обусловлено
артикуляторной характеристикой данного
гласного. Каждая из этих полос соответствует
различным формантным областям гласных.
При определении спектральных характеристик
гласных оперируют обычно двумя или
тремя формантами
.
Их распределение на частотной шкале
выражается относительными числами —
.
Значение
характеризует следующее: находятся ли
две первые форманты близко друг от
друга, или же они удалены друг от друга
на значительное расстояние. Другими
словами,
является показателем того, сконцентрирована
ли основная энергия спектра в высоких
или низких частотах.
передних гласных значительно больше,
чем
задних гласных. Еще более показательным
для выявления сосредоточения основной
массы энергии спектра является отношение
.
Акустически признак гравис/акут — низкий/высокий выражается в концентрации энергии в спектре. В том случае, если энергия сосредоточена в низких частотах спектра, фонема характеризуется как гравис; если соответственно энергия концентрируется в высоких частотах спектра, — как акут. Признак гравис гласных и согласных звуков обусловлен большим объемом и меньшей расчлененностью полости рта, тогда как признак акут — меньшим объемом и большей расчлененностью.
Соответственно к грависным (низким) относятся лабиальные согласные, которые противопоставляются дентальным согласным, и велярные, противопоставляемые палатальным. Гласные заднего ряда, артикулируемые вследствие оттягивания языка назад, являются грависными; гласные переднего ряда, образованные движением языка вперед, — акутными. Таким образом, акустическое соотношение гравис/акут — низкий/высокий артикуляторно соответствует изменению ротового резонатора по горизонтальной оси.
Вспомогательным фактором при образовании низких фонем является сжатие задней части ротового резонатора посредством сужения фаринкса, тогда как высокие фонемы образуются при расширенной глотке.
Так, например, при произнесении некоторых звуков диаметр сечения глоточного отверстия варьирует у грависных (низких): /u/ — 3,8 мм; /o/ — 5,5; у акутных (высоких): /i/ — 15,2; /e/ — 12,7 мм.
Сближение расстояния и у гласных заднего ряда дает возможность синтезировать эти звуки при наличии только одной форманты. Так, для гласных /o/, /u/ эта форманта будет находиться ближе к . Для синтезирования гласных переднего ряда необходимы всегда две форманты, причем должна быть ближе к .
Акустически противоположение диезный/простой относится к спектру звука, форманты которого сдвинуты в область высоких частот, по сравнению со спектром звука, не обладающего этим признаком. Артикуляционно при этом конфигурация резонаторов в полости рта изменяется путем подъема средней спинки языка к твердому нёбу. Обычно при этом при артикуляции звуков, относящихся к категории диезных, сильно расширен фарингальный участок тракта. Признак диезности связан с палатализацией. В спектре палатализованных звуков сдвигается по направлению к :
непалатализованные палатализованные
(простые) (диезные)
>
Следующим акустическим противопоставлением является противопоставление компактный/диффузный. Компактные звуки характеризуются преобладанием центрально локализованного формантного района. У диффузных звуков энергия резонансных частот рассеяна по большому отрезку частотной шкалы. Основное артикуляторное различие между компактными и диффузными звуками заключается в соотношении между объемом резонирующих полостей перед сужением и позади него. У гласных компактность возрастает с увеличением поперечного сечения прохода. Широкие гласные более компактны, чем узкие. Аналогичное отношение резонирующих полостей достигается при изменении объема глотки. Объем глотки у диффузных звуков всегда больше, чем у соответствующих компактных.
Для измерения степени
компактности/диффузности гласных
звуков служит отношение
.
Например, первые три форманты русских гласных /i/, /u/, /a/ характеризуются в основном следующими величинами (в Гц):
/i/ /u/ /a/
250 350 650
2750 600 1250
3400 2600 2200
Отношение
(/i/13,6;
/u/7,4;
/a/3,4)
показывает, что у гласных /i/, /u/ энергия
рассеяна по большему отрезку частотной
шкалы спектра, чем у гласной /a/, где
основная энергия сосредоточена на
сравнительно узком участке спектра.
У согласных компактность представлена преобладанием формантного района, расположенного в центре частотной шкалы. Подобные согласные отличаются от звуков, где ярко выражены нецентральные районы. К группе компактных относятся согласные /k/, /g/, /Î/, а к группе диффузных — /d/, /t/, /n/, /p/, /b/, /f/, /m/.
Оппозиция напряженный/ненапряженный выражается акустически высокой общей энергией спектра и ее широкой разверткой во времени сравнительно с более низкой общей энергией звука и ее узкой разверткой во времени.
Артикуляторно напряженные фонемы произносятся с большей отчетливостью и с большим звуковым давлением, чем соответствующие ненапряженные фонемы. Большая мускульная напряженность всего речевого тракта связана с деформацией его стенок по сравнению с нейтральной позицией.
Напряженные фонемы характеризуются более длительным интервалом звучания и большей интенсивностью, чем ненапряженные. Сумма значений отклонений формант от нейтральных значений у напряженных гласных больше, чем у соответствующих ненапряженных. Этот признак и является решающим при отнесении звуков к категории напряженных.
Признаки носовой/неносовой могут быть представлены как у гласных, так и у согласных звуков. Спектр носовых звуков в отличие от неносовых характеризуется наличием большого числа формантных областей. У носовых гласных появляются дополнительные форманты, расположенные между и . У гласных с высокой , например у гласной /a/, дополнительная носовая форманта появляется ниже, реже — выше . Дополнительные полюсы и нулевые точки, связанные с назализацией согласных, представляют локальные искажения в спектре, не оказывающие влияния на другие резонансные признаки.
Акустически противопоставление признаков огубленный/неогубленный, бемольный/простой — это противопоставление спектра звуков, у которых форманты сдвинуты в область более низких частот по сравнению со спектром звуков, не обладающих этим признаком. Признак огубленный имеет своим физическим коррелятом изменение частотных характеристик в сторону их понижения:
неогубленные огубленные
(простые) (бемольные)
>
Эффект лабиализации (огубленности) проявляется в наибольшей степени у той форманты, формирование которой является доминирующим в спектре звука. Резкое смещение формантной характеристики при губной артикуляции прослеживается в основном у гласного /u/, у гласного /{/ — для и у гласного /i/ — для , т.е. в тех формантных областях, которые являются решающими в формировании частотной характеристики данного гласного.
Для спектральной картины согласных решающей в артикуляторном плане является ширина прохода в речевом тракте, связанного как с перепадом воздушного давления, так и с образованием турбулентной струи воздуха. При этом важным артикуляторным условием для выявления концентрации энергии в спектре служит наличие полости определенного объема перед источником, т.е. в палатальной или велярной областях. В том случае, если подобная полость отсутствует, энергия звука распространяется по всей спектральной шкале.
Спектральная структура глухих согласных звуков сильно отличается от спектральной структуры гласных: обычно не заметно следов и область спектральных характеристик выше, чем у гласных. и более высокие форманты появляются лишь в сегменте аспирации, в этом сегменте обычно выражена слабо, — различима. В данном сегменте имеется также и область шума. Область более высоких формант свидетельствует о том, что в образовании спектра принимает участие весь речевой тракт. Изменение артикуляции при переходах к гласному отражается в изгибах формант. Переход от интервала фрикации к интервалу аспирации почти неразличим. Фаза эксплозии и фаза фрикации имеют определенные входные характеристики. Длительность фазы фрикации обычно менее 15 мс. Сегменты взрыва и фрикации отличаются друг от друга насыщенностью энергии.
Методика исследования фрикативных согласных принципиально не отличается от положений, изложенных выше. Форманты глухих фрикативных звуков расположены в высоких частотах. Экспериментальные исследования позволили установить, что изменение места артикуляции не оказывает значительного влияния на верхнюю частотную границу этих звуков. По своей спектральной характеристике звонкие фрикативные звуки отличаются от соответствующих глухих участием голосового источника. Модели фрикативных звонких звуков не являются простым смешением голоса и шума, а представляют собой шум, интенсивно модулированный периодическими вибрациями потока воздуха.
Некоторые признаки согласных проявляются особенно ярко благодаря влиянию, оказываемому на согласные соседними гласными. В отличие от относительно константного характера структуры формант гласных форманты согласных обладают неустойчивым лабильным характером. Локус согласных, т.е. определенное место на частотной шкале спектра, является исходной точкой, от которой начинается сдвиг к квазиустойчивому уровню формант гласных.
Локус согласных связан со способом их образования, локус — с относительно фиксированным местом артикуляции согласных. Эта связь подтверждается тем, что каждая из групп согласных /b/, /p/, /m/; /d/, /t/, /n/ и /g/, /k/,/Î/ характеризуется приблизительно одними и теми же сдвигами .
Частотный сдвиг локуса имеет различный характер (восходящий или нисходящий) в зависимости от фонетического качества последующего гласного. Неустойчивость локуса формант согласных обнаруживается, например, при анализе взрывного согласного /g/. В спектре этого согласного не удалось установить постоянного локуса . Он резко смещается по частотной шкале в зависимости от того, произносится за ним гласный переднего или заднего ряда.
Далее следует остановиться
на
—
картине сонантов. Иногда форманты
сонорных звуков обозначаются через
.
Носовые характеризуются в основном
значениями
1000;
2000; 3000; 4000 Гц. Самое низкое значение
соответствует наиболее интенсивной
форманте. Форманта
= 1000 Гц
ввиду малой степени ее интенсивности
не всегда может быть обнаружена на
спектрограммах. Более высокие форманты
могут быть сдвинуты. Высокие форманты
образуют на спектрограммах своего рода
плато слабо выраженных значений,
что имеет место, например, в сочетании
с гласными заднего ряда.
Некоторые согласные, например
/j/, /w/, /v/, /r/, часто произносятся как
озвученные континуанты (полугласные,
аппроксиманты) либо почти без шума, либо
с незначительным его уровнем. Поэтому
их можно рассматривать с учетом акустики
как гласные, так как их спектр достаточно
точно описывается
-картиной.
Например: /v/
Гц.
Речевой сигнал не соответствует нашему представлению о речи как о последовательности дискретных элементов (ср. конечный набор фонем (вариантов фонем) в транскрипции). То, что отражено на спектрограммах, является комбинацией непрерывных и дискретных процессов.
Непрерывность артикуляции в процессе речепроизводства находит отражение в непрерывности -картины.
Дискретность артикуляции (включение и выключение голосовых связок, полное или частичное закрытие рта, смыкание мягкого нёба) также отражается на спектрограммах.
Сегментация речевого потока не является процессом однозначного соответствия между числом фонетических символов транскрипции и числом сегментов акустической картины. Обычно число акустических сегментов превышает число фонетических символов транскрипции. Например, один взрывной смычный звук может передаваться несколькими сегментами: переходом от предшествующего звука, фазой смычки, фазами эксплозии, фрикации, аспирации, переходом к последующему звуку.
На спектрограмме речевой поток может быть разделен на последовательность сегментов, отражающих признаки наличия-отсутствия тона, способа и места образования звуков.
При обработке спектрографических данных, когда лежащий в их основе текст известен, проблема сегментации заключается в:
разметке спектрограмм на отрезки, соответствующие фразам, синтагмам, фонетическим словам;
разметке на более мелкие сегменты (слоговые, звуковые, субзвуковые);
определении акустических характеристик выделенных сегментов.
Исследование спектральной картины звуков речи включает сравнительное изучение: 1) относительно устойчивых качеств реализации звука, взятого изолированно вне фонетического контекста; 2) динамических качеств реализации звука, взятого в определенном фонетическом контексте в потоке речи. Предметом первого аспекта является акустическое описание звуков в статике, предметом второго — акустическое описание звуков в динамике.
Для речеобразования взаимное влияние последовательности артикуляторных жестов, порождающих последовательность звуковых сегментов, называется коартикуляцией. Эффект коартикуляции может быть описан в терминах спектрального анализа путем исследования характера изменения переходов формант во времени.
Изучение эффекта коартикуляции осуществляется в двух направлениях. Первое направление характеризуется тем, что в его основу положена теория локуса. Сущность этой теории заключается в том, что с помощью опытов с синтезированной речью подбираются такие характеристики формантного перехода, при которых согласный хорошо опознается только на основании этих данных. Исходным в теории локуса является положение о том, что для каждого согласного должны быть характерные точки, в которых начинаются формантные переходы или к которым примыкают последние. На этом основании переходы могут рассматриваться как движение формант от характерной для каждого согласного точки к формантным частотам последующего звука, как правило, гласного.
Конкретные
данные, характеризующие локус согласных,
получены, например, в результате
проведения спектрального анализа
CV-сочетаний в американском варианте
английского языка и проверены синтезом
и далее путем проведения психоакустичесих
опытов по восприятию. Эмпирически
найденный локус, в частности для
,
на материале смычных взрывных звонких
/b, d, g/ составляет следующие значения:
b — 700 Гц, d — 1800 Гц, g — 3000 Гц.
Дальнейшая разработка теории локуса
привела к нахождению универсальной
точки в области 1400 Гц для вышеуказанных
согласных. Однако следует подчеркнуть,
что локусы смычных согласных непостоянны.
Причина этого явления заключается в
том, что при образовании согласного
вовлекаются сопутствующие артикуляторные
движения, которые частично предвосхищают
конфигурацию последующего гласного.
Следовательно, первые импульсы команды
для согласного и последующего гласного
должны происходить одновременно.
Второе направление изучения эффекта коартикуляции ведется на основе трехпараметрической модели речеобразования Г.Фанта, которая включает:
1) положение минимального
просвета (
)
между языком и нёбом;
2) площадь поперечного сечения
(
)
в этой точке;
3) степень округления и
вытянутости губ, измеренная в отношении
,
где
—
длина секции, моделирующей губы, а
—
площадь сечения в районе губ.
Исходя из того что каждый участок резонансной системы голосового тракта влияет на положение формант, можно утверждать, что с точки зрения эффекта коартикуляции формантные переходы в интервалах, прилегающих к согласному, есть не что иное, как переход от -картины, характерной для моментов максимального сужения при артикуляции согласного, к -картине гласного.
Фонетическая (качественная) и количественная реализация звука (или сегмента звука) зависит от непосредственного фонетического контекста. Например, формантные частоты гласных в VCV-сочетаниях зависят не только от согласных, но и от комбинации самих гласных.
Величины локусов вариабельны и не могут быть описаны тремя, двумя, а тем более одним значением. Известна попытка пересмотреть теорию локуса и считать локусом среднее число от нескольких измерений, которое получается при учете всех возможных контекстов, например в VCV-сочетаниях. На основе полученных данных предлагается модель коартикуляции. Входом является последовательность команд, отбирающих два гласных и согласный; выходом — непрерывно меняющийся коэффициент формы речевого тракта [6].
Языковая коартикуляция VCV-сочетания (C-смычный) включает два одновременных движения: а) движение языка, характеризующее гласный, и б) наложенное на эту артикуляцию сжимающее движение апикальных, дорсальных, а также губных артикуляторов, что вызвано наличием смычного согласного в артикулируемом сочетании.
В вышеуказанной модели процесс образования гласного включает артикуляцию этого гласного от начала до конца и наложенную на нее артикуляцию согласного. Степень выраженности эффекта коартикуляции зависит от характера изменения речевого тракта и от времени реализации. При учете темпа произнесения и силы ударения выявлено, что чем длительнее гласный, тем в большей степени значение этого гласного будет приближаться к фиксированному значению , инвариантному относительно окружающих согласных; чем меньше длительность гласного, тем меньше гласного будет отличаться от ее значения в -картине соседнего согласного.
Таким образом, можно констатировать следующее:
эффект коартикуляции первичен на артикуляторном уровне и вторичен на акустическом уровне;
эффект коартикуляции может быть относительно точно описан в терминах спектрального анализа речи;
относительными акустическими коррелятами эффекта коартикуляции могут быть изменения формантных переходов;
наиболее показательной характеристикой коартикуляции на акустическом уровне является изменение ;
формантный переход может быть измерен от начала изменения значения форманты предшествующего звука до момента относительной стабилизации значения той же форманты на квазистационарном участке смежного звука;
изменения значений формант
на переходных участках могут быть описаны в терминах "зоны отклонения"
с указанием направления изменения (+ или —);
степень выраженности формантных переходов в значительной мере зависит от длительности реализации звука, что находится в прямой зависимости от темпа произнесения и степени ударения.
Представление речевой информации с помощью спектрального анализа характеризуется рядом положительных моментов, к числу которых следует отнести прежде всего согласование спектральных данных с данными восприятия речи человеком. Предполагается, что на начальной стадии восприятия речи слух производит некоторый грубый частотный анализ. В основной мембране внутреннего уха осуществляется спектральное разложение звуковой волны. По слуховому нерву в высшие отделы центральной нервной системы передается информация о перераспределении во времени энергии в звуковой волне. Кроме того, любая спектральная характеристика речевого сигнала отражает не только частотные особенности последнего, но и его временну2ю специфику.
Развитие спектрографии речи позволило существенно расширить знания и представления о структуре речевого сигнала, его особенностях как в процессе речеобразования, так и при восприятии.
Изучение речи при помощи спектрального анализа практически было начато в 1941 г., когда была предложена конструкция спектрографа, названная "Видимая речь". Этот аппарат сыграл большую роль в деле развития и дальнейшего совершенствования методики исследования звуков в потоке речи. В настоящее время анализ "Видимая речь", претерпевший целый ряд модификаций, является одним из основных способов, используемых при акустических исследованиях речи.
2.3. Просодические характеристики речи. К просодическим характеристикам речи относят частоту основного тона, длительность и интенсивность (амплитуду звукового давления)2 . Все три просодические характеристики образуют единый комплекс, который только чисто условно для целей научного анализа может быть разграничен на отдельные составляющие [3;4].
Частота основного тона (F0). Анализ результатов исследований, проведенных на супрасегментном уровне, показывает, что частота основного тона (ЧОТ) — акустический коррелят высоты тона — является одной из самых универсальных супрасегментных характеристик3. Почти все виды интонационной информации могут быть переданы с помощью модификаций ЧОТ.
Фиксируемые значения ЧОТ несут информацию о характере работы голосового источника, который, в свою очередь, обусловливается как минимум тремя факторами: квазипериодичностью колебаний голосовых связок, индивидуальными особенностями голосового источника и эмоциональным состоянием говорящего.
Попериодные изменения ЧОТ называются тонкой структурой основного тона. Информация о тонкой структуре основного тона необходима при распознавании индивидуальных особенностей голоса говорящего, патологии речи, выражения эмоций. Напротив, при изучении интонационных явлений информация о тонкой структуре основного тона является своего рода "помехой", которая должна быть устранена путем сглаживания кривой, получаемой в результате попериодной фиксации ЧОТ.
При анализе интонации из рассмотрения также исключаются модификации ЧОТ, обусловливаемые сегментным составом речевых сигналов. В литературе имеется ряд указаний о характере изменения ЧОТ в зависимости от особенностей сегментного состава. Обнаружена зависимость ЧОТ от качества гласного. Узкие гласные имеют более высокую собственную ЧОТ, чем широкие. Различия в собственной ЧОТ гласных связывают также с различной степенью продвинутости языка: наиболее высокими оказываются гласные переднего ряда, наиболее низкими — гласные заднего ряда. Однако различия по собственной частоте основного тона между отдельными гласными настолько малы, что в исследованиях супрасегментного плана они могут не приниматься во внимание.
Наибольшие пертурбации в движении ЧОТ отмечаются на границе между гласными и согласными. Наиболее ярко пертурбации ЧОТ выражены на границе шумных согласных и открытых гласных, т.е. в слогах с максимальным контрастом между гласным и согласным; наименее ярко — между гласным и сонорным согласным, т.е. там, где контраст минимален. Отмеченные явления находят свое физиологическое обоснование: голосовые связки реагируют прежде всего на скорость перепада надсвязочного и подсвязочного давления и, наоборот, мало реагируют на медленно изменяющийся перепад давления. Подобное положение объясняется известной инертностью рефлекторных механизмов, поддерживающих ЧОТ на определенном уровне. В тех случаях, когда скорость градиента давления велика, ЧОТ изменяется раньше, чем рефлекторный механизм коррекции успевает вступить в действие. После спада давления в ротовой полости (например, после взрыва смычки) ЧОТ не только быстро повышается до нормы, но и значительно превосходит ее, затем снова понижается и, наконец, устанавливается на стабильном уровне. Таким образом, колебания ЧОТ имеют волнообразный характер. Естественно, что отмечаемые в таких случаях перепады ЧОТ не должны учитываться в интонационных исследованиях, но могут быть с успехом использованы как вспомогательный признак при сегментации речевого континуума.
На участке преграды при артикуляции звонких смычных согласных происходит понижение ЧОТ, накладывающееся на несущий частотный контур. Это понижение обусловлено увеличением надсвязочного давления. При этом полная смычка при смычно-взрывных согласных имеет своим следствием более высокое давление в ротовой полости по сравнению со смычно-проходными согласными, при произнесении которых воздух имеет выход через полость носа. Поэтому, например, для согласного б отмечается более значительное понижение ЧОТ, чем это имеет место при произнесении согласного м. Изменения ЧОТ могут вызываться артикуляцией твердого приступа гласных. В данном случае имеет место мгновенное повышение ЧОТ. Кратковременное понижение ЧОТ отмечается при придыхании. Время, необходимое для реализации несущей ЧОТ, составляет при твердом приступе 20 — 30 мс, при придыхании — 30 — 40 мс. Естественно, что эти изменения ЧОТ в интонационных исследованиях учитывать нецелесообразно. На стационарных участках гласных значительного перепада по длительности соседних периодов, как правило, не наблюдается.
К числу параметров ЧОТ обычно относят средний уровень ЧОТ, частотный диапазон, частотный интервал, скорость изменения (подъема или падения) ЧОТ [3;4].
Средний уровень ЧОТ. В литературе известны различные способы определения среднего частотного уровня: 1) средний уровень ЧОТ определяется путем сложения максимального и минимального значений ЧОТ на рассматриваемом участке речевого сигнала и деления полученной суммы пополам; 2) в качестве среднего частотного уровня рассматривается безударное начало речевого сегмента; 3) средним частотным уровнем считают наиболее часто встречающиеся значения ЧОТ в анализируемых сигналах; 4) средний уровень ЧОТ определяется по средней ЧОТ некоторого числа случайно отобранных звуков; 5) средний уровень ЧОТ вычисляется с опорой на средний уровень безударных слогов.
Первый способ имеет тот недостаток, что при его использовании максимальное значение ЧОТ сильно варьирует в зависимости от ряда факторов, таких, например, как коммуникативный тип фразы, степень выделенности слогов, длительность фразы и т.д. Средний частотный уровень, определяемый данным способом, значительно варьирует от фразы к фразе. Кроме того, понятие о "серединности" среднего частотного уровня относительно, так как у поставленных голосов средний частотный уровень находится обычно на расстоянии 1/3 всего диапазона от наиболее низкого тона. И только у голосов среднего качества (диапазоном в октаву) средний частотный уровень находится при спокойной речи, действительно, где-то посредине.
При использовании второго способа прежде всего следует определить, что будет включаться в "безударное начало": либо только безударный слог, находящийся в абсолютном начале анализируемого отрезка, либо все слоги, предшествующие первому ударному (выделенному) слогу. Во втором случае возникает опасность включения в так называемое "безударное начало" слогов, характеризующихся дополнительной выделенностью, обусловленной ритмическими и прочими факторами. А это, в свою очередь, является причиной значительной вариабельности среднего уровня ЧОТ фраз, произнесенных одним и тем же диктором в идентичных условиях.
Для определения среднего частотного уровня третьим способом необходимо предварительно определить частотность встречаемости различных значений ЧОТ в данном отрезке речевого сигнала. Эта работа требует значительной затраты времени и применения довольно сложного математического аппарата.
Выбор n-го количества случайно отобранных звуков для определения среднего частотного уровня (четвертый способ) представляется несколько произвольным. При определении среднего частотного уровня этим способом полученные значения сильно варьируют от выборки к выборке.
Наиболее стабильные значения среднего частотного уровня, мало варьирующие во фразах, произнесенных одним диктором, получены при применении последнего (пятого) способа определения среднего частотного уровня. Таким образом, определение среднего уровня ЧОТ по среднему уровню безударных слогов представляется наиболее предпочтительным.
Средний частотный уровень (средняя ЧОТ) синтагмы, фразы, всех реализаций диктора и т.д. используется в качестве самостоятельного параметра, например, в исследованиях эмоционально окрашенной или патологической речи. Однако наиболее часто средняя ЧОТ выступает в роли нормирующего параметра при оценке изменений частотного контура в целом.
Частотный диапазон. Частотным диапазоном называется общий размах частотных изменений в анализируемом отрезке речи. Частотный диапазон находит свое выражение в расстоянии (разности) между самым низким и самым высоким значениями ЧОТ. Определение частотного диапазона в фонетических работах проводится по разным программам.
Определяется разность между максимальным и минимальным значениями ЧОТ в герцах и затем переводится в проценты. С метрологической точки зрения подобный способ измерения правомерен только в том случае, если при сопоставлении двух или нескольких диапазонов один из них принимается за точку отсчета и приравнивается к 100%. Так, например, при сравнении частотного диапазона фразы, произнесенной нейтрально и в различных эмоциональных состояниях, можно за 100% принять частотный диапазон нейтрального произнесения фразы, а частотный диапазон фраз, произнесенных в состоянии радости, гнева и т.д., вычислять в процентах от величины частотного диапазона нейтрально произнесенной фразы. Однако и при выполнении вышеназванного условия исследователь, вычисляющий частотный диапазон в процентах, сталкивается с непреодолимой трудностью: в психофизиологической литературе нет данных о том, сколько процентов от того или иного частотного диапазона можно рассматривать в качестве дифференциального порога для слухового аппарата человека. Поэтому оценка получаемых результатов с точки зрения их значимости для разграничения сравниваемых отрезков речи по их частотным диапазонам оказывается невозможной.
Определяется разность между максимальным и минимальным значениями ЧОТ в герцах и затем переводится в полутоны4. При использовании данной программы частотные диапазоны различных речевых сегментов могут сравниваться непосредственно. Предпочтительность второй программы заключается также в том, что, как указывалось ранее, именно полутон является той минимальной величиной изменения ЧОТ, которую нормальное человеческое ухо способно различать при восприятии речи.
Частотный интервал. Частотный интервал определяется отношением более высокой ЧОТ к более низкой. В фонетических исследованиях различают величину и направление частотного интервала. Величина частотного интервала определяется либо в процентах, либо в полутонах. Направление частотного интервала может быть восходящее, нисходящее и ровное. На этом основании различают положительные, отрицательные и нулевые частотные интервалы.
Частотный интервал называется отрицательным в том случае, если первая измеряемая величина ЧОТ больше второй. В противном случае, т.е. если первая из сравниваемых величин меньше второй, частотный интервал называется положительным. Нулевой частотный интервал фиксируется в том случае, когда ЧОТ сравниваемых участков речевого сегмента не имеет различий, т.е. либо полностью одинакова, либо отличается на величину, меньшую чем один полутон.
Обычно интервалы определяются внутри слога (гласного) или между слогами (гласными). Соответственно интервалы делятся на внутрислоговые и межслоговые. Выбор того или иного вида интервала в качестве параметра, рассматриваемого в исследовании, определяется задачей последнего.
Скорость изменения ЧОТ. Скорость изменения (подъема или падения) ЧОТ определяется только на тех участках речевой волны, которые характеризуются восходящим или нисходящим движением ЧОТ. Скорость изменения ЧОТ, так же как и частотный интервал, характеризуется величиной и направлением. Скорость называется положительной в том случае, если она вычисляется на участке с восходящим направлением движения ЧОТ. Отрицательный характер скорости изменения ЧОТ отмечается, когда она измеряется на участке речевого сегмента, характеризующегося нисходящим направлением движения ЧОТ.
Скорость изменения ЧОТ определяется в фонетических исследованиях по двум программам:
определяется количество герц, на которое увеличивается или уменьшается ЧОТ в течение одной миллисекунды; в данном случае скорость вычисляется в Гц/мс со знаком + или —, т.е. +Гц/мс или —Гц/мс;
определяется интервал ЧОТ на рассматриваемом участке (в полутонах) и вычисляется количество полутонов, на которое изменяется ЧОТ за одну секунду; в этом случае скорость вычисляется в полутонах на секунду.
Скорость изменения ЧОТ измеряется на участках гласных и в отдельных случаях на сонорных звуках. При этом в рамках звука могут быть различные участки. Одни из них характеризуются неизменной ЧОТ, другие отмечены восходящим или нисходящим ее движением. При замерах, производимых для вычисления скорости изменения ЧОТ, учитывают длительность только того участка, на котором зафиксировано однонаправленное движение ЧОТ. При этом следует принимать во внимание тот факт, что слуховой аппарат человека фиксирует только те изменения ЧОТ, длительность которых не меньше 50 мс.
Кроме вышеперечисленных параметров ЧОТ (частотного диапазона, частотного интервала и скорости изменения ЧОТ), носящих наиболее общий характер, в фонетических исследованиях используются и другие параметры ЧОТ, выбор которых определяется целью и задачами исследования. К числу этих параметров могут быть отнесены следующие.
А. Максимальная частота основного тона (ЧОТмакс). Этот параметр иногда называется также пиковым значением (частотным пиком) ЧОТ. Максимальная частота основного тона определяется для различных сегментов речевого континуума — фразы, синтагмы, ритмической группы и т.д. Если ЧОТмакс различных сегментов сопоставляется внутри реализаций одного диктора, можно пользоваться абсолютными значениями данного параметра в герцах. В случае сравнения ЧОТмакс того или иного сегмента в произнесении различных дикторов необходимо произвести ее нормировку. В качестве нормирующего параметра наиболее удобно выбрать средний частотный уровень диктора (о способе определения среднего частотного уровня см. выше). ЧОТмакс определяется как интервал между средним частотным уровнем и максимальным значением ЧОТ и выражается в полутонах со знаком (+).
Б. Минимальная частота основного тона (ЧОТмин). Минимальная частота основного тона определяется таким же способом, как и его максимальная частота, и выражается в полутонах со знаком (—).
В. Начальный и конечный частотные уровни анализируемого речевого сегмента. В обоих случаях при необходимости нормировки определяется частотный интервал (в полутонах) между начальным (конечным) значением ЧОТ и средним частотным уровнем. При сопоставлении начального частотного уровня речевых сегментов с различным звуковым наполнением следует учитывать позицию первого выделенного слога: находится ли он в абсолютном начале рассматриваемого сегмента, или ему предшествует безударный слог (слоги). Сопоставление будет корректным лишь в том случае, если оно проводится на материале, однородном с точки зрения позиции первого выделенного слога. Другими словами, экспериментальный корпус должен быть разделен на две группы: сегменты с безударным началом и сегменты с выделенным слогом в позиции абсолютного начала. Необходимость такой классификации обусловлена различиями в частотных характеристиках безударных и ударных слогов: последние всегда, независимо от других факторов, произносятся на более высоком частотном уровне по сравнению с безударным.
Г. Изрезанность частотного контура. Данный параметр используется, как правило, в исследованиях эмоционально окрашенной речи. Изрезанность частотного контура может быть оценена путем сложения всех изменений ЧОТ, т.е. путем нахождения суммы всех частотных интервалов (слоговых и межслоговых) и деления полученной суммы на количество интервалов. Получаемое численное значение рассматривается в качестве акустического коррелята степени изрезанности частотного контура.
Д. Степень выделенности ударных слогов по параметру ЧОТ. Как уже указывалось, ударные слоги произносятся на более высоком частотном уровне по сравнению с безударными. При определении степени выделенности ударных слогов по ЧОТ вычисляется средний частотный уровень ударных слогов и находится значение частотного интервала (в полутонах) между найденным значением и средним частотным уровнем данного речевого сегмента, например средним частотным уровнем безударных слогов. Параметр "степень выделенности ударных слогов по ЧОТ" рассматривается в качестве одного из акустических коррелятов эмфазы в речи.
Временны2е характеристики речи. В число просодических характеристик входит временна2я характеристика, вне существования которой невозможна реализация как сегментных, так и супрасегментных единиц высказывания. Известно, что любая просодическая характеристика может быть определена исключительно как соотношение во временно2й последовательности, что позволяет рассматривать временну2ю характеристику как элементарную и в то же время фундаментальную характеристику речи. Каждый речевой сегмент (субзвуковой, звуковой, слоговой, фразовый и т.д.) характеризуется определенной протяженностью во времени, что необходимо для его артикуляторной реализации, а также для дальнейшей слуховой идентификации с последующим установлением его лингвистического статуса.
Временна2я характеристика имеет следующие корреляты: артикуляторный, физический (акустический), перцептивный (слухо-вой), лингвистический (функциональный).
Физиологическая (артикуляторная, слуховая) длительность описывается, как правило, с помощью временны2х констант. Физическая — характеризуется абсолютной длительностью акустического сигнала. В качестве лингвистического коррелята физической длительности выступает, как правило, количественный признак, описываемый в терминах фонологической долготы (см. табл. 19).
Таблица 19
Соотношение временно2й просодической характеристики и ее коррелятов
Просоди-ческая характеристика |
Физиологиче-ский коррелят |
Акустический коррелят |
Перцептив-ный коррелят |
Лингви-стический коррелят |
Временна2я |
Временна2я организация артикулятор-ных и фонационных жестов |
Временна2я реализация речевого сигнала и временна2я организация акустической картины речевого сигнала |
Временна2я организация воспринимаемого речевого сигнала |
Функцио-нальная интерпре-тация речевого сигнала по системе языка |
В физиологических исследованиях речи временна2я организация рассматривается, как правило, применительно к процессу организации артикуляторных и фонационных движений во времени. Вместе с тем известно, что временна2я организация артикуляторных и фонационных жестов вызывает необходимость создания сложной временно2й программы. Голосовая реакция на стимул — импульс — требует вовлечения в действие всего центрального и периферийного механизма речи, для чего необходимо определенное время. Это время может варьировать в достаточно широком диапазоне не только у разных испытуемых, но и у одного и того же испытуемого. Несмотря на наличие индивидуальных отклонений, можно назвать величины некоторых физиологических временны2х констант. Так, например, латентный период моторной реакции на речевой стимул составляет 110 —150 мс. Подключение к общей двигательной моторике фонационных движений требует большего времени: 135 —200 мс.
В процессе исследования
временно2й
организации речевого высказывания
следует помнить еще об одном физиологическом
корреляте временно2й
просодической характеристики —
организации артикуляторных движений
во времени. Экспериментальным путем
удалось установить максимальную
скорость, с которой могут функционировать
различные органы артикуляции. Известно,
что в процессе речепроизводства скорость
артикуляторных движений за единицу
времени находится в прямой зависимости
от размера, массы и формы артикулирующего
органа. Так, например, установлено, что
наибольшая скорость присуща кончику
языка (
арт=8,2);
средняя скорость — спинке языка
(
арт=7,1);
наименьшая — губам и нёбной занавеске
(
арт=6,7).
Средний темп речевой артикуляции в
целом характеризуется величиной, равной
восьми слогам в секунду.
Физическим коррелятом
временно2й
просодической характеристики принято
считать физическую длительность
речевого сигнала, обозначаемую обычно
через t или
и исчисляемую в миллисекундах. Физическая
длительность сегмента находится в
прямой зависимости от ряда факторов, к
числу которых можно отнести в основном
следующие: собственную длительность
звукового сегмента; принадлежность к
слогу с точки зрения степени выделенности;
непосредственный фонетический контекст;
тип слога; позицию в слоге; позицию в
ритмической структуре (фонетическом
слове); позицию в синтагме; позицию во
фразе; позицию в сверхфразовом единстве;
темп реализации речевого высказывания;
принадлежность к типу произнесения;
принадлежность к стилю произношения,
эмоциональное состояние говорящего,
тип высшей нервной деятельности,
физическое состояние говорящего.
При подборе экспериментального материала, а также при обработке данных в экспериментально-фонетических исследованиях следует учитывать влияние фактора собственной длительности звуков. Собственная длительность звуков определяется спецификой артикуляции: она обусловлена степенью подъема языка, характером его продвинутости по горизонтальной оси, величиной ротового раствора. Выявлена обратная зависимость между значением собственной длительности гласных и степенью подъема языка. Бо2льшая степень подъема языка ведет к уменьшению собственной длительности гласного. Наличие лабиализации обусловливает увеличение собственной длительности гласного. Имеются данные, которые свидетельствуют о существовании достаточно универсального ряда гласных, располагающихся по своей собственной длительности в следующем порядке: от максимально широких гласных нижнего подъема, имеющих наибольшую собственную длительность, к максимально узким гласным верхнего подъема, имеющим наименьшую собственную длительность.
Собственная длительность согласных также определяется их артикуляторной спецификой. Наибольшая собственная длительность глухих фрикативных согласных является универсальным явлением. Так, например, для русского языка характерен следующий порядок убывания собственной длительности согласных, не нарушаемый даже смещениями в темпе: глухие аффрикаты, фрикативные; глухие смычные палатализованные; глухие смычные непалатализованные; звонкие смычные взрывные; звонкие смычные фрикативные; носовые; плавные.
Собственная длительность согласных может варьировать применительно к различным языкам, что связано с общей произносительной спецификой того или иного языка, его артикуляционной базой, наличием противопоставления по напряженности - ненапряженности, геминации и т. д. На физическую длительность звуковых сегментов существенное влияние оказывает фонетическое качество непосредственного звукового контекста. Звонкие согласные влияют на длительность соседнего гласного в сторону ее увеличения. Фрикативные согласные способствуют увеличению длительности соседних гласных, смычно-взрывные — уменьшению. Длительность гласных переднего ряда меньше перед губно-губными по сравнению с длительностью тех же гласных перед зубно-губными заднеязычными. Например, для английского языка установлен следующий порядок влияния согласных на длительность предшествующего гласного: t>k>p; d>g>b; S>s>f; Z>z>v; Î>n>m. Вышеуказанная тенденция сохраняется практически для всех языков.
Наличие поствокального напряженного согласного ведет к уменьшению длительности предшествующего гласного, наличие поствокального ненапряженности согласного — к увеличению длительности предшествующего гласного. Для языков с наличием противопоставления по твердости-мягкости длительность гласного зависит от твердости-мягкости непосредственного фонетического контекста. Мягкие согласные способствуют увеличению длительности соседних гласных.
При измерении физической длительности анализируемого сегмента на осциллограмме или спектрограмме получают некую величину, выраженную в абсолютных единицах. Дальнейшая обработка данных проводится, как правило, в относительных единицах. Обращение к относительным единицам оправдано при стремлении исследователя элиминировать индивидуальные различия, получить наиболее стабильные данные, отличающиеся наименьшей степенью вариативности. Относительные величины являются результатом проведения нормирования, за единицу которого могут быть приняты различные значения длительности. Нормирование абсолютных значений длительности, т.е. их приведение к одному временно2му масштабу, и оперирование относительными значениями длительности позволяют снять индивидуальные темповые различия и делают корректным сопоставление длительности в пределах исследуемой выборки.
За единицу нормирования длительности обычно принимают одну из следующих величин:
а)
суммарную длительность фразы (синтагмы) —
;
б)
среднеслоговую длительность —
;
в)
среднезвуковую длительность —
.
Процедура
нормирования длительности и нахождения
относительных величин заключается в
соотнесении каждого анализируемого
значения длительности (в мс) с одним из
вышеуказанных значений (например,
абсолютные значения:
;
относительные значения:
и
т.д.).
При недостаточно корректном подборе экспериментального материала, а также в случаях обращения к "непричесанному" материалу (оригинальные тексты, диалоги и т.д.) относительные значения длительности следует дополнительно пронормировать по коэффициенту собственной длительности (Кi). За единицу нормирования в данном случае может быть принята относительная длительность узкого или широкого звука в сильной позиции. Укажем, однако, на тот факт, что наличие временно2го контраста для узких и широких гласных может быть достаточно индивидуальным. Предварительный просмотр экспериментального материала должен сориентировать исследователя на принятие решения о введении дополнительного коэффициента. Необходимо также подчеркнуть, что, как правило, более сильные фонетические факторы (позиция во фразе, в ритмической структуре, ударение, фонетический контекст и др.) подавляют различия по длительности, вызванные особенностями артикуляции гласных.
Более сильным фактором может оказаться контраст по фонологической долготе, присущий системе вокализма ряда языков. Так, например, согласно литературным данным немецкие долгие гласные относятся к кратким как: а) 5:3 (по Брюкке); б) 3:2 (по Крейтеру); в) 2:1 (по Фиетору и Мейеру). Дифтонги, представляющие с артикуляторной точки зрения бифонемные сочетания, могут быть также отнесены к группе долгих гласных. Предварительная проверка первичных данных по длительности гласных должна показать, насколько контраст по длительности долгих и кратких гласных характерен для анализируемого экспериментального материала. В случае наличия подобного контраста необходимо в ходе обработки данных ввести специальный коэффициент, сущность которого заключается в элиминировании различий по длительности, вызванных реализацией фонологической долготы. Исследователь использует Кi(ph) — коэффициент фонологической долготы, который зависит от конкретного соотношения по длительности между долгими и краткими гласными в сильной позиции. Нормирование длительности анализируемых гласных достигается путем деления (или умножения) значений длительности одной из групп гласных (долгих или кратких) на соответствующий Кi(ph).
Нередко в процессе исследования оперируют усредненными значениями длительности. Обращение к средним значениям оправдано в тех случаях, когда: а) либо имеется представительная выборка, позволяющая достаточно надежно описать данное явление; б) либо при наличии малой выборки имеется малая степень вариативности индивидуальных значений длительности. При этом решающим условием корректного употребления средних величин является качественная однородность той выборки, для которой определяются средние значения. Сопоставляемые по длительности сегменты должны удовлетворять условиям, необходимым и достаточным при составлении экспериментального материала.
В ходе исследования длительности возможно обращение к различным временны2м параметрам, число и характер которых зависят от конкретных задач исследования. Наиболее часто используемыми при этом являются следующие временны2е параметры: 1) общая длительность фразы (синтагмы); 2) среднеслоговая длительность во фразе (синтагме); 3) среднезвуковая длительность во фразе (синтагме); 4) средневокальная длительность во фразе (синтагме); 5) относительная длительность анализируемого сегмента; 6) соотношение относительной длительности сопоставляемых сегментов; 7) суммарная относительная длительность анализируемых сегментов; 8) корреляция по длительности смежных сегментов.
Как указывалось выше, темповые
значения могут быть определены с помощью
.
Следует подчеркнуть, что среднеслоговая
длительность
характеризует темп более огрубленно,
нежели среднезвуковая величина
,
которая точнее передает скорость
артикуляции высказывания:
,
где — суммарная длительность фразы (синтагмы), n — число реально артикулируемых звуковых составляющих.
Для некоторых исследований необходимо более точное определение темпа в связи с изменением степени полноты артикуляции. Например, при изучении полного и неполного типов произнесения, различных стилей произношения, эмоционально окрашенной речи обращение к изучению темпа оправдано. В данном случае следует разграничивать понятия эффективного и фиктивного темпов. Эффективный темп характеризует скорость артикуляции применительно к конкретному произнесению, фиктивный темп — идеальную для данного экспериментального материала скорость произнесения.
Привлечение в процессе исследования понятий эффективного и фиктивного темпов предопределяет обращение к величине, характеризующей отклонение от идеального полного типа произнесения. Такой величиной является коэффициент звукового убывания:
.
При увеличении темпа растет
значение
и наоборот.
Исследование временно2й организации речевого высказывания было бы неполным без обращения к паузации. Известно, что пауза в настоящее время становится междисциплинарным объектом исследования. Ее изучение ведется в четырех направлениях. Определяются: временно2й порог паузации в процессе слуховой обработки речевой последовательности; фонологическая значимость паузы; синтаксические функции паузации; психолингвистическая и социолингвистическая сущность паузации.
Пауза трактуется как перерыв в звучании, фиксируемый падением среднего звукового давления до нуля на минимальном временно2м отрезке, равном 10 мс. При подобном подходе пауза может иметь место либо в пределах реализации звукового сегмента, либо за пределами его реализации, т.е. на стыке между двумя звуковыми сегментами. Первый тип пауз определяется как интрасегментный, второй — как интерсегментный. Для первого типа пауз характерна, как правило, относительно малая длительность по сравнению с длительностью пауз второго типа. Однако физическая длительность паузы сама по себе не является решающей при дифференциации на интра- и интерсегментные типы. Решающим в данном случае является обращение к слуховому анализу и языковому сознанию говорящего. В процессе исследования паузации в комплексе следует рассматривать длительность предпаузальных и послепаузальных сегментов (гласных, согласных).
При
исследовании паузации рекомендуется
определять прежде всего такие величины,
как коэффициент паузации, среднепаузальная
длительность. При нахождении величины
коэффициента паузации Kp для
анализируемого текста оперируют двумя
величинами: суммарной длительностью
звучания текста —
,
включая паузы, и суммарной длительностью
звучания текста —
,
исключая паузы. Соотношение этих двух
величин характеризует коэффициент
паузации. При беспаузальной реализации
высказывания этот коэффициент будет
равен единице: Kp=1. При
паузальной насыщенности значение Kp
возрастает.
Интенсивность. Интенсивность речевых сигналов почти никогда не измеряется непосредственно. При помощи микрофона измеряется звуковое давление, а интенсивность определяется по следующей формуле:
,
где
—
интенсивность,
p — эффективное значение звукового давления,
—
прочность среды,
С — скорость распространения звука в среде.
Поскольку воздух представляет собой почти полностью упругую среду, зависимость между звуковым давлением и интенсивностью (звуковой энергией, акустической мощностью) очень проста. Интенсивность пропорциональна квадрату звукового давления. Интенсивность звука в определенном месте звукового поля измеряют мощностью на единицу площади, т.е. в ваттах на квадратный метр или чаще в миллион раз более мелких единицах — микроваттах на квадратный метр (мкВт/м2). Мощность голоса при разговорной речи колеблется в среднем около 10 мкВт. Наиболее слабые звуки имеют мощность около 0,01 мкВт. При усилении голоса мощность звука может возрастать до сотен микроватт.
Под амплитудой звукового давления понимаются как мгновенные, так и усредненные за определенный отрезок времени значения давления, а также значения токов и напряжений на выходе микрофона. Звуковое давление прямо пропорционально амплитуде. Звуковое давление измеряется в ньютонах на квадратный метр (н/м2). Эта единица давления в 98066,5 раза меньше технической атмосферы.
Огромный
динамический диапазон звуков заставил
ученых применить для измерения
интенсивности относительные логарифмические
единицы — децибелы (дБ). Очень слабые
звуки, не обнаруживаемые ухом человека,
акустически решили принять за нуль
децибел. За нулевой уровень в современной
акустике условно принят звук интенсивностью
10-6 мкВт/м2, производящий
давление в 0,0000204 м на 1 м2. Все
остальные, более сильные звуки
характеризуются тем, во сколько раз они
превышают этот условный нулевой уровень.
Чтобы сократить число единиц измерения,
по соображениям, вытекающим из закона
измерения чувствительности человеческого
слуха, решено для измерения интенсивности
звуков пользоваться не самим отношением
интенсивности данного звука к условному
нулевому уровню, а десятичным логарифмом
этого отношения, т.е.
,
где
—
интенсивность звука условного нулевого
уровня,
—
интенсивность измеряемого звука. За
единицу измерения интенсивности отсчета
принято такое изменение звука по
отношению к условному нулю, при котором
=1.
Эта относительная логарифмическая
единица названа белом в честь изобретателя
телефона Грахема Бела. Однако бел слишком
крупная единица (1 бел соответствует
изменению интенсивности звука в 10 раз,
2 бела — в 100 раз, 3 бела — в 1000 раз).
Для удобства измерений была введена в
употребление единица в 10 раз более
мелкая, чем бел, — децибел. Эта единица
определяется по формуле 1/10 бела = 1 дБ = 10
.
Как ранее уже было указано, интенсивность
звука (
)
прямо пропорциональна квадрату звукового
давления (
),
т.е.
,
где
—
постоянная величина, следовательно,
,
где
—
уровень звукового давления (в дБ),
—
измеряемое звуковое давление, po —
условный нулевой уровень. Таким образом,
децибел — это дольная единица от
бела — единицы логарифмической
относительности величины (десятичного
логарифма отношения двух одноименных
физических величин — энергии,
мощностей, звуковых давлений и др).
Децибел равен 0,1 бела. Существующие
обозначения: русское — дБ, международное
— dB.
Согласно формуле за 1 дБ принимается такой уровень звукового давления, двадцать десятичных логарифмов отношения которого к условному нулевому уровню равны единице. Как показывает практика акустических исследований, определение абсолютной величины звукового давления или интенсивности акустического сигнала, записанного на магнитофонную ленту, представляется затруднительным, так как обычно отсутствует запись звука эталонной интенсивности (W0), принятой за нулевой отсчет. В этом случае исследователи пользуются сравнительными характеристиками силы звуков, принимая за нулевой уровень отсчета, как правило, максимальный уровень звукового давления для данного звуковоспроизводящего тракта. На слух 1 дБ — это едва различимая градация силы звука.
Децибелы, как и все остальные относительные единицы, показывают не на сколько, а во сколько раз изменяется звуковое давление за время, выбранное для интегрирования. Применение децибелов в практике расчетов и измерений, с одной стороны, избавляет от необходимости иметь дело с очень малыми и дробными числами, а с другой — заменяет при расчетах акустических уровней, нормировке и т.д. операции умножения и деления измеряемых величин более простыми арифметическими действиями — сложением и вычитанием.
Интенсивность представляет собой сложный акустический феномен, обусловленный целым рядом факторов, и прежде всего факторами чисто физиологического порядка. В значениях звукового давления находит свое отражение речевое дыхание, в процессе которого осуществляется регулировка аэродинамических условий при образовании последовательностей звуков, слогов, фраз. Распределение речевого дыхания определяется степенью научения и может быть у одних испытуемых строго упорядоченным, у других — иррегулярным.
Величина звукового давления обусловливается различными мышечными усилиями говорящего и различной степенью напряженности дыхательных мышц в процессе фонации, в момент произнесения слогов, являющихся второстепенными для данного сообщения. Наряду с длительностью, частотой основного тона, спектральными изменениями в реализации выделенных слогов гласных принимает участие и интенсивность.
При условии одинаковой длительности (параметра, который является в ряде языков основным для выделения слогов в слове и фразе) и одинакового положения во фразе ударный гласный оказывается менее интенсивным, чем неударный гласный. Объяснение подобного явления кроется в различной собственной мощности отдельных звуков речи, связанной со спецификой их образования. Учет акустической мощности определяет уровень для отсчета квантования каждого отдельного звука по его собственной шкале. Значения уровня звукового давления могут быть получены различными способами. Относительные значения уровня звукового давления позволяют элиминировать, во-первых, различия, возникающие в процессе записи экспериментального материала, и, во-вторых, индивидуальные отклонения, обусловленные произносительной спецификой анализируемого материала.
В качестве нормирующей единицы могут быть использованы различные величины:
1) максимальный уровень звукового давления в пределах выбранного сегмента (фонетического слова, фразы, текста);
2) средний уровень звукового давления в пределах анализируемого сегмента, который определяется по следующим формулам:
a)
,
б)
;
3) значение уровня звукового давления на гласном первого выделенного слога.
В ходе проведения экспериментально-фонетического исследования используют набор параметров, конкретное содержание которого зависит от целей и задач исследования.
Укажем
на некоторые из них: локализация
максимальных значений уровня звукового
давления в пределах анализируемого
сегмента (фонетического слова, синтагмы,
фразы, текста); динамический диапазон
на материале анализируемого сегмента
(
);
суммарное значение уровня звукового
давления в пределах анализируемого
сегмента (
);
среднеслоговое значение уровня звукового
давления в пределах различных сегментов
(
);
разность между значениями уровня
звукового давления соседних сегментов
(
).
2.4. Современные технологии акустического анализа речи. В 90-х годах на смену аналоговым спектрографам приходят компьютерные системы с изображением осциллограмм и спектрограмм на мониторе, а также другими формами анализа речевого сигнала.
На протяжении последних нескольких лет целый ряд фирм и отдельных исследовательских лабораторий США, Канады, Австралии, Германии и других стран разработал устройства и программы для цифровой записи, воспроизведения, редактирования и анализа речевых сигналов. Программы реализуются, как правило, на персональных компьютерах типа IBM PC или Apple Macintosh.
Поскольку разработка инструментальных средств является важной частью исследовательской работы по изучению речевого сигнала, описание систем анализа речи имеет определенную ценность. Различные исследования, процесс преподавания, клинические, судебно-медицинские, криминалистические и другие виды анализа зависят напрямую от возможностей доступных аппаратно-программных средств [11].
Настоящий период со всем его разнообразием персональных компьютеров не является исключением. Наличие компьютерных систем для акустического анализа речевого сигнала характерно теперь для большинства лабораторий мира, что делает возможным проведение временно2го, спектрального и других видов анализа речевого сигнала. О преобладании этих систем свидетельствует и постепенное исчезновение из промышленных каталогов традиционных спектрографов.
В настоящее время наиболее распространенными являются следующие аппаратно-программные средства и специализированные устройства анализа и синтеза речи.
Аппаратно-программные средства:
CSpeech. Paul Milenkovic, Madison, WI;
CSRE [Computerized Speech Research Environment]. Donald Jamieson, London, Ontario;
ILS-PC [Interactive Laboratory System]. Signal Technology Inc., Victoria, B.C.;
MSL [Micro Speech Lab.], Software Research Corp., Victoria,B.C.;
MacSpeech Lab. II. GW Instruments, Cambridge, MA.
Специализированные устройства:
Kay Model 5500 DSP Sona-Graph.
Kay Model 7800 Digital Sona-Graph.
Кроме того, среди менее распространенных систем следует назвать:
Signalyze. InfoSignal Inc., Canada, USA.
Ultrasound. Uniquest Ltd., Australia.
IBM Speech Viewer. IBM National Support Center, USA.
MacRecorder. Farallon Computing Inc., USA.
CSL. Computerized Speech Lab., USA. Model 4300B/Software Version 5.X.
Bliss. Dept. of Cognitive and Linguistic Sciences, USA.
MEDAV - MOSIP. Germany.
Из вышеупомянутых систем все, кроме Kay 7800, обеспечивают цифровую запись, считывание изображения и редактирование формы сигнала, спектральный и/или спектрографический анализ, печатную копию, а также хранение и передачу записанных сигналов. Некоторые средства предусматривают также цифровую фильтрацию или речевой синтез.
Следует остановиться на характеристиках этих программ и аппаратно-программных средств. В настоящее время протестировано качество функционирования данных систем, получены сравнительные количественные данные, что позволяет судить о высоком уровне продукции в целом.
Общие характеристики систем включают:
1) получение и изображение формы речевой волны;
2) процесс обработки формы речевой волны;
3) анализ основного тона и спектральный анализ;
4) другие функции.
Получение и изображение формы речевой волны относятся к первоначальной фиксации сигнала. Речь идет о девяти характеристиках. Первые две — это число каналов, которое можно одновременно использовать для записи (с частотой дискретизации по крайней мере 8 кГц на канал) и вывода на экран.
Мощность указывает, существует ли ограничение по длительности сигнала, который можно записать, используя доступный объем оперативной памяти или место на жестком диске.
Запись/воспроизведение — это возможность отображать, сохранять и воспроизводить записанный сигнал.
Воспроизведение на мониторе — это способность выводить сигнал на монитор.
Изменение масштаба изображения — это способность увеличивать выбранный отрезок сигнала, так что на экран выводится более узкий интервал времени или, возможно, и частоты, чем на первоначальном экране.
Прокрутка — это способность перемещать и выводить на экран сигнал, содержащийся в буфере.
Значения времени — это цифровое изображение значений времени для выбранных точек воспроизводимого сигнала.
Считывание амплитуды — это цифровая индикация значений амплитуды для выбранных точек сигнала.
Амплитудная разрешающая способность — это максимальная разрешающая способность для сигнала на канал в битах.
Обработка сигналов — это характеристики, получаемые вслед за первоначальной фиксацией сигнала.
Представление и прогон выбранного сегмента позволяют пользователю выбрать какой-либо отрезок зафиксированного сигнала для изображения на мониторе и воспроизведения.
Стирание — это способность уничтожать выбранную часть сигнала, а склеивание — способность соединять две формы сигнала, которые первоначально не были сплошными.
Дублирование — это способность "приклеивать" копию любого отрезка сигнала к оригинальному отрезку.
Сглаживание концов относится к амплитудной модуляции формы сигнала, при которой концы выбранного отрезка могут отформовываться таким образом, что их значение равно нулю (полезно при склеивании).
Сохранение/поиск — это способность записывать форму сигнала в файле, который впоследствии может быть использован.
Маркировка сегмента — это свойство, благодаря которому пользователь может присваивать обозначение отрезку речевого сигнала, например для фонетической сегментации.
Анализ спектра и основного тона включает разнообразные формы спектрограмм, спектральный анализ и выделение основного тона.
Спектрограмма относится к традиционному трехмерному (частота — время — интенсивность) изображению текущего мгновенного спектра.
Запись формант — это способность выводить на экран кривые формантной частоты при наложении их на спектрограмму, что достигается либо вычерчиванием на выведенной на экран спектрограмме (MacSpeech Lab.II), либо наложением полученных путем кодирования методом линейного предсказания формантных частот на спектрограмму (ILS-PC).
Спектр включает различные виды анализа, такие, например, как быстрое преобразование Фурье (FFT) или дискретное преобразование Фурье (DFT), кодирование методом линейного предсказания (LPC), "каскад" (временна2я развертка спектров).
Считывание частоты и амплитуды относится к цифровому изображению частоты и амплитуды для выбранной точки на спектре.
Кепстр — это преобразование Фурье логарифма амплитудного спектра (или обратное преобразование).
Выделение основного тона — это определение частоты основного тона (звонких) голосовых на участках речевого сигнала.
Анализ голосовых возмущений — это возможность анализировать вибрацию (циклически повторяющиеся возмущения в основном периоде формы волны) и/или мерцание (циклически повторяющиеся возмущения в амплитуде формы сигнала). Другие функции включают целый ряд дополнительных свойств.
Синтез речи — это способность порождать речевые сигналы либо на основе параметрического синтеза по данным таблиц, либо путем ресинтеза на основе кодирования методом линейного предсказания.
Вывод/ввод, импорт данных как средство перенесения файлов с данными из одной программы в другую (включая информацию о заглавных метках).
Обслуживающие программы представления стимулов — эта функция связана с возможностями подготовки стимулов для слухового анализа.
Одновременный вывод на экран указывает на способность выводить на экран одновременно различные комбинации форм сигнала, спектров, спектрограмм и контуров основных частот. При этом необязательно происходит одновременное проведение различных видов анализа, т. е. сначала один вид анализа может быть выведен на экран, а затем на экране к нему добавляется другой.
Система ILS имеет много дополнительных возможностей: