
Основные характеристики
два входных канала;
16-разрядный АЦП (знак + 15 бит);
частота квантования 100 или 102.4 кГц (50 или 51.2 кГц на канал), задается программно;
динамический диапазон > 80 дБ;
индикатор перегрузки: "Половина", "Перегрузка";
поддерживаются следующие частоты дискретизации и частотные диапазоны (в Гц);
50.000 20.000
40.000 16.000
25.000 10.000
20.000 8.000
16.000 6.400
12.500 5.000
10.000 4.000
8.000 3.200
5.000 2.000
2.500 1.000
16-разрядный ЦАП;
частота преобразования — 50 или 51.2 кГц;
динамический диапазон > 80 дБ;
сопротивление выхода громкоговорителя — 8 Ом;
сопротивление выхода наушников — 10 Ом.
Время анализа и вывода результатов на экран.
(Предполагается монитор VGA и процессор 386 с 20 МГц.)
Речевая волна: < 2 с.
Узкополосная спектрограмма: 6 с.
Широкополосная спектрограмма: 6 с.
ЛПК-спектральный срез: < 1 с.
Срез спектра мощности: < 1 с.
Определение основного тона: < 2 с.
Требуемая конфигурация компьютера
Минимальная |
Оптимальная |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Получение твердых копий. При использовании матричных и лазерных принтеров качество печати спектрограммы очень низкое, время печати 2 — 5 мин. Хорошее качество обеспечивает 8-дюймовый полутоновый видеопринтер. При этом время печати — 28 с. Наилучшее качество печати дают цветные видеопринтеры. У них время печати 70 — 150 с.
Дополнительная система для записи сигнала на жесткий диск (мо- дель 4321). В стандартном варианте CSL пишет оцифрованный речевой сигнал в ОЗУ. При 8-килогерцовом диапазоне сигнала можно запомнить 6 — 9 с. Модель 4321 позволяет записывать сигнал прямо на винчестер со скоростью 80 кбайт/с с тактовой частотой 25 МГц и время обращения к диску < или равно 28 мс. Совместно с моделью 4321 может подставляться по желанию заказчика лентопротяжка для создания архива данных. 40-Мбайтный диск позволет записать 8,3 мин при частоте дискретизации 40 кГц.
В настоящее время широко распространена система СSL Model 4300B, Software-версия 5.X. (Key Elemt Corp., CША). К системе прилагается база речевых образцов для ряда языков мира, включая русский.
ж) DSP SONA-GRAPH (5500). Система CSL задумывалась как идеальное дополнение к рабочей станции-анализатору DSP SONA-GRAPH, который большинство функций CSL выполняет в реальном масштабе времени. Таким образом, DSP-5500 позволяет быстро вводить и просматривать большие массивы данных, чтобы отобрать для последующего анализа наиболее информативные участки.
Основные характеристики DSP SONA-GRAPH
двухканальный анализатор;
частота дискретизации — 82 кГц на канал;
16-разрядные АЦП/ЦАП;
динамический диапазон > 87 дБ;
время обновления экрана со спектрограммой — 1 с;
разрешающая способность графики 640Ѕ40Ѕ256;
спектрограмма отображается 256 градациями серого тона;
объем памяти: от 1.5 до 7.5 Мбайт;
в качестве печатающего устройства могут использоваться видеопринтеры.
з) BLISS (Barus Lab Interactive Speech System) работает на устройствах MS- или PC/DOS, а также на системах DEC VAX/VMS. Предыдущая версия работала под названием RT-II.
Основные требования к техническому обеспечению на устройстве MS-DOS состоят в следующем: память в 640 кбайт, дисковая операционная система DOS 3.3 и выше, мышь с 2-3 кнопками. Для записи и воспроизведения BLISS обеспечивает устройство Data Translation серии DT 280v, 282v и 290v. Возможности его описываются следующим образом:
1) отбор одного или двух каналов, редактирование формы сигнала и цифро-аналоговое воспроизведение; 2) анализ, включающий дискретное преобразование Фурье, кодирование методом линейного предсказания, спектры критической полосы и определение основного тона на основе автокорреляции или съема пиков; 3) программы, облегчающие прогон данных в экспериментах. Особые характеристики включают слияние файлов сигналов в двойной файл, синтез по методике Клатта и создание последовательностей стимулов для изучения времени реакции.
и) MEDAV — универсальное модульное и гибкое аппаратно-программное средство, с помощью которого могут решаться самые разнообразные задачи в области:
а) инженерной коммуникации:
спектральный анализ;
электронный интеллект;
системы управления;
б) криминалистики:
распознавание речи;
идентификация говорящего;
верификация говорящего;
в) инженерной механики:
текущий контроль за процессом и характером вибраций;
тестирование материальных спектров;
инженерный контроль;
г) инженерного источниковедения:
обеспечение качества источника;
анализ шумов;
д) инженерной медицины:
ЭКГ- и ЭЭГ-сигналы;
аудиология;
е) универсальных научных исследований.
MEDAV — это аппаратно-программная система с микропроцессорной (68020) коммутационной панелью на 32 бита с плавающей точкой для проведения операций, графическим дисплеем и управлением различными аппаратными модулями. Дополнительно система включает:
I/0 модуль (с аналоговым фильтром и усилителем, АЦП и ЦАП);
модуль ЗУ сигналов (от 8 до 128 Мбайт).
модуль DSP (Digital Signal Processing) функций (цифровой фильтр, БПФ — процессор, частотный преобразователь, транспьютер и обработка сигнала с плавающей точкой, если необходимо, hardware с помощью аппаратных средств);
курсор (для измерений);
дистанционное управление (шина IEEE-488 или RS=232);
вывод результатов анализа на печать с помощью различных принтеров;
SA-3550, БПФ — анализатор с шириной полос, равной 8 МГц, и возможностью увеличения масштаба изображения в реальном времени;
SPEKTRO-3000 — универсальный двухканальный анализатор, включающий различные функции, такие, например, как регистрация переходных процессов, усреднение, БПФ-анализ, рабочая станция (в сети) для обработки сигнала.
Благодаря вычислительным мощностям разнообразные процедуры анализа осуществляются в реальном масштабе времени.
Может использоваться как автономное устройство, управляемое с передней панели. Имеется встроенный черно-белый монитор (18 см по диагонали), на который выводятся результаты анализа и сообщения о состоянии анализатора и выполняемой им операции. Поставляется в виде рабочей станции с отдельным блоком анализа и графического представления. Анализатор снабжен дисководом 5-дюймовой дискеты для хранения данных и программного обеспечения. Возможен жесткий диск на 40 Мбайт с интерфейсом SCSI.
Основные характеристики:
— 16-разрядное АЦП/ЦАП;
— частота дискретизации — 180 кГц на канал;
— 4 Мбайта памяти для хранения сигнала (возможно увеличение памяти до 6, 8 или 16 Мбайт);
— графическая система (700х512 пикселей);
— 2 Мбайта ОЗУ и 512 Кбайт для программ;
— процессоры для выполнения фильтраций, БПФ и других видов операций;
— 32-разрядный интерпретирующий процессор 68020 с сопроцессором с плавающей запятой;
— интерфейсы для связи с главной ЭВМ (IEEE-488, RS-232);
— сонаграмма (динамическая спектрограмма) отображается 32 цветами или градациями серого тона;
— одновременно на экран могут быть выведены речевая волна, спектр мощности и сонаграмма.
Основные виды анализа (в режиме одного и двух каналов): анализ во временной области; анализ спектра; анализ функции автокорреляции; анализ основного тона; некоторые специальные функции анализа речевого сигнала. В режиме 2 каналов дополнительно: кроссспектр; кросскорреляция.
Некоторые возможности акустического анализа речевого сигнала с помощью компьютерных технологий представлены в нижеследующем иллюстративном материале.
Р
ис.1.
Русский гласный [и] в координатах
"частота—время—интенсивность"
(диктор — носитель русского языка;
женский голос)
Р
ис.2.
Русский гласный [и]: речевая волна
(осциллограмма) и сонаграмма (от
sona-graph) (диктор — носитель русского
языка; женский голос)
Р
ис.3.
Русский гласный [у] в координатах
"частота—время—интенсивность"
(диктор — носитель русского языка;
женский голос)
Р
ис.4.
Русский гласный [у]: речевая волна
(осциллограмма) и сонаграмма (диктор —
носитель русского языка; женский голос)
Р
ис.5.
Русский гласный [а] в координатах
"частота—время—интенсивность"
(диктор — носитель русского языка;
женский голос)
Р
ис.6.
Русский гласный [а]: речевая волна
(осциллограмма) и сонаграмма (диктор —
носитель русского языка; женский голос)
Р
ис.7.
Произнесено Trier (дикторы — носители
немецкого языка; мужской и женский
голоса)
Рис.8. Предложение Мама мыла" Маню. (интонация завершенного повествования, диктор — носитель русского языка; женский голос) /речевая волна, огибающая интенсивности, огибающая частоты основного/.
Рис.9. Предложение Мама" мыла Маню? (интонация общего вопроса, диктор —носитель русского языка; женский голос)
Рис.10. Предложение Мама мыла" Маню? (интонация удостоверительного вопроса, диктор — носитель русского языка; женский голос)
Рис.11. Предложение "Мама мыла Маню. (интонация завершенного повествования, диктор — носитель русского языка; женский голос)
Рис.12. Предложение "Мама мыла Маню? (интонация удостоверительного вопроса, диктор — носитель русского языка; женский голос)
2.5. Заключение. Одним из кардинальных вопросов общей и прикладной фонетики является вопрос о материальных коррелятах звуков речи. Исследование и эксплицитное описание материальной реализации звуков — непосредственная задача экспериментальной фонетики (инструментальной фонетики). При этом сферой исследования экспериментальной фонетики являются помимо физиологических акустические корреляты звуков речи. Все материальные процессы, происходящие при конкретном акте коммуникации в направлении от головного мозга говорящего к головному мозгу слушающего, могут быть представлены и описаны в терминах акустических сигналов, которые являются объектом сигнальной фонетики.
Сигнальная фонетика пытается установить, что означаемой речевой единице соответствует класс реализаций в форме измеряемых акустических сигналов таким образом, что элементы класса обнаруживают определенные специфические свойства. Основными единицами являются "означающая единица" и класс или элемент класса. В данном случае независимый акустический сигнал оценивается с точки зрения его свойства, т.е. сначала этот сигнал анализируется в техническом отношении и затем решается вопрос о принадлежности его к одному из заданных фонетических классов. Тем самым формально акустический анализ речи включает измерение изменения сигнально-фонетического соотношения между означаемой единицей и физическим сигналом как элементом соответствующего лингвистического класса.
Лингвистические единицы не могут быть представлены вне зависимости от внутренней компетенции коммуникантов и социальных психофизических систем. В то же время известно, что акустический речевой сигнал — это прежде всего чисто физический феномен. Сигнальная фонетика является составной частью лингвистической акустики, которая ставит целью автоматическое распознавание, понимание и описание звучащего текста. Эта цель становится реальной, ибо в акустическом речевом сигнале содержится достаточно избыточной информации, благодаря которой возможен звукоречевой процесс коммуникации в целом.
Сигнальная фонетика может быть охарактеризована, таким образом, как научная дисциплина, область исследования которой образуют коммуникативно значимые сигналы, т.е. сигналы, релевантные для речевого общения.
Исходя из этого можно утверждать, что центральным понятием сигнальной фонетики является понятие выявления фонетической информации на базе физического сигнала. При этом различают процессы и фигуры. Сигналы, где носителями информации являются только координаты места, в сигнальной фонетике называют фигурами. Если в качестве носителя информации участвует и временна2я координата, то сигналы получают название процесса. При определении фонетического сигнала речь идет только о процессах, поскольку все сигналы в ходе речевой коммуникации реализуются во времени.
При акустическом описании речевых сигналов целесообразно ввести следующие требования.
1. Сигналы определяются как упорядоченная последовательность измеряемых физических величин. Порядок следования рассматривается в динамике, т.е. как процесс во времени.
2. Различные значения измеряемых физических величин представляются как упорядоченные множества.
3. Для описания сигналов значимым является только конечное множество состояний и конечное множество информационных процессов.
4. В каждом информационном процессе за ограниченный отрезок времени может быть передана информация об ограниченном множестве состояний.
Таким образом, непосредственным носителем фонетической информации является физический сигнал. Причем фонетическая информация в известной степени определяется свойствами сигнала, но отнюдь не отождествляется с ними. Для говорящего и слушающего на одном языке существует квазикаузальное отношение между звучанием и значением, но не естественное, изначальное, а приобретенное, натренированное и доведенное до автоматизма, без чего невозможна речевая коммуникация.
При выявлении фонетической информации с опорой на акустический речевой сигнал необходимо принимать во внимание следующие положения [9].
1. Процесс извлечения фонетической информации должен быть формализованным и алгоритмизованным (в противном случае любое исследование можно рассматривать как процесс выявления информации).
2. Необходимо определить своего рода доминанту анализа, выбор которой будет зависить от постановки задачи и опорного уровня речевого представления материала (например, звуков, интонации и т.д.).
3. Процесс выявления фонетической информации с опорой на доминантный уровень анализа должен реализовываться не изолированно, а по признаку "параллельной системы".
Установление фонетической информации по речевому сигналу заключается во "внешнем" описании "внутренне" выявленных и только "поверхностно" охарактеризованных классов. При этом возможно создание нелинейной системы классификации, которая "реагирует" только на те сигналы, которые обнаруживают соответствие "внешним" критериям классификации.
Литература
1. Акустика: Справочник/ А.П.Ефимов, А.В.Никонов, М.А.Сапожков и др.; Под ред. М.А.Сапожкова. 2-е перераб. и доп. изд. М., 1989.
2. Акустика речи и слуха/ Ред. Л.А.Чистович. Л., 1986.
3. Блохина Л.П., Потапова Р.К. Просодические характеристики речи. М.,1970.
4. Блохина Л.П., Потапова Р.К. Методика анализа просодических характеристик речи. М., 1982.
5. Жинкин Н.И. Механизмы речи. М., 1958.
6. Златоустова Л.В., Потапова Р.К., Трунин-Донской В.Н. Общая и прикладная фонетика. М., 1986.
7. Потапова Р.К. Основные современные способы анализа и синтеза речи. М., 1971.
8. Потапова Р.К. Речевое управление роботом. М., 1989.
9. Потапова Р.К. О способах извлечения языковой информации из акустического сигнала//Лингвистические аспекты проблемы различительных признаков в системах автоматического распознавания и синтеза речи. М., 1989.
10. Потапова Р.К. Введение в лингвокибернетику. М., 1990.
11. Потапова Р.К. Технология обработки естественного языка в науке и промышленности. М., 1992.
12. Сапожков М.А. Речевой сигнал в кибернетике и связи М., 1963.
13. Сапожков М.А. Электроакустика. М.,1978.
14. Фант Г. Акустическая теория речеобразования: Пер. с англ. М., 1967.
15. Фланаган Дж. Анализ, синтез и восприятие речи: Пер. с англ. М., 1968.
16. Fant G. Speech sound and features. Cambridge; Massachusetts; London, 1973.
17. Potapova R.K. Phonetische Besonderheiten der segmentalen Sprecheinheiten des Deutschen (in bezug auf eine Vergleichsanalyse der Dauerwerte für deutsche lange und kurze Vokale im Redekontinuum)//Hörgeschä-digten Pädagogik. Heidelberg, 1995. Beiheft 36.
18. Proceedings of EUROSPEECH’93. Berlin, 1993.
19. Prosody: Models and Measurements/Ed. by A.Cutler, D.Ladd. Berlin; Heidelberg; New York; Tokyo, 1983.
Дополнительная литература
1. Артемов В.А. Экспериментальная фонетика. М., 1956.
2. Проблемы и методы экспериментально-фонетического анализа речи/ Л.Р.Зиндер, Л.В.Бондарко, Л.А.Вербицкая и др.; Под ред. Л.Р.Зиндера и Л.В.Бондарко. Л., 1980.
3. Реформатский А.А. Методы и приемы экспериментальной фонетики// Введение в языковедение. М., 1996.
4. Köster J.-P. Historische Entwicklung von Syntheseapparaten zur Erzeugung statischer und vokalartiger Signale nebst Untersuchungen zur Synthese deutscher Vokale. Hamburg, 1973.
5
.
Panconcelli-Calzia G.
Geschichtszahlen der Phonetik Quellenatlas der Phonetik. Amsterdam;
Philadelphia, 1994.
1 Академик В.А. Котельников — автор трудов по совершенствованию методов радиопри¸ма, борьбе с радиопомехами, теории потенциальной помехоустойчивос-ти, по радиолокации Марса, Венеры, Меркурия и т.д.
2 В ряде исследований просодические характеристики речи называют также основными физическими характеристиками речевого сигнала, вторичными харак-теристиками (ср. с первичными спектральными).
3 Наиболее детальное рассмотрение частоты основного тона в отечественной науке о языке мы находим в исследованиях Л.П.Блохиной, С.В. Кодзасова, О.Ф. Кривновой.
4 Полутон — наименьшее расстояние по высоте, возможное в двенадцати-звуковом темперированном строе; темперированным называется такой строй, который делит октаву на равные части; в октаве 12 полутонов.
5 Рекомендуемая в настоящее время аппаратная база — Pentiumпроцессор.