Скачиваний:
139
Добавлен:
21.11.2016
Размер:
3.49 Mб
Скачать

Дек.Р Дек.К цап Демодулятор

Тел

Логический блок

Синтезатор частоты

Ком

Пм/Пд

Дисплей

Клавиатура

Код.Р

Код.К

АЦП

Мик

Модулятор

Антенный

Блок управления П е р е д а т ч и к блок

Рис. 2.1. Функциональная схема сотового радиотелефона.

  • кодер речи - осуществляет кодирование речевого сигнала - преобразование по определенным законам с целью сокращения его избыточности, т.е. с целью сокращения объема информации, передаваемой по каналу;

  • кодер канала - добавляет в цифровой сигнал дополнительную (избыточную) информацию, предназначенную для защиты от ошибок при передаче сигнала по линии связи; а также вводит в состав передаваемого сигнала информацию управления от логического блока;

  • модулятор - осуществляет перенос кодированного сигнала на несущую частоту;

  • демодулятор - выполняет функцию, обратную функции модулятора, - выделяет из модулированного сигнала кодированную цифровую последовательность;

  • декодер канала - выделяет из входного цифрового потока служебную и дополнительную информацию, используя последнюю для обнаружения и исправления (по возможности) ошибок, внесенных в цифровой сигнал в процессе его передачи по радиоканалу;

  • декодер речи - восстанавливает цифровой речевой сигнал;

  • ЦАП - преобразует принятый цифровой речевой сигнал в аналоговую форму.

В приемопередающий блок входят также синтезатор частоты и микропроцессорный логический блок, управляющий работой терминала (входные каскады приемника и выходные каскады передатчика на схеме не показаны). Синтезатор частот является источником высокостабильных колебаний; он позволяет получить высокостабильную сетку частот, необходимых для реализации дуплексного режима работы АТ в используемом диапазоне.

Логический блок сотового радиотелефона состоит из цифрового сигнального процессора, памяти, канального эквалайзера, канального кодера/декодера, SIM-карты, преобразователей АЦП и ЦАП, наборного поля и дисплея. Цифровой логический блок выполняет все функции, связанные с цифровой обработкой сигнала (демодуляция, кодирование / декодирование канала, сжатие и восстановление речевого сигнала) и обработкой информации, вводимой с наборного поля клавиатуры. Она выводит необходимую информацию на экран дисплея, производит обмен информацией с SIM-картой - специальным съемным модулем идентификации абонента, обеспечивающим аутентификацию абонента и шифрование данных.

В качестве примера АТ на рис. 2.2 приведена упрощенная структурная схема сотового радиотелефона, работающего в стандарте GSM. Часто в таких радиотелефонах имеется аналоговая и цифровая части, которые выполняются на отдельных платах. Устройство приема – супергетеродинный приемник с двойным преобразованием частоты. Принимаемый сигнал с антенны поступает на керамический полосовой фильтр, выделяющий принимаемый сигнал fc и ослабляющий помехи. Отфильтрованный сигнал усиливается в малошумящем усилителе МШУ и подается на смеситель. На второй вход смесителя с синтезатора частот поступает первый сигнал гетеродина fпрм. Выходной сигнал смесителя первой промежуточной частоты fпр1 выделяется фильтром на поверхностных акустических волнах ПАВ, усиливается в усилителе промежуточной частоты УПЧ1 и поступает на второй смеситель. На второй вход этого смесителя подается сигнал гетеродина fг. Полученный в результате преобразования сигнал второй промежуточной частоты fпр2 (450 кГц) фильтруется фильтром на ПАВ и усиливается в УПЧ2 до необходимого уровня. Затем сигнал преобразуется в цифровую форму в АЦП и поступает в центральный процессор CPU, где последовательно осуществляются демодуляция, канальный эквалайзинг, канальное декодирование и декодирование речи. Восстановленный цифровой речевой сигнал преобразуется блоком ЦАП в аналоговую форму, усиливается и поступает на громкоговоритель (телефон).

Рис. 2.2. Упрощенная структурная схема сотового радиотелефона стандарта GSM

В передающей части АТ сигнал с выхода микрофона усиливается, преобразуется блоком АЦП в цифровую форму и поступает на центральный процессор CPU, где последовательно осуществляются кодирование речи, канальное кодирование и формирование информационных цифровых потоков I и Q. В фазовом модуляторе осуществляется манипуляция фазы квадратурных несущих, сформированных в I/Q – генераторе на частоте fфм, определяемой синтезатором частот. Фазоманипулированный сигнал подается на смеситель, где осуществляется его перенос на несущую частоту fс1 с помощью частоты fпрд, поступающей от синтезатора частот. После полосовой фильтрации сигнал усиливается в регулируемом усилителе мощности УМ и через полосовой фильтр поступает в антенну для излучения в пространство.

При передаче сообщений предусматривается адаптивная регулировка уровня мощности передатчика, обеспечивающая требуемое качество связи. Обработка сигналов управления, опрос клавиатуры, формирование необходимых частот и вывод информации на дисплей происходят под управлением центрального процессора CPU, который выполняет здесь роль логического блока.

В рамках стандарта GSM приняты пять классов АТ, различающихся уровнем выходной мощности радиопередатчика, - от модели 1-го класса с мощностью Рвых= 20 Вт, устанавливаемой на транспортном средстве, до портативной модели 5-го класса, характеризуемой Рвых= 0,6 Вт.

Фактически в описанном терминале абонента совмещены все функции станций спутниковой связи (АЦП/ЦАП, модуляция, демодуляция, кодирование, декодирование, усиление мощности и т.п.). Разработка двухрежимного АТ - для наземной и спутниковой систем связи - представляет собой сложную технологическую задачу. В отличие от систем наземной персональной связи, в СПСС информационный обмен обеспечивается преимущественно только с открытого пространства. Возможность связи из зданий (при расположении антенн на подоконнике и т.п.) ограничена. Персональная спутниковая связь в городских условиях затруднена из-за затенения городскими застройками, а следовательно, работа возможна только при больших углах возвышения спутника.

Теоретически терминалы радиотелефонной связи СПСС обеспечивают практически те же виды услуг, что и в наземных сетях, но в глобальном масштабе. Аналогично, как и в наземных сетях, предполагается использование многорежимных терминалов, ориентированных на работу в сотовых сетях разных стандартов. Таким образом, наметилась тенденция к интеграции наземных систем и систем персональной спутниковой связи.

Отдельную группу АТ составляют алфавитно-цифровые и цифровой пейджеры. Скорость передачи информации составляет обычно 2400 бит/с, однако АТ Globalstar в некоторых режимах способны обеспечивать до 9600 бит/с. Передаче информации предшествует процесс установления соединения, занимающий по времени от 2 до 30 с.

  1. Речеобразование и характеристики речи

Один из распространенных способов описания речи заключается в представлении ее в виде сигнала, т.е. акустического колебания, или некоторой па­раметрической модели.

Под речевым сигналом (РС) понимают электрическое колебание, наблюдаемое на выходе формирующего устройства (акустоэлектрического преобразователя) при воздействии на его вход акустического речевого колебания. Сообщение, передаваемое с помощью РС, является дискретным, т.е. может быть представлено в виде последовательности символов из конечного их числа. Символы, из которых состоит РС, называются фонемами. Фонемой также называют наименьшую звуковую единицу данного языка, существующую в целом ряде конкретных звуков речи. Между буквами и фонемами одного и того же языка нет однозначной связи (буквы - это то, что мы читаем, фонемы - то, что произносим), поэтому число фонем и число букв неодинаково во всех языках. В каждом языке имеется присущее ему множество фонем, обычно от 30 до 50 (в русском языке насчитывается 42 звука речи - 6 гласных и 36 согласных).

Механизм речеобразования. Речь предназначена для общения. Речевое общение начинается с того, что в мозгу человека возникает в абстрактной форме некоторое сообщение. В процессе речеобразования это сообщение преобразуется в акустическое речевое колебание. Информация, содержащаяся в сообщении, представлена в акустическом колебании весьма сложным образом. Сообщение сначала преобразуется в последовательности нервных импульсов, управляющих артикуляционным аппаратом человека (рис. 3.1.). Под воздействием нервных им­пульсов артикуляционный аппарат приходит в движение, результатом которого является акустическое речевое колебание, несущее инфор­мацию об исходном сообщении. Знание механизма речеобразования играет важную роль для понимания методов обработки речи.

Рис. 3.1. Артикуляционный аппарат человека

При произнесении звуков речи поток воздуха нагнетается из легких, проталкивается через трахею, гортань, полости рта и носа и затем излучается через губы и ноздри. Одну из главных ролей в образовании звуков речи играют голосовые связки, расположенные в гортани. Гортань и ротовую полость называют голосовым трактом. Голосовой тракт начинается с прохода между голосовыми связками (голосовая щель) и заканчивается у губ. Он состоит из гортани и ротовой полости. Общая длина голосового тракта у взрослого человека примерно 17 см. Площадь поперечного сечения голосового тракта определяется положением языка, губ, челюстей, небной занавески и может изменяться от 0 до 20 см2.

Изменения конфигурации голосового тракта в процессе произнесения звуков речи воздействуют на проходящую через тракт акустическую волну. При образовании носовых звуков к голосовому тракту, благодаря опущенной небной занавеске, подключается носовая полость. Изменения конфигурации голосового тракта и колебания голосовых связок взаимосвязаны, в результате вся речеобразующая система функционирует как единый сложный объект.

Голосовой тракт и носовую полость обычно представляют в виде секций цилиндрических труб (системы резонаторов) с переменной по продольной оси площадью поперечного сечения. Изменение конфигурации тракта вдоль его продольной оси и во времени описывают функцией площади поперечного сечения. В простейшем случае необходимо иметь три основные секции (отрезка трубы) и дополнительную секцию для имитации округлости губ. Такая модель (рис. 3.2) достаточно хорошо имитирует голосовой аппарат человека от голосового источника до выхода из ротовой полости. Первый резонатор (с площадью поперечного сечения A1 и длиной l1) имитирует гортань и ротовую полость до сужения, создаваемого языком (задняя полость), второй (A2 и l2) —участок сужения между языком и твердым небом, третий (A3 и l3) — переднюю ротовую полость и, наконец, четвертый (A4 и l4) — проход между губами. У каждого человека эти размеры индивидуальны и в процессе речеобразования состояние голосового тракта (т.е. сечение входящих в него труб) постоянно меняется. Каждому элементарному звуку речи (т.е. фонеме) соответствует определенная форма акустических резонаторов, обусловленная положением языка, губ, нижней челюсти и т. д. При переходе от одного звука к другому форма резонаторов плавно изменяется, подчиняясь индивидуальным особенностям голосового аппарата.

П

Рис. 3.2. Четырехтрубная акустическая модель голосового тракта

ри описании речеобразования резонансные частотытрубы голосового тракта называются формантными частотами или про­сто формантами. Формантные частоты зависят от размеров и формы голосового тракта, который формирует формантную структуру. Произвольная форма голосового тракта может быть описана набором формантных частот, спектр которой при произнесении речи непрерывно изменяется, образуя формантные переходы.

Все звуки речи могут быть разделены на три четко выраженные группы по виду сигнала возбуждения голосового тракта: вокализован­ные, невокализованные, взрывные.

При произношении звонких звуков, называемых вокализованными (гласные, звонкие согласные: а, о, у, з,...), голосовые связки вибрируют (колеблются), в результате чего непрерывный воздушный поток, идущий из легких, преобразуется в импульсный. Возникающая таким образом квазипериодическая последовательность им­пульсного потока воздуха, возбуждает голосовой тракт. В резуль­тате акустическое колебание, излучаемое через ноздри, губы и зубы, представляет собой квазипериодический сигнал. В мо­дели речеобразования (рис. 3.2) периодическое со­кращение голосовых связок моделируется двумя резонансными контурами. Их совместное колебание управляет площадью отверстия, фор­мирующего сигнал возбуждения.

Невокализованные звуки (глухие согласные ф, х, ш,...) образуют­ся при сужении голосового тракта в каком-либо месте (обычно это рот) и проталкивании воздуха через суженное место с высокой скоростью, достаточной для образования вихревого воздушного потока, создающего широкополосный шум со сплошным спектром. После это­го происходит перераспределение энергии шумового сигнала возбуждения по частотному диапазону в со­ответствии с частотной избирательностью голосового тракта. Такой шум, возбуждая голосовой тракт, создает фрикативные и взрывные звуки. При произнесении последних (п, б, ...) голосовой тракт полностью закрывается, обычно в начале. За этим местом возникает повышенное сжатие воздуха. Затем воздух резко высвобождается и формируется акустическое колебание, излучаемое голосовым трактом.

Характеристики речи. Речь представляет собой колебания сложной формы, зависящей от произносимых слов, тембра голоса, интонации, пола и возраста говорящего. Основными параметрами, используемыми при описании речевого сигнала, являются:

  • статистическое распределение звуков, слогов и слов при произ­ношении речи;

  • временные характеристики звуков;

  • основной тон речи;

  • спектр речи;

  • распределение формантных частот.

Эти параметры играют важную роль при построении систем кодирования речи.

Звуки речи разделяют на гласные и согласные. В русском языке принято выделять шесть гласных звуков: а, и, о, у, ы, э. Их классифицируют по произношению (ударные, безудар­ные) и местоположению в словах. Согласные звуки также разделяют на несколько подгрупп — твердые, мягкие и др. Гласные звуки составляют примерно 43,5 %, а согласные — 56,5 % общего числа звуков, при этом невокализованные звуки составляют 32 %. Наиболее распространенный гласный звук — это а, самый распространенный согласный звук — г. Среди гласных звуков наиболее редким является звук э, среди согласных — фь.

Согласные фонемы (звуки) по типу делят на звонкиеиглухие, а по способу образования - нащелевые(звонкие -в, з, жи глухие –ф, с, ш, х,),взрывные, т.е.смычные(звонкие -б, г, д и глухие -п, т, к,),сонаты(носовые -м, н, щелевые -л,й, дрожащие -р) и аффрикаты(ц, ч).

Каждый звук является реализацией случайного процесса с определенными характеристиками. Длительность отдельных звуков речи составляет 20...350 мс. При этом гласные звуки имеют большую длительность (в среднем около 200 мс), чем согласные (около 80 мс, а звук "п" - около 30 мс). Звонкие звуки речи, особенно гласные, имеют высокий уровень интенсивности, глухие - низкий - в среднем на 20 дБ ниже уровня гласных. Динамический диапазон уровней речи находится в пределах 35...45 дБ.

Речь с физической точки зрения состоит из последовательности звуков речи с паузами между их группами. Паузой считается отсутствие речи в течение времени, большего 350 мс. В целом средняя длительность пауз составляет приблизительно 16 % длительности речи, а средняя скорость речи 10... 15 звуков/с. Темп речи может изменять­ся в широких пределах, длительность фонем, слогов и пауз также изменяется, причем длительность гласных звуков изменяется в большей степени.

Важной характеристикой вокализованных звуков является частота основного тона (ОТ) FО.Т. - частота колебаний голосовых связок или частота пер­вой гармоники спектра вокализованных звуков; Т0 = 1 / FО.Т.- период основного тона голоса. У вокализованных звуков спектр является дискретным с большим числом (до 40) гармоник, которые имеют частоту, кратную частоте основного тона. Частота ОТ изменяется в пределах от 60...70 Гц для низких мужских голосов до 450...500 Гц для высоких женских голо­сов. Средняя частота ОТ для мужских голосов 130... 150 Гц, для женских — 250 Гц. Медленное изменение частоты основного тона при произнесении речи создает эмоциональную окраску и называется интонацией. У каждого человека свой диапазон изменения основного тона (немного более октавы) и своя интонация, играющая большую роль в процессе узнавания говорящего. Пример плотности распределения вероятности часто­ты ОТ, представлен на рис. 3.3.

Рис. 3.3. Плотность распределения вероятности частоты основного тона (получено в течение 15 мин для речи 15 мужчин – дикторов в возрасте около 20 лет)

Спектр речи — зависимость среднего в течение длительного време­ни наблюдения спектрального уровня речи от частоты Вр(f) - весьма широк (примерно от 50 до 10000 Гц). Спектр русской речи, усредненный для мужских и женских голосов, предста­влен на рис. 3.4. Как отсюда следует, основная энергия в спектре речи сосредоточена в области низких частот. Максимальный уровень спектральной плотности речи лежит вблизи частоты 300 Гц, а наиболее «мощные» спектральные составляющие человеческого голоса сосредоточены в узкой полосе 200...600 Гц. Каждому звуку речи соответствует свое распределение энергии по частотному диапазону, называемое формантным рисунком. Формантные частоты, на которых происходит максимальное увеличение амплиту­ды спектральных составляющих, образуют формантные области частотного диапазона.

Рис. 3.4. Спектр русской речи

Спектральный состав звуков речи различен. Например, для глас­ных и звонких согласных (вокализованных звуков речи) энергетический спектр (формантный рисунок) имеет вид, представленный на рис. 3.5. Звонкие звуки имеют ярко выраженный дискретный спектр. Это объясняется природой образования гласных звуков, а дискретность определяется частотой основного тона: чем меньше частота ОТ, тем чаще будет заполнение спектра звука.

Рис. 3.5. Формантный рисунок вокализованных звуков: А13 - амплитуды формант; F1-F3 - частоты формант; F1 - ширина первой форманты

Форманта характеризуется амплитудой Аi, частотой Fi, и шириной полосы Fi. Различные звуки имеют разное число формант: гласные - до че­тырех формант, глухие согласные до 5-6 формант. Наиболее информативны первые три форманты: F1, F2 и F3. Наиболее вероятные частоты расположения: первой форманты F1 –150 – 900 Гц; второй форманты F2 – 550 – 2800 Гц; третьей форманты F3 – 1500 – 3400 Гц. Изменение положения формант происходит с частотой 10 – 20 Гц, а их интенсивности - с частотой 20 – 40 Гц. Первые две (основные) форманты определяют произносимый звук речи, а остальные (вспомогательные) характеризуют индивидуальную для каждого человека окраску, тембр речи. Если фильтром нижних частот отрезать вспомогательные форманты спектра речевого сигнала, то исчезнет ин­дивидуальная для каждого человека окраска произносимых звуков, но само речевое сообщение будет понятно. Некоторые звуки отчетливо распознаются по одной первой форманте F1 ("а", "о", "у"). Это происходит потому, что низкие частоты обладают большой энергией.

Формантный рисунок глухих звуков выражен слабо. У них спектр не дискретный, а сплошной и характеризуется только огибающей спектра. Так, для звука "С" максимум спектральной плотности лежит вблизи частот 5000 – 8000 Гц. В полосе частот 1500 – 8000 Гц находится спектр согласных звуков и, в частности, фрикативных согласных ("в", "ф", "з", "с", "ж", "ш", "х", "щ"). Восприятие их особенно важно для разборчивости речи.

  1. Характеристики слуха и разборчивость речи

При восприятии переданной речевой информации в качестве при­емника выступает слуховой аппарат человека - речевое колебание воздействует на органы слуха человека, вызывая определенные слуховые ощущения. Первичный акустический преобразователь, используемый человеком при слуховом восприятии, - ухо разделяют на три области: наружное, среднее и внутреннее. Эти периферические отделы слуховой системы доводят звуковые колебания воздушной среды до чувствительных окончаний слуховых волокон нервной системы. Здесь акустический сигнал преобразуется в электрический и в результате сложного взаимодействия в сфере высшей нервной деятельности происходит восприятие речи, заключающееся в распознавании смысловых элементов речи. При этом слуховой аппарат человека позволяет решать следующие зада­чи слухового восприятия: распознавать речь (фонемы, слоги, слова); определять направление источника звука; адаптироваться к шумам и тишине (регулировка чувствительности); идентифицировать говоряще­го по речевым сигналам и т.д.

Восприятие по частоте. Ухо человека обладает свойствами частотного анализатора, дискретным восприятием по частотному и динамическому диапазонам. Границы воспринимаемого слухом частотного диапазона довольно широки - от приблизительно 20 до 20000 Гц. Избирательность (разрешающая способность) слухового анализатора невелика: полосы пропускания резонаторов слухового анализатора, определенные на уровне - 3 дБ от своего максимального значения, составляют на частотах 250, 1000 и 4000 Гц около 35, 50 и 200 Гц соответственно. Эти полосы пропускания - ряд выделяемых слуховым анализатором человека специфических поддиапазонов частотного спектра - носят название критических полосок слуха или частотных групп. Слуховым анализатором человека образуется 24 критических полоски слуха.

Субъективную оценку восприятия звука по частотному диапазону называют высотой звука. Так как ширина критической полоски слуха на средних и высоких частотах примерно пропорциональна частоте, то субъективный масштаб восприятия по частоте близок к логарифмическому закону.

Порог слышимости и уровень громкости. Человек ощущает звук в чрезвычайно широком диапазоне звуковых давлений (или интенсивностей). Чувствительность к чистым тонам (гармоническим колебаниям) является одной из основных характеристик слуха. Воспринимаемое ухом значение спектрального уровня чистого тона принято называть порогом слышимости, а наибольшее значение спектрального уровня чистого тона данной частоты, которое человек воспринимает без бо­левого ощущения, — болевым порогом (порогом осязания). Область, ограниченная кривыми порога слышимости β0 и болевого порога γ, называется областью слухового восприятия, или областью слышимых звуков (рис. 4.1). Порогом слышимости также называют наименьшее значение раздражающей силы чистого тона, которое вызывает ощущение звука. Это скачкообразный переход из слышимого состояния в неслышимое и обратно. Под раздражающей силой подразумевают интенсивность звука или звуковое давление. Порог слышимости зависит от частоты: при 1000 Гц ему соответствует интенсивность звука 10-12 Вт/м 2 или звуковое давление 210-5 Па.

Принцип квантования ощущений является одним из важнейших свойств слуха. Этот принцип в полной мере характеризует и восприятие по амплитуде. Так, изменение ощущения (например, уровня громкости) возникает лишь тогда, когда изменение соответствующего ему раздражителя (уровня звукового давления или интенсивности звука) превысит определенное пороговое значение. При этом порог различения интенсивности зависит от уровня громкости, а слуховые ощущения громкости почти пропорциональны логарифму интенсивности воздействия. Вблизи абсолютного порога слышимости порог различения интенсивности составляет 2...3 дБ, в области средних уровней громкости он существенно меньше: 0,4 дБ, а среднее его значение около 0,8...1 дБ. Другими словами: едва заметное на слух изменение уровня в процессе передачи не превышает 1 дБ. Динамический диапазон по уровню звука от порога слышимости до болевого порога на частотах 1...3 кГц составляет приблизительно 130 дБ (для частоты 100 Гц это около 90 дБ).

Рис. 4.1. Область слухового восприятия

Громкость звуков определяется как субъективное ощущение уров­ня речи (В). Для численной оценки громкости принято сравнивать уро­вень речи В с чистым тоном частотой 1000 Гц. Значение звукового давления эталонного сигнала, равногромкого данному звуку, называет­ся уровнем громкости этого звука. За единицу уровня громкости принят фон. Таким образом, величина уровня громкости какого-либо звука численно равна уровню эталонного тона 1000 Гц, если на слух его громкость одинакова с громкостью определяемого звука.

Маскировка звуков. Порог слышимости существенно зависит от условий прослушивания: в тишине или же на фоне шума (или другого мешающего звука). В последнем случае порог слышимости повышается. Это говорит о том, что помеха маскирует полезный сигнал. Количественно повышение порога выражают уровнем маскировки, который определяют как разность: М = β β0 , где β - порог слышимости при воздействии помех; β0 - порог слы­шимости в тишине. При существенной величине М полезный звук может оказаться неслышным, т.е. замаскированным помехой.

Явление маскировки проявляется во всех частотных группах слуха по-разному в зависимости от соотношения уровней и спектральных особенностей полезного сигнала и помехи. Эффект маскировки играет важную роль при слуховом восприятии смеси речевого и шумового колебаний. Современные модели механизма слуха основаны на свойстве слухового аппарата проводить кратковременный спектральный анализ, осуществляемый посегментно на отрезках времени около 20 мс. В каждой из частотных полосок присутствуют компоненты сигнала и шума, причем порог слышимости зависит от мощности сигнала. Поэтому в пределах каждой из критических полосок слуха, образованных слуховым анализатором, наибольшая по абсолютной величине спектральная составляющая маскирует рядом стоящие компоненты спектра, если ее уровень превышает некоторое пороговое значение.

Временные характеристики слуха. При исчезновении раздражающей силы слуховое ощущение исчезает не сразу, а постепенно уменьшается до нуля. Этот эффект называется слуховым впечатлением. Время, в течение которого ощущение по уровню громкости падает на 8,7 фон, считается постоянной времени слуха. Ее величина составляет в среднем при нарастании звука 20...30 мс, при спаде - 100...200 мс.

Разборчивость речи. При реализации цифровых преобразований речевых сигналов (РС) возникают специфические искаже­ния, влияющие на качество речи. Одним из критериев качества речи является ее разборчивость. Разборчивость — есть объективная количественная мера, характеризующая способность тракта электросвязи передавать содержащуюся в речи смысловую информацию в данных конкретных акустических условиях окружающей среды. Эта мера является объективной в том смысле, что величина разборчивости зависит от физических параметров тракта, а также от среды, в которой ведется разговор, и не зависит от субъективных свойств конкретных, измеряющих разборчивость операторов.

Под мерой разборчивости понимается выраженное в процентах отношение числа правильно принятых элементов речи (звуков, слогов, слов, фраз) к достаточно большому общему числу переданных. На практике используют преимущественно слоговую (S), звуковую (D) и словесную (W) разборчивость. Они поддаются непосредственному измере­нию с помощью артикуляционных таблиц (см. лекцию 14).

Существуют однозначные зависимости для указанных видов разборчиво­сти. Это объясняется тем, что для нахождения их значений используются определенные выборки из од­ной и той же совокупности, представляющей собой речь, в которой звуки, слоги, слова и фразы встречаются в определенных фонетических и статистических соотношениях и взаимосвязях. Пример одной из этих за­висимостей приведен на рис. 4.2.

Рис. 4.2. Взаимосвязь между различными видами разборчивости

Принято считать, что разборчивость речевого сигнала и передача смысловой информации определяются огибающей амплитудного спектра сигнала. В процессе речеобразования широкополосный гармонический сигнал (при произнесении звонких звуков) или шумовой (при произнесении глухих согласных), проходя через набор акустических резонаторов, образуемых в ротовой и носовой полости, приобретает ряд максимумов огибающей спектра - формант, положение которых на оси частот определено для отдельных звуков - фонем.

Установлено, что у звонких (вокализованных) звуков положение первой форманты, расположенной ниже 1000 Гц, на 60% определяет характер фонемы; положение второй, лежащей в диапазоне от 1000 до 2800 Гц, - на 20%; и третьей (диапазон 1500-3400 Гц) - на 10%. Положение четвертой форманты, расположенной выше 3000 Гц, как считается, определяется размером головы. Последующие форманты при анализе сигнала не используются и в системах телефонной связи не передаются. Разборчивость же согласных, чей энергетический максимум в спектре сигнала расположен в диапазоне 1500-8000 Гц, сильно зависит от верхней граничной частоты полосы пропускания звукового (речевого) тракта.

Известна необычайно высокая устойчивость РС к помехам и искажениям канала передачи, как акустического, так и электрического. Очевидно, что в процессе эволюции природой был создан чрезвычайно устойчивый канал связи. Из опыта работы с речевым сигналом известно также, что он остается разборчивым при существенном ограничении полосы частот, нелинейных искажениях, искажениях АЧХ и даже инверсии спектра. В системах связи почти полное разрушение формантной структуры не приводит к потере связи. Тем не менее, даже для стационарных звуков — гласных, на основании формантной теории удается распознать 60-80% фонем. Распознаваемость согласных гораздо ниже. Современные системы распознавания успешно работают, в основном, за счет большой избыточности речевого сигнала (лингвистической, грамматической, смысловой), ограничения словаря, количества пользователей.

Рассмотренные выше характеристики речи и слуха играют важную роль при создании различных устройств и систем обработки и пере­дачи речи, таких, как системы идентификации диктора по голосу, рас­познавания речи, низкоскоростного кодирования и передачи речи, си­стем компьютерной телефонии и др. Современные технологии реали­зации этих систем основаны на цифровых алгоритмах обработки сиг­налов.

  1. Акустоэлектрические и электроакустические преобразователи

Акустоэлектрические и электроакустические преобразователи в абонентских устройствах СПРС выполняют роль интерфейса «пользователь-система связи», обеспечивая важные физические функции при реализации голосовой связи по радиоканалу. Так, важным звеном любого электроакустического тракта является микрофон - устройство для преобразования акустических колебаний воздушной среды в электрические сигналы.

Среди основных технических показателей микрофонов: чувствительность E – отношение напряжения на выходе микрофона к звуковому давлению, действующему на микрофон; динамический диапазонразность между уровнем предельного звукового давления Nmax и уровнем собственных шумов Nш: D = Nmax – Nш, дБ (для непрофессиональных микрофонов Nmax = 114 дБ в диапазоне частот 250…8000 Гц); характеристика направленности, которая оценивается отношением чувствительности микрофона Е, измеренной при приходе звука под углом , к осевой чувствительности Ео: D() = Е() / Ео. Характеристику направленности, представленную в полярных координатах, называют диаграммой направленности (ДН). Классификация микрофонов по виду ДН включает: ненаправленные (круговые); двусторонне направленные (восьмерочные); односторонне направленные (кардиоидные).

Микрофон характеризуется также рядом других показателей, среди которых важнейшими являются: номинальный диапазон частот с допустимой неравномерностью частотной характеристики (от 4 до 20 дБ в зависимости от назначения микрофона), модуль полного электрического сопротивления на частоте 1 кГц (обычно от 50 до 2000 Ом), сопротивление номинальной нагрузки (150…3000 Ом), типовая частотная характеристика чувствительности.

Любой микрофон состоит из двух систем: акустико-механической и механоэлектрической. В зависимости от способа преобразования механических колебаний в электрические микрофоны делятся на электродинамические, конденсаторные, электромагнитные, пьезоэлектрические, угольные, транзисторные. По признаку приема звуковых колебаний микрофоны могут быть либо приемниками давления, либо приемниками градиента давления.

Свойства акустико-механической (т.е. подвижной) системы – диафрагмы зависят от того, как воздействует звуковое давление на диафрагму: если она открыта для звуковых волн только с одной стороны, то это приемник давления (рис. 5.1а), если же звуковые волны воздействуют на обе ее стороны, то это микрофон-приемник градиента давления (рис. 5.1б).

а)

б)

Рис. 5.1. Схематичное изображение микрофона-приемника давления (а) и микрофона-приемника градиента давления (б)

Для микрофона - приемника давления характерно увеличение чувствительности с ростом частоты. Характеристики такого микрофона также сильно зависят от размеров диафрагмы (относительно длины падающей звуковой волны) и его формы. Микрофон-приемник градиента давления можно представить в виде диафрагмы, размещенной в экране конечных размеров. Диафрагма открыта для звуковых волн с обеих сторон, поэтому на нее воздействует разность сил, обусловленная разностью хода звуковых лучей. Поэтому ДН такого микрофона имеет вид «восьмерки», т.е. микрофон не воспринимает звуковые колебания, падающие на него сбоку.

Большое влияние на характеристики микрофона оказывает его механоэлектрическая часть. В электродинамических и электромагнитных микрофонах выходное электрическое напряжение пропорционально скорости колебаний подвижной системы, а в микрофонах остальных типов – пропорционально колебательному смещению.

Для систем связи рекомендуются электромагнитные и угольные микрофоны. Они характеризуются полосой эффективно передаваемых частот от 300 до 5000…8000 Гц и достаточно высокой чувствительностью – от 10 мВ/Па (электромагнитные) до 400 мВ/Па (угольные).

Действие угольного микрофона (рис. 5.2а) основано на изменении сопротивления между зернами угольного порошка: при действии звукового давления на диафрагму (3) она начинает колебаться, в такт с этими колебаниями изменяется сила сжатия зерен угольного порошка (2), в результате чего изменяется сопротивление между электродами (1 и 4) и ток через микрофон. Основное преимущество такого микрофона – высокая чувствительность, позволяющая использовать его без усилителя. Недостатки – большой уровень шума, большая неравномерность частотной характеристики и значительные нелинейные искажения.

В электромагнитном микрофоне (рис. 5.2б) ферромагнитная диафрагма располагается перед полюсами магнита (2). При колебаниях диафрагмы (1) изменяется магнитное сопротивление воздушного зазора, а значит и магнитный поток через витки обмотки, намотанной на магнитопровод (3) этой системы. Благодаря этому возникает переменное напряжение звуковой частоты, являющееся выходным сигналом микрофона.

а)

б)

Рис. 5.2. Схематичное изображение угольного (а) и электромагнитного (б) микрофонов

Такие микрофоны стабильны в работе, однако им свойственны большая неравномерность частотной характеристики и значительные нелинейные искажения. С целью повышения разборчивости речи частотную характеристику этих микрофонов корректируют (поднимают) в области высоких частот с крутизной 6 дБ/октава.

В качестве электроакустических преобразователей, превращающих электрические колебания в звуковые, акустические колебания воздушной среды (т.е. акустические волны), используют громкоговорители и телефоны. В настоящее время наиболее распространены электродинамические громкоговорители непосредственного излучения (диффузорные). Однако в абонентских устройствах СПРС они находят ограниченное применение. В отличие от громкоговорителя задачей теле­фона является не излучение акустической энергии в окружающее воз­душное пространство, а подведение ее непосредственно к уху. Это определяет конструкцию голов­ного телефона, который состоит из электроакустического преобразователя, капсю­ля, корпуса, а также эластичной раковины, являющейся элементом, свя­зывающим его с ухом (рис. 5.3). Здесь: 1 – раковина, 2 – капсуль, 3 – преобразователь, 4 – канал уха.

В телефонах, в основном, применяются электромагнитные преобразо­ватели, а также электродинамические, электростатические, и угольные. На рис. 5.4 показаны варианты конструкций телефонов: 1 электродинамического с сосредоточенной звуковой катушкой; 2 электродинамического с распределенной звуковой катушкой; 3 электростатического; 4 — электретного (близкого по конструкции к конденсаторному). Катушку в электродинамических преобразователях телефонов выполняют либо в традиционной форме, когда она намотана проводом на каркас, либо в варианте, в котором она состоит из концен­трических плоских колец, напыленных или нанесенных другим методом на плоскую диафрагму.

Рис. 5.3. Конструкция голов­ного телефона

Важными характеристиками телефона являются егочувствительность и частотная характеристика чувствительности – фактически АЧХ по звуковому давлению, создаваемому телефоном в слуховом канале человека. Чувствительность измеряется в Па/В, т.е. в единицах звукового давления на 1 В подведенного напряжения сигнала. Типичные значения чувствительности (иногда называемой в справочниках – отдачей) – от 5…8 до 15…21 Па/В. Типичные полосы частот, эффективно воспроизводимые телефонами, составляют 300…3400 Гц, в то же время для контроля звукозаписи выпускаются телефоны с полосой 100…5000 Гц и даже 40…16000 Гц, а стереофонические телефоны характеризу-ются полосой 20…20000 Гц.

Рис. 5.4. Варианты конструкций телефонов

Технические характеристики громкоговорителя и телефона должны соответствовать характеристикам канала, передающего речевой сигнал. Этому требованию довольно трудно удовлетворить, поскольку громкоговоритель работает в относительно широкой полосе частот, в которой отношение граничных частот достигает 1000 (длина акустической волны изменяется примерно от 17 м до 17 мм), а у телефонов это отношение изменяется от 10 до 400.