Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

УЛА

.pdf
Скачиваний:
30
Добавлен:
21.03.2016
Размер:
2.29 Mб
Скачать

+ ЕЩЕ КОЕ­ЧТО О СПОНТАННОЙ РЕЧИ (из нашего конспекта): как рождается спонтанная речь. Сначала рождаются смутные идеи, им придается грамматическая и синтаксическая оформленность, на конечном этапе выбирается фонемный состав на границах морфем.

Построение спонтанного речевого сигнала требует: А) ресурсов Б) времени

Поэтому при резком и внезапном изменении курса высказывания могут наблюдаться несоответствия, например, интонационной конструкции и слов, а также фальстарт, самокоррекция, остановка, хезитация.

27. Интерференция звуковых систем.

Непонятно, что здесь. Мб, то же самое, что и в межъязыковой/внутриязыковой интерференции?

Транскрипция (28)

28. Фонетическая и фонематическая транскрипция. Прескрипция как отражение требований нормы.

Транскрипция — это способ передачи на письме звукового облика значимых единиц языка. Различие между фонематической и фонетической транскрипцией ввёл Л.В. Щерба.

Фонематическая транскрипция отражает фонемный состав слова или последовательности слов, фонетическая — некоторые звуковые особенности реализации фонемв разных условиях (основные свойства комбинаторно­позиционных аллофонов, связи между правилами аллофонических изменений и конкретными реализациями). Если для фонематической транскрипции достаточно использовать столько знаков, сколько насчитывается фонем в данном языке, то для фонетической, естественно, необходим более богатый набор символов, при помощи которых можно было бы отразить те или иные особенности звучания.

Однако разница между фонетической и фонематической транскрипцией состоит не в транскрипционных знаках, а в их применении. Фонематической будет транскрипция, в которой все аллофоны одной фонемы обозначаются одним знаком; фонетической — транскрипция, в которой каждый аллофон обозначается особым знаком.

Фонематическая транскрипция может быть применена только при записи языка, фонемный состав которого известен исследователю. Фонетической транскрипцией пользуются, во­первых, при записях незнакомого или малознакомого языка (в данном случае записывающий не имеет никакого выбора), во­вторых, когда исследователь задается специальной целью выявить все возможные аллофоны фонем.

Более того, в фонематической транскрипции знаки употребляются в известной мере условно, так как невозможно отразить одним знаком, символизирующим фонему в целом, фонетические особенности всех ее аллофонов. Несмотря на свою условность фонематическая транскрипция, она не является особым видом письменной формы языка, а точно (пофонемно) отображает его звуковую сторону и должна строго следовать транскрипционным, а не графическим принципам:

число знаков в фонематической транскрипции данного языка должно быть равно числу его

фонем;

читающему текст, написанный в фонематической транскрипции, не нужно знать правил чтения (необходимый в каждой данной позиции обязательный аллофон фонемы читающий подставит автоматически соответственно фонетическим условиям, в которых фонема окажется в контексте).

Согласно Зиндеру, не может быть универсальной фонематической транскрипции, для каждого языка она должна быть своя. Поэтому универсальные транскрипционные системы применимы только при фонетической транскрипции.

В фонетической транскрипции каждый звук обозначается определённым знаком независимо от фонематической значимости.

Требования к универсальной транскрипционной системе ([Зиндер: Общая фонетика]: знаки для всего многообразия звуков, лёгкость запоминания и воспроизведения, непохожесть знаков (чтобы не перепутать), непротиворечие привычным ассоциациям (если m, то пусть хотя бы губная смычная будет).

Существует 2 типа транскрипционных систем – аналитическая и синтетическая. Аналитическая представляет в своих знаках фонетическую характеристику звуков (отдельные элементы артикуляции,

действия произносительных органов), синтетическая представляет звуки как целостные величины (ср. буквенное и иероглифическое письмо).

Из аналитических известны:

Visible Speech (Бэлл): значки для обозначения работы отдельных органов (61 знак). Мало, поэтому Г.Суит расширил эту систему до 109 знаков. Эта система основана на произвольно придуманных знаках, не ассоциируется ни с какими звуками, поэтому была трудна для запоминания, неудобно для практического применения и не получила значительного распространения).

Analphabet (Йесперсен): каждый звук обозначается сочетанием букв латинского (пассивные органы) и греческого (активные органы) алфавита и цифр (степень и форма раскрытия органов). Громоздко. Не прижилось.

Из синтетических: МФА (международный фонетический алфавит), созданной МФА (международной фонетической ассоциацией). На основе латинского и греческого алфавитов. 107 гласных и согласных, 31 диакритик (для уточнения звука), 19 символов для ударения и интонации. Не включены аффрикаты. МФА универсальна, но используется не так часто, ибо для описания уже знакомого языка лингвисты прибегают к фонематической – проще и быстрее. (В нашем курсе мы пользуемся транскрипцией Щербы, основанной на МФА).

В транскрипции обозначают ударения и тоны. Универсальной системы записи тонов нет, но часто используют цифры (напр, в китайском – от 0 до 4). Кроме того, существуют интонационные транскрипции (универсальной нет, в русском – классификация Брызгуновой).

Внешние различия между фонематической и фонетической транскрипцией: фонематическая — / /, при фонетическая — [ ].

ЧТО ГОВОРИТЬ ПРО ПРЕСКРИПЦИЮ????????????????????

Прикладная фонетика (29­32)

29. Статистика звуковых единиц. Статистические исследования разных типов речи.

План:

1.Зачем нужно изучать статистику единиц

2.Какие эксперименты описаны в статье Зиндера, Бондарко и Штерн

3.Про соотношение единиц в языке и речи

4.Какие звуки самые частотные и самые редкие

5.Каковы изменения наблюдаются в спонтанной речи

Тут Скрел даже лекцию не стал давать, а просто сказал прочитать учебник и статью. Ну, собственно, вот...

Бондарко: Изучение статистических характеристик различных элементов языка имеет теоретическое и практическое значение. С теоретической точки зрения, различная встречаемость тех или иных единиц (фонем, морфем и т.д.) в речи важна при описании устройства системы этих единиц, для представления об общих фонетических свойствах языка. С практической точки зрения, такие сведения имеют значение при построении (исследований) систем автоматического распознавания речи, при обучении фонетике языка, при разработке звукозаписывающей и звуковоспроизводящей аппаратуры.

Статья Зиндера, Бондарко и Штерн «Некоторые статистические характеристики русской речи» (1977)

В статье описаны данные, полученные в Лаборатории экспериментальной фонетики им. Л. В. Щербы Ленинградского университета. Подсчитывалась статистика фонем, аллофонов гласных, классов фонем, слога и слова.

Статистику фонем считали так: транскрибированные тексты и звучащая речь, записанная на магнитную ленту. 10 фонетистов транскрибировали тексты (по 10 000 фонем). Помимо этого, текст объёмом в 7882 звука был прочитан одним диктором, чтобы сравнить с реальным произнесением (наблюдаются различия из­за редукции). Встречаемость фонем в звучащей речи диалогического характера: двое испытуемых (москвич и ленинградец) вели спонтанный разговор. Результаты: частоты фонем у обоих дикторов весьма схожи.

Бондарко

в системе довольно мало гласных и много согласных: на 1 гласную фонему приходится 6 согласных; но в текстах на каждый гласный приходится около 1,38 согл.; в звучащей речи на один гласный приходится около 1,3 согл. (консонантный коэффициент). Т.е, OMG, соотношение не 6:1, а

1,3:1!

при транскрипции текстов согласных несколько больше, чем в звучащей речи (в речи гораздо чаще опускаются многие согласные, предполагаемые при идеальном представлении текста в транскрипции);

встречаемость гласных в русском языке очень велика;

самыми частыми гласными являются /а/ и /i/; согласными ­ /t/ и /n/;

самыми редкими фонемами среди согласных являются /g’/, /f’/, /х’/;

мягкие согласные встречаются в речи реже, чем твёрдые (экономия произносительных

усилий);

глухие согласные и сонанты встречаются чаще, чем звонкие согласные;

безударных гласных в речи почти в два раза больше, чем ударных: /а/ имеет две степени редукции (предударный, заударный); /i/ ­ в безударной позиции внутри слова; для остальных гласных позиции безударности не различаются;

наиболее частыми являются открытые слоги (среди открытых слогов наиболее частые – с /а/, наиболее редкие – с /u/).

Статистические исследования разных типов речи.

В спонтанной речи чаще происходит упрощение групп согласных,

часто пропадает /j/ в заударных частях слова,

степень редукции безударного гласного не соответствует ожидаемой;

Далее идёт про сложные сочетания фонем, про морфемы и т.д. На всякий случай:

Число префиксов в русском языке относительно невелико, и они преимущественно имеют обобщенную фонетическую структуру СV или ССV, где С — любой согласный, а V — любой гласный.

Среди корневых морфем наиболее распространенными являются структуры типа СVС, ССVС, СVСС и СVСVС. Кроме того, довольно часто встречаются и структуры СV и ССV.

Среди суффиксов наиболее распространены имеющие фонетическую структуру VС или VСС.

30. Прикладные аспекты фонетики. Автоматическое распознавание и синтез речи.

План:

1.куда фонетику можно приложить (перечисление), особое место 2 направлений ­ синтеза и распознавания речи

2.синтез: история, современные синтезаторы ­­ этапы и методы

3.распознавание: цели и сложности; два направления (распоз. отдельных слов и структуры сообщения)

Конспект Веры (со стр. 151):

1)Диагностикаслуха(для врачей, физиологов). В западных традициях нарушения слуха относятся

кклинической лингвистике (логопедия и фонетика очень тесно связаны).

2)Нарушения, реабилитация речи и слуха.

3)Преподавание произношения – только на языковых отделениях и только для первого языка. Должны быть знания об интерференциях фонетических систем, вообще о фонетических системах, об орфофонических характеристиках и т.д.

4)Использование фонетических знаний в исследованиях разных уровней языковой системы. Фонетика, морфология (морфемы состоят из фонем), лексика (ударение, фонемный состав слов). Буквенные последовательности (омонимы, омографы). Характеристики синтаксических единиц (с опорой на интонацию). Семантика и характеристика текста (ирония, сарказм – относится к литературоведению и анализу текста).

Далее Кодзасов вперемешку с конспектом:

5)создание человеко­машинных интерфейсов с устным вводом/выводом информации; речевое управление компьютером и другими техническими устройствами (особенно в экстремальных, опасных для человека условиях);

6)организация информационно­справочной службы, позволяющей получать и выдавать различную информацию из базы данных в условиях, когда вопрос задается голосом (на транспорте, в медицине, банковской службе);

7)создание устройств для приема и озвучивания различных сообщений, например, писем электронной почты по телефону;

8)многоязычный устный ввод/вывод речевой информации с автоматическим переводом;

9)разработка приспособлений и компьютерных систем для помощи инвалидам (слепым, глухим, немым, парализованным);

10)создание “автоматической машинистки“ – машины, которая распознает произвольное речевое сообщение и записывает его в обычном текстовом виде;

11)озвучивание корректур и исправление орфографических ошибок;

12)помощь в обучении иностранному языку (автоматические фонетические тренажеры).

Речевые технологии используются также в более сложных системах искусственного интеллекта, воспроизводящих элементы порождения и понимания речи человеком.

Появление компьютеров привело к созданию и развитию особых направлений в компьютерных технологиях, которые связаны со звуковой речью. Эти направления в соответствии со своими задачами получили названия “автоматический синтез речи” и “автоматическое распознавание речи

(или речевой вывод/ввод информации в компьютерное устройство).

Синтез речи

Впервые – учёный из Санкт­Петербургского университета Кранценштейн (18 век) сконструировал механический синтезатор (даже премию РАН дали). Воспроизводил 5 гласных. Также

«говорящая машина» фон Кемпелена (18 в, Венгрия), механический аналог речевого тракта, 20 речеподобных звуков.

20­е годы 20­го века – электрические синтезаторы. Первый – вокодер американского связиста Дадли. Основан не на имитации артикуляции, а на воспроизведении акустических параметров. Все синтезаторы этого времени были аналоговыми, хранили записанные звуки и воспроизводили новые путём склеивания. Звучало неестественно.

50­е – появление вычислительных машин. 60­е – сформулирована акустическая теория речеобразования. По этим причинам появились 2 независимых направления – артикуляторный и акустический синтез. Акустический синтез сейчас впереди.

Сейчас: развиваются синтезаторы «Текст­Речь» (text­to­speech). Для этого нужно вначале лингвистически обработать текст, т.е. построить полную фонетическую транскрипцию с просодическими характеристиками и сгенерировать речевой сигнал.

На этапе лингвистической обработки необходимо: определить язык входного текста, спел­чекером проверить и исправить ошибки, нормализовать текст, т.е. представить его в последовательность нормальных орфографических слов (без аббревиатур и сокращений), обратиться к словарю, чтобы получить информацию об ударениях, сформировать фразовые интонационно­просодические показатели, осуществить сегментно­фонетическую транскрипцию текста (с помощью фонемного транскриптора), провести просодическую параметризацию: для каждой фонемы определить интенсивность и частоту основного тона.

На акустическом этапе мы превращаем транскрипцию в оцифрованный речевой сигнал. Синтезировать можно двумя способами – по правилам и на основе конкатенации.

Синтез по правилам: фиксируем примерно 60 параметров (частота, амплитуда, форманты) и создаём с нуля почти что. Требует большой подготовительной работы.

На основе конкатенции: берётся диктор­донор, кусочки его речи хранятся в акустической базе данных. При синтезе кусочки склеиваются и подвергаются модификации, если есть такая

необходимость. Хранить можно разные кусочки: слоги, полуслоги, дифоны (отрезки, которые начинаются в середине одного звука и заканчиваются в середине другого). Такой синтезатор может быть построен достаточно быстро и поэтому пользуется большой популярностью, хотя хранить нужно большие объёмы данных.

*Макросинтез – объявление на вокзале, в аэропорту – воспроизведение стабильных последовательностей, вставка слов в рамочные конструкции. Сообщения составляются из микроблоков.

*Модели, работающие на больших корпусах – технология Unit Selection. Сглаживание интонационных параметров, уменьшение числа склеек. Можно выбрать фрагменты из корпуса, сегментировать их и склеивать из них другие единицы.

Распознавание речи (РР)

Цель автоматического распознавания речи (АРР) может быть сформулирована двумя способами (технологически они разные):

1.автоматическое стенографирование (записывать устную речь в виде текста);

2.управление системами, приборами с помощью голоса.

Первые попытки – 40­е годы 20­го века, спектральный анализатор.

Процесс распознавания речи усложнён особенностями артикуляционной организации речи (коартикуляция, небрежность), постоянными индивидуальными особенностями (междикторская вариативность: пол, возраст, диалект), переменными индивидуальными особенностями (внутридикторская вариативность: эмоции, физическое состояние) и техническими условиями записи (микрофон, телефон, студия)

РР – чрезвычайно сложная задача. Поэтому разработки ведутся в двух более узких направления – распознавание отдельных слов (как одного диктора, так и разных) и декодирование структуры сообщения (вместо того, чтоб тупо фонетически расшифровывать).

При распознавании отдельных слов имеем уже готовый ограниченный словарь.

1)Получаем сигнал, дробим на более мелкие единицы, стараемся фонетически идентифицировать,

апотом полученную цепочку фонем сравниваем со словами в словаре. Что больше похоже, то и есть.

2)Или же получаем сигнал и сравниваем его с акустическими эталонами слов в словаре.

Декодирование структуры сообщения началось в 70­е годы в США в рамках государственной

программы ARPA (Агентство по перспективным оборонным научно­исследовательским разработкам США). Встала

задача создать систему распознавания для не менее чем 1000 слов. Решили сделать упор на синтаксические и семантические ограничения на возможную языковую структуру распознаваемых фраз. Была создана система HARPY, которая создавала всевозможные предложения из имеющихся слов, создавала все варианты их произношений, а потом уже полученный сигнал сравнивала с синтезированными ранее предложениями. Такая стратегия называется «анализ через синтез».

Сегодня большинство распознающих систем продолжают дело HARPY и применяют статистические методы распознавания образов (скрытые марковские модели и т.д.). Они включают обычно три компонента: произносительный словарь, модель языка и набор статистических акустических моделей звуковых единиц.

Произносительный словарь – обычный словник, в котором для каждого слова есть фонетическая и фонемная транскрипции. Может включать словосочетания и фразы.

Модель языка – набор семантических и синтаксических ограничений, которым подчиняются предложения данного языка. Чаще всего задают вероятность для различных последовательностей слов языка (n­граммы).

Статистические грамматики строятся на этапе обучения.

Сейчас многого добились, но до сих пор проблемы с распознаванием естественных диалогов и даже текста под диктовку. Зато числовые последовательности, словосочетания и команды системы научились распознавать практически безошибочно.

Вера:

*Отдельная задача РР: поиск ключевых слов: найти в непрерывном потоке речи слова из ограниченного списка. Используется только как вспомогательное средство для оператора.

Использование АРР в диалоговыхинформационныхсистемах(на примере какой­то французской системы):

Французская система позволяет получить справку о погоде по всей Франции, движении общ. транспорта, вакансиях и т.д. Поиск работы по общенациональной базе данных вакансий Франции (при помощи ограниченного набора ключ.слов – команд). АРР используется для уточнения, правильно ли понят запрос.

Заказ билетов, номеров в гостинице, пиццы по телефону (постоянно вносятся уточнения вне меню), заказ жд билетов (множество условий – время, куда ехать, где остановиться, место, стоимость).

При этом запросы варьируются – порядок следования информации может быть любым. Задача системы: понять что есть то.

31. Акустические, перцептивные и статистические исследования речи при помощи компьютера. Компьютерное представление экспериментальных данных. Аналого – цифровое преобразование и проблемы сохранности звуковых свойств.

Скрел: Исследование речи при помощи компьютера построено на формальных методах (в противоположность функциональным). *Это естественно, ведь компьютер не понимает функциональных, смысловых, характеристик. Всё, что он может ­ это считать*.

Во­первых, это цифровая обработка сигнала.

Во­вторых, это возможность вырезок, склеек, пересадок, указания границ между звуковыми единицами, соответственно, удаления и пересаживания этих единиц с места на место. Это используется для перцептивных экспериментов (см. билет по восприятию): например, что будет, если мы искусственно изменим сигнал (вставляя, перемещая фрагменты, изменяя их характеристики), как на это отреагирует человек?

В­третьих, при помощи компьютера можно выполнять математические операции и статистические исследования. Простой пример: если есть речевой корпус с размеченными границами между звуками, то можно посчитать среднюю длительность фрагмента (звука вообще, гласных и согласных отдельно, слогов, слов, фраз…) ­ зависит от сегментации и описания корпуса. *Эта задача идеальна для компьютера, т.к. можно применять методы теорвера и матстата к звуковым единицам.*

АЦП.

Скрел: С философской точки зрения, аналоговый сигнал нечленим (один элемент плавно переходит в другой). Но если мы умеем как­то устанавливать границы (дискретизировать), то получаем обычные физические объекты, которые можно анализировать с помощью компа.

Тут так муторно, поэтому вот summary:

1)Аналого­цифровое преобразование – это превращение непрерывного сигнала в код.

2)Как происходит АЦП – разделить сигнал на фреймы, измерить разницу амплитуд в зависимости от частоты дискретизации.

3)Что такое частота дискретизации – это количество измерений, теорема Котельникова – надо брать в два раза больше, чем мы хотим сохранить в сигнале.

4)Человеческий слух воспринимает звуковые частоты до 22 кГц, поэтому музыку на диски записывают с частотой 44,1 кГц (в два раза больше).

5)На всякий случай про биты: ими мы кодируем значения амплитуды (отклонений от нуля).

Конспект Веры (со стр. 180) + файл Даши:

Суть АЦП ­ из непрерывного сигнала получить дискретный код (цифровой сигнал).

Звуковые волны при помощи микрофона превращаются в аналоговый переменный электрический сигнал. Этот сигнал проходит через звуковой тракт и попадает в аналого­цифровойпреобразователь (АЦП) ­ устройство, которое переводит сигнал в цифровую форму.

В упрощенном виде принцип работы АЦП можно описать так: он измеряет через определенные промежутки времени амплитуду сигнала и передает дальше, уже по цифровому тракту, последовательность чисел, несущих информацию об изменениях величины амплитуды.

Во время аналого­цифрового преобразования на самом деле никакого физического преобразования не происходит. С электрического сигнала как бы снимается отпечаток или образец, являющийся цифровой моделью колебаний напряжения в аудиотракте. На схеме 2 эта модель представлена в виде последовательности столбиков, каждый из которых соответствует определенному числовому значению. На этой схеме видно, что цифровая модель не совсем точно соответствует форме аналогового сигнала. Поэтому говорят, что цифровой сигнал по своей природе дискретен ­ то есть, прерывист.

Вера: Синусоида описывается числом точек в 2 раза большим, чем частота в Гц. Например, частота 1 Гц ­ 2 значения, сохраняется с частотой 2. Нужна запись с частотой дискретизации в 2 раза больше.

Одним из двух ключевых параметров процесса оцифровки является частота дискретизации – количество измерений амплитуды аналогового сигнала в секунду (частота взятия отсчетов непрерывного сигнала). Так как диапазон колебаний звуковых волн лежит в пределах от 20 Гц до

20 кГц, то количество измерений сигнала в секунду должно быть больше, чем количество колебаний звуковой волны за тот же промежуток времени.

Теорема Котельникова (Найтвиста). Если аналоговый сигнал не содержит в своем спектре частот выше F, то его можно идеально точно восстановить по дискретным отсчетам, взятым равномерно с частотой строго большей 2F (т.е. в два раза больше!).

Поэтому для качественного преобразования применяют частоты более чем в два раза превышающие верхнюю границу звукового диапазона: 44.1 кГц. Имеется в виду, что на CD­дисках звук хранится в виде дискретных отсчетов, по 44100 штук на секунду. А это, согласно озвученной теореме, означает что «на CD можно идеально записать звук с частотой до 22050 Гц», что вполне себе хорошо, так как слышимый человеком диапазон укладывается в эти рамки.

8 кГц – частота пропускания телефонного канала (т.е. сохраняются все частоты до 4 кГц; однако у некоторых согласных (с и ш) частота выше 4 кГц, отсюда искажение сигнала и нарушение коммуникации, напр., сток­шток).

С уменьшением частоты дискретизации сразу уменьшается слышимый диапазон частот, а то, что слышно ­ довольно сильно искажается.

Для кодирования значения амплитуды сигнала используются биты. Обычно используется 8 или 16 битное представление значений амплитуды. Если при оцифровке используется 8­битное кодирование, то измерения амплитуды аналогового сигнала будут производиться с точностью до 1/256 от динамического диапазона цифрового устройства (2^8=256). Если же мы повысим разрядность

представления значений амплитуды аналогового сигнала до 16 бит, то точность измерения возрастет не в два раза, а в 256. Ведь 16 бит позволяют закодировать уже 2^16=65536 значений амплитуды. Такая точность кодирования позволяет нелинейные искажения свести к минимуму. В современных же преобразователях используется 24­битное кодирование сигнала. Такая разрядность позволяет получить 224=16777216 значений амлитуды, что более чем достаточно для высококачественной оцифровки звука.

Воспроизведение – обратный процесс (из цифрового в аналоговый). Вывод цифрового звука осуществляется при помощи цифро­аналогового преобразователя (ЦАП), который на основании поступающих цифровых данных в соответствующие моменты времени генерирует электрический сигнал необходимой амплитуды. А в акустических системах этот сигнал преобразуется в звуковые волны, которые мы слышим.

После оцифровки сигнала с ним можно делать что угодно: ведь амплитуда теперь просто число, поэтому его можно умножать, прибавлять и т.д. Сложнее менять частоту основного тона – нарушается баланс и искажается речевой сигнал. Спектр модифицировать тоже можно (даже выдать речь одного человека за другого). Полезно для фонетических исследований.

Компьютерное представление экспериментальных данных.

Тут про корпуса?.. Если попросит пример: Машинный фонд русского языка, там был фонетически сбалансированный материал.

Файл Даши:

Построение крупномасштабных речевых баз данных является одним из важнейших направлений в современных речевых технологиях. Для решения задач исследования речи, построения автоматизированных систем распознавания и синтеза речи необходимо наличие большого количества правильно размеченных и аннотированных речевых данных и возможности доступа к ним.

Речевые данные чаще всего выступают в виде совокупности речевых фрагментов. Под речевым фрагментом мы будем понимать представленный в виде оцифрованной звуковой волны фрагмент звучащей речи, сопровождаемый дополнительной информацией специального вида. Минимально необходимая информация, ассоциированная с фрагментом – это его орфографическая запись и фонетическая транскрипция, отражающая реальное звучание фрагмента.

Этапы формирования речевых баз данных Создание речевых баз данных (или, иначе, речевых корпусов) представляет собой определенный технологический процесс.

Внем можно выделить следующие основные этапы:

подготовка фонетического обеспечения для формирования речевого корпуса;

подготовка текстового материала;

разработка программного обеспечения для формирования речевого корпуса;

подбор дикторского состава;

запись речевых фрагментов, произнесенных дикторами;

проверка качества записи речевых фрагментов;

фонетическая верификация речевых фрагментов и их разметка;

обработка результатов верификации;

окончательное формирование речевого корпуса.

Разметка в речевом корпусе:

1.Разметка границ периода частоты основного тона

2.Идеальная и реальная транскрипция

3.Разбивка на слоги

4.Разбивка на слова

5.Разбивка на синтагмы

32. Идентификация и верификация диктора.

План:

1)задача биометрической И и В: причём тут фонетика

2)2 класса систем, решающих эту задачу

3)уникальность голоса человека, 2 способа идентификации, их недостатки

4)где применяются