6 Средства мультимедиа

К средствам мультимедиа можно отнести:

-устройства аудио (речевого) и видеоввода и вывода информации;

-высококачественные звуковые (sound-) и видео (video-) платы;

-платы видеозахвата (video grabber), снимающие изображение с видеомагнитофона или видеокамеры и вводящие его в компьютер;

-высококачественные акустические и видеовоспроизводящие системы с усилителями, звуковыми колонками, большими видеоэкранами;

-сканеры;

-высококачественные принтеры и плоттеры.

-внешние запоминающие устройства большой емкости на оптических и цифровых видеодисках, используемые для записи звуковой и видеоинформации.

6.1 Системы речевого ввода и вывода информации

Существует две технологии речевого общения с компьютером: системы распознавания и синтеза речи.

В системах распознавания речи выполняется оцифровка звуковой информации, ее идентификация с кодами, содержащимися в электронных тезаурусных словарях, необходимая автоматическая коррекция кодов и генерация соответствующих им символов, слов и предложений, возможный вывод текстов на экран для ручной их коррекции и запись текстов в память машины либо исполнение услышанных команд. По характеру распознаваемой речи системы речевого ввода можно разделить на:

-системы, ориентированные на распознавание отдельных слов, команд и вопросов (системами речевого управления);

-системы распознавания предложений и связной речи;

-системы идентификации по образцу речи.

Системы первого типа обеспечивают выполнение компьютерной системой действий, задаваемых голосом. Распространение такие системы получили в автоматических телефонах службах.

Наиболее разработаны системы распознавания чисел, которые можно отнести к средствам распознавания первого поколения. В развитых системах такого рода человек сначала говорит свой числовой пароль, затем свой числовой идентификатор и только после этого может назвать число, кодирующее сущность запроса. К средствам распознавания второго поколения относятся системы распознавания имен. Основаны эти системы на использовании ключевых слов, хранимых в базе данных системы. Существенно сложнее системы третьего поколения, строящие диалог с пользователем с помощью системы голосовых меню. Такие системы основаны на идее обучения: в течение некоторого времени система обучается на большом количестве типовых речевых диалогов. В ходе этого обучения строится рабочий словарь и база данных отношений между отдельными словами.

Системы второй группы делятся на системы раздельной диктовки и системы распознавания связной речи.

Системы раздельной диктовки проще в разработке и технической реализации, но они требуют от пользователя не естественного произнесения фраз с короткой паузой перед каждым следующим словом. Активный словарь системы насчитывает десятки тысяч слов и может пополняться пользователем. В системе дополнительно анализируются частотные характеристики каждой буквы, выделяются и хранятся ее отдельные фонемы (элементы спектра). На основе этого анализа создаются фонетические модели букв и формируемых из них слов. Точность распознавания достигает 90 %, а после проверки по словарю еще значительно повышается. При произнесении связной речи больше сказывается эмоциональная составляющая вводимой информации, и при слитном произношении слов несколько изменяется их звучание — все это, безусловно, затрудняет распознавание. Можно надиктовывать текст (письма, отчеты, статьи) непосредственно в Windows-приложения, открывать и закрывать компьютерные файлы, ориентироваться в пределах рабочего стола. Такие речевые команды, как «file save, fale print, scroll up, scroll down» безошибочно выполняются компьютером. Скорость ввода текста достигает 140 слов в минуту, что намного больше средней скорости ввода информации с клавиатуры.

Идентификация по образцу речи относится к биометрическим технологиям идентификации человека по его уникальным физическим признакам: отпечатки пальцев, рисунок радужной оболочки глаз. Речь, подобно подписи, характеризуется множеством постоянных физических параметров. Цель систем идентификации по образцу речи - идентифицировать конкретного известного системе пользователя и выявить самозванца. Взаимодействие пользователя с системой идентификации состоит из трех этапов:

-регистрации пользователя с целью запоминания особенностей его голоса и формирования для него речевой модели;

-тестирования, во время которого выполняется сравнение поступившего образца речи с запомненной речевой моделью пользователя, а также возможное выявление модели самозванца из базы моделей голосов множества прочих людей;

-допуска к работе в системе, если тестирование прошло успешно и пользователь назвал верный пароль.

Механизм распознавания речи состоит обычно из четырех основных блоков: препроцессора, экстрактора, компаратора, интерпретатора.

Предпроцессор (модуль сбора данных) обеспечивает приведение речевого сигнала к качественному виду. Экстрактор выполняет спектральный анализ сигнала. Акустическо-фонетический поток звуков разбивается на короткие кадры и выявляются спектральные характеристики каждого кадра. Компаратор выполняет акустическое сравнение выявленных характеристик каждого кадра с имеющимися акустическо-фонетическими образцами. Интерпретатор решает задачу наилучшего разбиения полученного компаратора алфавитного потока на слова и фразы.

Системы речевого вывода информации базируются либо на выборке из словаря готовых оцифрованных звуковых последовательностей, либо на синтезаторах речи. Самым простым вариантом является выборка готовых звуковых последовательностей, но ввиду большого размера звуковых файлов, вывод большого числа слов в этом случае практически невозможен. Формирование речевого вывода более функционально полными синтезаторами речи выполняется в несколько этапов. Задачей первого этапа является отфильтровать шумовые символы текста (знаки препинания, кавычки, тире, скобки и т. п.). Эта задача решается модулем нормализации, который также обрабатывает контекстно-зависимые сокращения, форматы дат, времени, денежных единиц и т. д. Модуль преобразования на втором этапе переводит текст из букв в звуки. Модуль анализа выполняет одновременно лексикографическую и синтаксическую обработку для выбора варианта произношения, ритма и интонации. Модуль обработки звука преобразует фонетические данные в звуковые сигналы: генерируемые волновые последовательности (с частотой порядка 10 кГц) модулируются фонетическим потоком. На этой стадии выполняется управление громкостью, скоростью речи, тембром голоса.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1516 / 2016 17 18 19 20 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.05.2025618.5 Кб0Тесты_ЭПТ_без ключей.doc
#
07.08.201928.14 Кб16тех эффективного ощения....18(различные).docx
#
01.04.20251.06 Mб0Технические средства предприятий информационног...doc
#
01.04.2025785.92 Кб0Технические средства предприятий информационног...doc
#
01.04.2025719.36 Кб0Технические средства предприятий информационног...doc
#
01.04.2025584.7 Кб0Технические средства предприятий информационног...doc
#
01.05.202579.71 Mб0Технология по БИЗНЕСУ.doc
#
24.12.201860.99 Кб9Типа курсовая по анализу.docx
#
01.05.20251.09 Mб0Типовой расчет Компл.числ.doc
#
30.10.2018130.56 Кб15Типология агрессивного поведения подростков. О....doc
#
01.03.2025302.49 Кб2Типы рыночных структур.docx