
- •Корягин н.Д. Учебное пособие по курсу «Технические средства информатизации»
- •Тема 1. Введение. Базовая конфигурация персонального компьютера.
- •Тема 2. Процессоры
- •Тема 3. Материнские платы. Чипсеты.
- •Тема 4. Основная память. Кэш-память. Видеокарты. Видеопроцессоры
- •Тема 5. Накопители на магнитных и оптических носителях. Флэш-память
- •Тема 6. Звуковоспроизводящие системы. Средства распознавания речи. Виды корпусов и блоков питания. Системы охлаждения
- •Тема 7. Устройства вывода. Устройства ввода информации
- •Тема 8. Устройства передачи и приёма информации. Нестандартные периферийные устройства. Многофункциональные устройства
- •Тема 9. Выбор оптимальной конфигурации оборудования в соответствии с решаемой задачей. Ресурсо- и энергосберегающие технологии использования вычислительной техники
- •Тема 1. Введение. Базовая комплектация персонального компьютера
- •1.1. История развития вычислительной техники
- •1. Устройства ввода информации.
- •6. Многофункциональные устройства.
- •1.2. Классификация вычислительной техники
- •1.3. Классификация персональных компьютеров
- •1.3.1. Различные подклассы персональных компьютеров
- •1.4. Характеристики компьютеров
- •1.5. Устройство персонального компьютера
- •1.6. Базовая аппаратная конфигурация компьютера
- •Тема 2. Процессоры
- •2.1. Основные характеристики центрального процессора
- •2.2. Технология изготовления процессоров
- •2.3. Типы процессоров
- •2.4. Процессоры, выпускаемые различными фирмами - производителями
- •2.4.1. Процессоры, выпускаемые фирмой Intel
- •2.4. 2. Процессоры, выпускаемые фирмой amd
- •Тема 3. Материнские платы. Чипсеты.
- •3.1. Материнская плата – основные понятия и определения
- •1. Звуковая карта.
- •3.2. Основные параметры материнской платы
- •3.3. Рациональный выбор материнской платы
- •3. 4. Системный интерфейс
- •3.5. Чипсеты
- •3.5.1. Чипсеты компании Intel
- •3.5.2. Чипсеты компании nvidia
- •3.5.3. Чипсеты компании SiS
- •3.5.4. Чипсеты компании via
- •3.5.5. Чипсеты ati
- •3.5.6. Чипсеты компании uLi
- •Тема 4. Основная память. Кэш-память. Видеокарты. Видеопроцессоры
- •4.1. Основная память
- •4.2. Оперативная память
- •4.2.1. Модули оперативной памяти
- •4.4. Видеопроцессоры
- •4.5. Видеокарты
- •4. 5. 1. Технологии повышения реалистичности трёхмерного изображения
- •Тема 5. Накопители на магнитных и оптических
- •5.1. Накопители на жёстких магнитных дисках
- •5.1.1. Интерфейсы
- •5.1.2. Производители жёстких дисков
- •5.2. Raid-массивы и их классификация
- •5.3. Накопители на оптических дисках
- •5.3.1. Оптические носители
- •5.4. Флэш – память
- •Тема 6. Звуковоспроизводящие системы. Средства распознавания речи. Виды корпусов и блоков питания. Системы охлаждения
- •6.1. Звуковая карта
- •6.1.1. Интегрированная звуковая подсистема
- •6.2. Средства распознавания речи
- •6.3. Корпус персонального компьютера
- •6.4. Блоки питания
- •6.5. Системы охлаждения
- •Тема 7. Устройства ввода. Устройства вывода
- •7. 1. Устройства ввода информации
- •Клавиатура персонального компьютера
- •7.1.3. Сканеры
- •Устройства вывода
- •7.2.1. Монитор
- •7.2.2. Принтеры
- •7.2.3. Плоттеры
- •7.2.4. Средства мультимедиа
- •Тема 8. Устройства передачи и приёма информации.
- •8.1. Устройства передачи и приёма информации
- •8.1.1. Модемы
- •8.1.2. Сетевые адаптеры
- •Нестандартные устройства ввода
- •8.3. Многофункциональные устройства
- •Тема 9. Выбор оптимальной конфигурации оборудования ресурсо- и энергосберегающие технологии использования вычислительной техники
- •9.1. Понятие сбалансированной конфигурации персонального компьютера
- •9.1. 1. Выбор оптимальной конфигурации персонального компьютера
- •9. 2. Тестирование компьютеров
- •9.2. 1. Примеры выбора оптимальной конфигурации различных типов компьютеров
- •9.3. Технологии, поддерживаемые процессорами
- •9. 4. Выбор операционной системы для персонального компьютера
6.2. Средства распознавания речи
Существуют две технологии речевого общения с компьютером:
- системы распознавания речи;
- системы синтеза речи.
В системах распознавания речи выполняется оцифровка звуковой информации, ее идентификация с кодами, содержащимися в электронных тезаурусных (иногда многоязычных) словарях, необходимая автоматическая коррекция кодов и генерация соответствующих им символов, слов и предложений, возможный вывод текстов на экран для ручной их коррекции (иногда звуковое воспроизведение) и запись текстов в память машины либо исполнение «услышанных» команд.
По характеру распознаваемой речи системы речевого ввода можно разделить на:
- системы, ориентированные на распознавание отдельных слов, команд и вопросов;
- системы распознавания предложений и связной речи;
- системы идентификации по образцу речи.
Системы, ориентированные на распознавание отдельных слов, команд и вопросов часто называют системами речевого управления, поскольку их основная задача - обеспечить выполнение компьютером действий, задаваемых голосом.
Наибольшее распространение такие системы получили в автоматических телефонных службах. В них можно ввести голосом номер телефона вызываемого абонента или его имя; можно задать простой вопрос автоматической справочной службе и т. д.
Наиболее разработаны системы распознавания чисел, которые можно отнести к средствам распознавания первого поколения. В развитых системах такого рода человек сначала сообщает свой числовой пароль, затем свой числовой идентификатор, и только после этого может назвать число, кодирующее сущность запроса.
К средствам второго поколения относятся системы распознавания имен. Основаны эти средства на использовании ключевых слов (имен), хранимых, естественно, в базе данных системы. Множество хранимых слов и ограничивает возможные имена (при вызове телефонного абонента, например) и распознаваемые команды и вопросы. Система Voice Commands компании KurzWeil Applied Intelligence позволяет распознавать около 10 000 слов английского языка, которые после идентификации преобразуются в соответствующие ASCII-последовательности и либо исполняются машиной (если это команды), либо заносятся в файл. Система компании Charles Schwab & Co., специализирующейся на предоставлении брокерских услуг участникам фондового рынка, при обработке более 10 000 названий и десятков видов ценных бумаг обеспечивает при распознавании 95-процентную точность (что, конечно, недостаточно, но количество клиентов этой справочной службы не убывает).
Существенно сложнее строятся системы третьего поколения, в которых диалог с пользователем реализуется с помощью голосовых меню. Такие системы основаны на идее обучения: в течение некоторого времени система обучается на большом количестве типовых речевых диалогов (включающих, кстати, и слова-паразиты).
В ходе этого обучения создается рабочий словарь и база данных отношений между отдельными словами (база знаний). Примером системы третьего поколения может служить Natural Dialogue System фирмы Philips, используемая швейцарской железнодорожной компанией Swiss Railways для справочной системы, обслуживающей не только железнодорожные, но и автобусные маршруты и паромные переправы.
Системы распознавания предложений и связной речи
Средства мультимедиа этой группы делятся на:
- системы раздельной диктовки;
- системы распознавания связной речи.
Системы раздельной диктовки проще в разработке и технической реализации, но они требуют от пользователя не совсем естественного произнесения фраз -с короткой паузой перед каждым следующим словом. К таким системам относятся, например, Via Voice корпорации IBM, Dragon Dictate фирмы Dragon System. Последняя система позволяет, наряду с прочим, непосредственно надиктовывать текст в программы Word, Word Perfect, Internet Explorer, Netscape Navigator и т. д. Активный словарь системы насчитывает десятки тысяч слов и может пополняться пользователем, скажем, по его профессиональной тематике. В системе дополнительно анализируются спектральные (частотные) характеристики каждой буквы, выделяются и хранятся ее отдельные фонемы (элементы спектра). На основе этого анализа создаются фонетические модели букв и формируемых из них слов. Точность распознавания достигает 90%, а после проверки по словарю еще значительно повышается.
Наиболее сложные проблемы возникают при распознавании связной речи. При произнесении связной речи больше сказывается эмоциональная составляющая вводимой информации, и при слитном произношении слов несколько изменяется их звучание - всё это, безусловно, затрудняет распознавание.
Наиболее совершенными системами распознавания слитных текстов можно считать системы распознавания речи: Dragon Naturally Speaking компании Dragon Systems, ViaVoice корпорации IBM и Wildfire фирмы Wildfire Communications, Voice Xpress фирмы Lernout&Hauspie Speech Products. Названные системы позволяют обычно после длительной «тренировки» программы надиктовывать «своим» ПК тексты и отдельные команды, иногда даже разным операторам. Так, система ViaVoice позволяет многие виды работ на компьютере выполнять в речевом режиме. Можно надиктовывать текст (письма, отчеты, статьи) непосредственно в Windows-приложения, открывать и закрывать компьютерные файлы, ориентироваться в пределах рабочего стола. Такие речевые команды, как file save, file print, scroll up, scroll down безошибочно выполняются компьютером. Скорость ввода текста достигает 140 слов в минуту, что намного больше средней скорости ввода информации с клавиатуры.
Системы идентификации по образцу речи
Идентификация по образцу речи относится к биометрическим технологиям идентификации человека по его уникальным физическим признакам, таким как отпечатки пальцев, рисунок радужной оболочки глаз. Речь, подобно подписи, характеризуется множеством постоянных физических параметров (которые, кстати, существенно меньше меняются со временем, чем внешность человека).
Цель систем идентификации по образцу речи - идентифицировать конкретного известного системе пользователя и выявить самозванца.
Взаимодействие пользователя с системой идентификации состоит из трёх этапов:
- регистрации пользователя с целью запоминания особенностей его голоса и формирования для него речевой модели;
- тестирования, во время которого выполняется сравнение поступившего образца речи с запомненной речевой моделью пользователя, а также возможное выявление модели самозванца из базы моделей голосов множества прочих людей;
- допуска к работе в системе, если тестирование прошло успешно и пользователь назвал верный пароль.
Механизм распознавания речи включает в себя обычно четыре основных блока:
- препроцессор;
- экстрактор;
- компаратор;
- интерпретатор.
Препроцессор или модуль сбора данных обеспечивает приведение речевого сигнала к наиболее качественному виду (производится автоматическая регулировка усиления, подавление эхо-сигнала, фиксация наличия или отсутствия речи и интонационного выделения конца фразы и т. п.).
Экстрактор выполняет спектральный анализ сигнала. Акустико-фонетический поток звуков разбивается на короткие кадры (длительностью примерно по 10 мс) и выявляются спектральные характеристики каждого кадра.
Компаратор выполняет акустическое сравнение выявленных характеристик каждого кадра с имеющимися акустико-фонетическими образцами. Сравнение производится на уровнях выявления контекстно-независимых фонем, контекстно-зависимых фонем и моделей слов.
Интерпретатор решает задачу наилучшего разбиения полученного от компаратора «алфавитного» потока на слова и фразы.
Системы синтеза речи
Системы речевого вывода информации базируются либо на выборке из словаря готовых оцифрованных звуковых последовательностей, либо на синтезаторах речи. Самым простым вариантом является выборка готовых звуковых последовательностей (как в автоответчике), но ввиду большого размера звуковых файлов вывод большого числа слов в этом случае практически невозможен. В таких простых системах часто используются меню, по которым пользователь может выбрать те высказывания, которые он бы хотел услышать. При наличии нужных записей в базе данных их текст озвучивается. Такие системы находят применение, например, в будильниках, в автомобильных навигационных системах и т. д.
Формирование речевого вывода более функционально выполняется полными синтезаторами речи в несколько этапов.
Задачей первого этапа является фильтрация шумовых символов текста (знаков препинания, кавычек, тире, скобок и т. п.). Эта задача решается модулем нормализации, который также обрабатывает контекстно-зависимые сокращения, форматы дат, времени, денежных единиц и т. д.
Модуль преобразования на втором этапе переводит текст из орфографического в фонетический формат (из букв в звуки). Для некоторых языков, например для английского, это непростой процесс, поскольку многие слова произносятся не по буквам, а по особым правилам произношения отдельных буквенных сочетаний.
Модуль анализа выполняет одновременно лексикографическую и синтаксическую обработку для выбора варианта произношения, ритма и интонации.
Фонетический модуль, получив от модуля анализа фонетическое представление исходного текста, обогащает звучание речи дифтонгами, трифтонгами, четырёх- звучиями и другими полезными составляющими.
Модуль обработки звука преобразует фонетические данные в звуковые сигналы: генерируемые волновые последовательности (с частотой порядка 10 кГц) модулируются фонетическим потоком. На этой стадии выполняется управление громкостью, скоростью речи, тембром голоса.
Среди программ синтеза речи можно назвать шведскую систему Infovox, систему Monologue английской фирмы First Byte, систему Pro Verbe компании Elan Informatique и др.