- •(Конспект лекций)
- •Содержание
- •3 Сосудистая оболочка; 4 радужная оболочка; 5 сетчатка;
- •6 Зрительный нерв; 7 центральная ямка (макула?); 8 хрусталик;
- •9 Слепое пятно; 10 зрачок; 11 стекловидное тело.
- •Квантование изображений
- •2.2. Типы представления изображений
- •2.3. Пиксели, разрешение, размер изображения
- •2.4. Цветовая глубина
- •2.5. Типы изображений
- •2.6. Размер растровых изображений
- •2.7. Форматы данных
- •Распространенные форматы файлов растровой графики
- •Файлы bmp
- •Файлы pcx
- •Файлы tiff
- •Файлы gif
- •Файлы png
- •Файлы jpeg
- •Распространенные форматы файлов растровой графики
- •3.1. Улучшение визуального качества изображений путем поэлементного преобразования
- •3.2. Линейное контрастирование изображения
- •3.3. Соляризация изображения
- •3.4. Препарирование изображения
- •3.5. Преобразование гистограмм, эквализация
- •3.6. Применение табличного метода при поэлементных преобразованиях изображений
- •4.1. Введение в Фурье-преобразование
- •4.2. Двумерное дискретное преобразование Фурье
- •5.1. Оптимальная линейная фильтрация. Уравнение Винера-Хопфа
- •5.2. Масочная (оконная) фильтрация изображений
- •Влияние размера выборки
- •5.3. Медианная фильтрация
- •Сравнение алгоритмов фильтрации
- •6.1. Сегментация изображений
- •6.1.1. Основные принципы сегментации изображений
- •6.1.2. Пороговое ограничение
- •6.1.3. Центроидное связывание
- •6.1.4. Алгоритмы слияния-расщепления
- •6.1.5. Алгоритмы разметки точек смешанного типа
- •6.1.6. Раскраска изображений
- •6.1.7. Сегментация путем выделения границ
- •6.1.8. Подавления шумов
- •6.2. Формализация задач распознавания изображений
- •6.2.1. Распознавание с помощью инвариантных признаков
- •6.2.2. Корреляционные алгоритмы распознавания
- •6.2.3. Распознавание с помощью нормализации
- •7.1. Преобразование изображений – преобразование Хока
- •7.2. Математическая морфология и обработка изображений
- •8.1. Основы цветного зрения
- •8.2. Цветовые модели
- •8.3. Основы цветной печати (цветоделение)
- •Вельтмандер п.В.Учебное пособие "Архитектуры графических систем. Машинная графика" Книга 2
- •Роуз а. Зрение человека и электронное зрение./ Перевод с английского под редакцией в.С.Вавилова. - м.: Мир, 1977
- •9.2. Методы сжатия изображений без потерь
- •9.3. Методы сжатия изображений с потерями
- •9.4. Фрактальное и вейвлетное сжатие изображений
- •9.1. Основы сжатия изображений
- •2N2n элементов, а во втором случае – нечетном косинусном преобразовании,
- •Матрицы Хаара
- •Преобразование Уолша – Адамара можно рассматривать как дискретный аналог непрерывного преобразования по базису, составленному из функций Уолша.
- •Результаты статистических исследований ортогональных преобразований
- •Информационное описание поиска и распознавания объектов
- •10.1. Управление процессами обработки и анализа изображений
- •10.2. Современная технология содержательного поиска в электронных коллекциях изображений
- •11. Обработка аудиоинформации
- •11.2. Цифровое представление звука Цифро-аналоговое и аналого-цифровое преобразование
- •11.3. Восприятие звука человеком
- •Клиппирование речевого сигнала
- •Избыточность речевого сигнала. Вокодер
- •Более сложные методы сжатия
- •Некоторые характеристики технологии mpeg
- •Алгоритм кодирования mpeg
- •Уровни mpeg
- •Intensity stereo coding – в высокочастотных подполосах кодируется суммированный из двух каналов сигнал вместо различных сигналов левого и правого каналов.
- •Технология mp3
- •TwinVq-кодирование
- •Сравнение звуковых форматов
- •12.1. Проблемы, возникающие при распознавании речи
- •12.2. Обзор алгоритмов распознавания речи
- •12.3. Синтез речи
- •12.1. Проблемы, возникающие при распознавании речи
- •12.2. Обзор алгоритмов распознавания речи
- •12.3. Синтез речи
- •12.5. Классификация речевых систем
- •12.6. РЕчевые технологии
- •Рекомендуемая литература Учебная и методическая литература
- •Другие виды литературы
12.6. РЕчевые технологии
Р
ечевые
технологии — область, в которой трудно
ожидать чудес даже на выставке крупнейшего
масштаба. Связанные с речью вопросы
слишком сложны для того, чтобы давать
повод к сенсациям; авторы громких
сообщений на эту тему традиционно быстро
оказываются в неловком положении. От
бодрых математических выкладок речевая
тематика уводит разработчика в дебри
медицинских и психологических проблем,
плавно переходящих в глобальные
философские вопросы. Две ключевые задачи
распознавания речи — достижение
стопроцентной точности на ограниченном
наборе команд хотя бы для одного
дикторского голоса и независимое от
диктора распознавание произвольной
слитной речи с приемлемым качеством —
не решены, несмотря на почти полувековую
историю их разработки. Более того,
существуют сомнения в принципиальной
решаемости обеих задач, поскольку даже
человек не всегда может стопроцентно
распознать речь собеседника.
Если еще относительно недавно речь рассматривалась как сигнал в диапазоне примерно от 300 до 3500 Гц, обладающий рядом характерных свойств (например, наличием пауз между словами), то с точки зрения современных технологий речь – это прежде всего сигнал, исполненный смысла. Нового подхода требуют не только речевое распознавание и синтез, но даже, как оказалось, такая сугубо техническая задача, как сжатие речи. Незадолго до выставки было объявлено о слиянии компаний Dragon Systems и Lernout&Hauspie (L&H). Теперь мировая тройка технологических лидеров, обладающих средствами распознавания слитной английской речи произвольного диктора с неограниченным словарным запасом, выглядит так: IBM, L&H, Philips. Может быть, скоро в этом ряду окажется и Microsoft, имеющая необходимый для разработки речевых технологий потенциал и сделавшая в последние годы несколько громких заявлений. Однако сейчас в основе комплексных решений в области распознавания и обработки речи, выполненных разными фирмами, обычно стоит лицензионный “движок” от IBM или L&H. Кстати, предметом особой гордости L&H, владевшей почти полусотней патентов на технологии распознавания речи еще до слияния с Dragon, является изобретение, позволяющее отличить произносимую вслух команду от диктуемого текста. Благодаря этому программа-диктограф Voice Xpress Professional позволяет не только вводить текст в компьютер путем диктовки, но и немедленно форматировать его с помощью голосовых команд.
Объявленная точность распознавания диктуемого текста программами-лидерами составляет 98%. Но обязательная скромная поправка, всегда размещаемая на листовках как можно незаметнее, — “Individual results may vary” (результаты у разных пользователей могут различаться), говорит об условности этого показателя. По нашим впечатлениям от живых демонстраций программ, реальный уровень распознавания уступает объявленному. Он по-прежнему очень сильно зависит от вариабельности дикторского голоса и зашумленности помещения.
В
сего
в номинации “независимое от диктора
распознавание слитной речи” на CeBIT
выступили 20 компаний: Philips Speech Processing,
Grundig, IBM Deutschland, Linguatec, RC, XCOM, AnNoText, DictaPlus
Digitale, Lernout&Hauspie, Advanced Scientific ASCO, Pipebeach,
Telecats, EveryWare, Weierich, Periphonics Corporation, Arcom,
ASC-Kreutler, Dialogic Telecom Deutschland, Telenet, Temic
Telefunken. Некоторые участники, в том числе
Grundig, IBM, L&H, EveryWare, Dialogic, Telenet и Temic
Telefunken, представили также системы
распознавания речи для индивидуального
диктора.
Обратная распознаванию задача – синтез речи, или Text-to-Speech (TTS), — столь же проста в первом приближении и по-своему не менее сложна по мере достижения вершин. Известно, что синтезированная речь воспринимается человеком хуже, чем живая, причем это особенно заметно при передаче по каналу телефонной связи, т. е. как раз в тех условиях, в которых было бы наиболее заманчиво ее использовать. Тем не менее эксперты отмечают улучшение звучания синтезированной английской речи. В интеллектуальных телефонных системах, таких, как IVR (interactive voice responce) и центры телефонного обслуживания, технологии TTS начинают теснить традиционные наборы записываемых заранее слов и реплик – прежде всего благодаря своей гибкости, простоте переналадки и сокращению требований к объему памяти.
Полные комплексные решения, связанные с обработкой и передачей речи, на CeBIT’2000 демонстрировало около трех десятков компаний. Назовем лишь некоторые из них: Genesys, Prodacta, Panasonic Marketing, Grundig, Intraware, Topcall, Speech Design, Next Level Communications, ITS Telecom, CAE Elektronik, Telenet, Redwood Technologies, Pfordt Elektronik.
Группа российских компаний на объединенном стенде Миннауки России представила, в числе прочего, системы и технологии сжатия и обработки речи. Центр речевых технологий из Санкт-Петербурга, известный как разработчик средств шумоподавления и редактирования звука, показал программы Clear Voice, Sound Cleaner, Speech Interactive Software, Sound Stretcher.
Фирма “ИстраСофт” продемонстрировала экспериментальные программы сжатия речи по новому алгоритму, работа над которым велась последние два года. В основе алгоритма лежит выделение фонем из потока слитной речи в режиме реального времени, их кодирование и последующее восстановление. Хотя слова о фонемной обработке речи произносились на CeBIT’2000 достаточно часто, у разработчиков нет единого мнения о том, что считать фонемой при машинной обработке речи. Способ, предложенный фирмой “ИстраСофт”, допускает сжатие речи в 200 раз, причем при сжатии менее чем в 40 раз качество сигнала в эксперименте практически не падало. По ряду причин, в том числе организационных, новый алгоритм пока не применялся в реальных сетях передачи голоса и данных; тем не менее он вызвал значительный интерес на выставке. Интеллектуальная обработка речи на уровне фонем перспективна не только как способ сжатия, но и как шаг на пути к созданию нового поколения систем распознавания речи. Теоретически машинное распознавание речи, т. е. ее автоматическое представление в виде текста, является именно крайней степенью сжатия речевого сигнала.
Еще одна тенденция последних лет – слияние речевых технологий с лингвистическими. Показателен пример L&H, ставшей действующим лицом в области машинного перевода с момента приобретения фирмы Mendez в 1996 г. После этого к L&H присоединились AILogic Corp. и NeocorTech, специализировавшиеся на машинном переводе с английского на японский и с японского на китайский и обратно, германская фирма Heitmann Group и, наконец, Globalink. Новая версия известной программы-переводчика Power Translator Pro фирмы Globalink вышла уже под маркой L&H.
Продукция
L&H поддерживает в общей сложности 25
языков. Однако еще эффектнее выглядит
программа Universal Translator фирмы LanguageForce
(США). Серия Universal Translator включает четыре
системы машинного перевода, работающие
с MS Office, имеющие функции распознавания/синтеза
речи и проверки орфографии; при этом
Universal Translator 2000 Professional переводит с 40
языков: арабский, китайский (упрощенный
и традиционный варианты), чешский,
датский, нидерландский, английский
британский и американский, эсперанто,
фарси, финский, французский (канадский
и европейский варианты), немецкий,
греческий, иврит, венгерский, итальянский,
индонезийский, латинский, японский,
корейский, норвежский, польский,
португальский (бразильский и европейский
варианты), румынский, русский, словацкий,
испанский (латиноамериканский и
европейский варианты), суахили, шведский,
тагальский, тайский, турецкий, украинский,
вьетнамский, зулусский. Для Universal
Translator 2000 Professional объявлена возможность
перевода в любом направлении для любой
языковой пары. Нетрудно подсчитать, что
число таких пар составляет 1560. Кроме
того, программа записывает текст под
диктовку, читает вслух и проверяет
грамотность написанного. Вместе с
переводчиком поставляются две обучающие
игры Space Attack и WortTris, которые должны,
по-видимому, окончательно с
разить
потребителя и конкурентов.
Машинный перевод – небесспорная технология, тем более в сочетании с распознаванием речи, и остается только догадываться, каким окажется качество полученного на выходе текста. Вместе с тем совершенно очевидно, что рядовой пользователь как в США, так и в России скорее всего не станет проверять качество машинного перевода со словацкого на зулусский. Как и распознавание речи, машинный перевод относится к тем культовым технологиям, в которых, по словам классика, главное – мечта. Интерес к ним постоянно подогревается бесчисленными трудами писателей-фантастов, поэтому попытки создать продукт, точно соответствующий представлениям обывателя о технологиях завтрашнего дня, неудивительны и коммерчески вполне успешны. К тому же замечено, что душу пользователя согревает сама возможность подобных переводов независимо от того, будет ли она когда-либо применена. А лучшим электронным переводчиком для языковой пары русский – английский на данный момент все равно остается пакет фирмы “ПроМТ”.
Лингвистический анализ текста – обязательная стадия процесса автоматического ввода текста под диктовку. Без этой стадии современное качество распознавания не могло бы быть достигнуто, и многие эксперты связывают перспективы речевых систем именно с дальнейшим развитием содержащихся в них лингвистических механизмов. Как следствие, речевые технологии делаются все более зависимыми от языка, с которым работают. В сфере распознавания слитной речи зависимость стала абсолютной, что подтверждается, в частности, отрицательным опытом локализации программного пакета фирмы Dragon Systems для русского языка (имеется в виду система “Горыныч”, не показавшая объявленного качества распознавания и к настоящему времени почти забытая). Однако и в других областях работы с речью, включая TTS и даже механизмы редактирования и сжатия, специфика языка все более дает себя знать. А значит, распознавание, синтез и обработка русской речи являются той нишей, занять которую должны именно российские разработчики.
Развитие речевых технологий в России
Компания COGNITIVE TECHNOLOGIES (www.cognitive.ru) представила результаты реализации крупного речевого коркаса для русского языка RuSpeech, по сути являющегося базой данных содержащей фрагменты непрерывной русской речи, снабженные текстом, фонетической транскрипцией и дополнительной информацией о дикторе и обстоятельствах записи. Проект был проинвестирован корпорацией Intel (www.intel.ru) в рамках ее академической программы в России. Отрывки для речевого корпуса зачитывали 220 дикторов, каждый в среднем произнес около 250 предложений. В итоге в RuSpeech вошло более 50 тыс. предложений (общий объем речевой базы 15 Гб), прослушивание которых занимает примерно 50 часов. По размерам RuSpeech несколько раз привысила популярные речевые базы английского языка WSJ Speech и TIMIT. Более того, в работе принимали участие ведущие специалисты в области фонетики во главе с профессором филологического факультета МГУ Ольгой Кривновой, которые анализировали каждый заносимый в RuSpeech речевой фрагмент и по мере надобности вручную исправляли автоматически предлагаемую для тестового предложения фонетическую разметку на ту, что реально получилась при произношении.
Какова цель создания речевой базы RuSpeech? Опыт разработки систем распознавания речи для английского языка показал, что главным фактором успеха является не построение хитроумных теоретических моделей для анализа голоса, а наличие крупных речевых баз для тестирования стандартных апробированных методов, так как качество распознавания зависит от представительности обучающего корпуса. Именно в этом аспекте Россия до недавнего времени сильно отставала от Запада, где уже в 80-х годах в рамках государственного проекта под эгидой DAPRA были созданы первые крупные речевые корпуса для английского языка.
"Перспективность разработок в области речевых технологий (см. таблицу), а также отсутствие качественных систем распознавания русской речи побудили компанию Intel инвестировать средства в проект создания русскоязычных речевых систем", – прокомментировал происходящее Камиль Исаев, менеджер Intel по работе с правительственными и образовательными учреждениями, – "сейчас в Intel рассматривается вопрос о предоставлении RuSpeech для свободного использования, а так же обсуждаются различные кандидатуры для создания промышленной системы распознавания русской речи".
Оценки объема рынка речевых технологий:
КОМПАНИЯ |
ОБЪЕМ РЫНКА, долл. |
|
2000 г. |
2006 г. |
|
Datamonitor (www.datamonitor.com) о мировом рынке |
650 млн. |
5,6 млрд. |
Radicati Group (www.radicati.com) о рынке голосовых порталов |
194 млн. |
> 5 млрд. |
Cognitive Technologies о объеме рынка в России |
– |
2 000 млн. |
Положение в России
К сожалению, распространенные зарубежные системы распознавания речи русский язык не поддерживают. Правда, уже упоминавшиеся платы Dialogic в число используемых европейских и некоторых азиатских языков включают и русский, но их возможностей хватает только на речевой ввод телефонных номеров и построение простейших голосовых меню. Намерение включить поддержку русского языка в свои продукты неоднократно выражали многие производители, в том числе и Dragon Systems, но дальше этих заявлений дело так и не пошло.
В этих условиях своеобразной сенсацией стал выход в 1997 году на коммерческий рынок знаменитого "Горыныча" - адаптации Dragon; Dictate Naturally Speaking, проведенной силами малоизвестной до того российской компании White Group - официального дистрибьютора Dragon Systems. Программа оказалась вполне работоспособной, а ее стоимость - весьма умеренной.
Многие фирмы приобретали пакет просто в качестве некой продвинутой игрушки для своих сотрудников. К сожалению, основой для российского "звероящера" послужила уже устаревшая вторая версия Dragon Dictate, не поддерживающая распознавание слитной речи. Кроме того, программа требует длительной "тренировки" и настройки на конкретного пользователя, очень капризна к оборудованию, более чем чувствительна к интонации и скорости произнесения фраз, возможности ее "обучения" весьма разнятся для различных голосов. Да и вообще созданная для распознавания английской речи программа не может учитывать всей специфики русского произношения.
По всей видимости, положение на отечественном рынке ПО для распознавания речи (если вообще можно говорить о таковом) напоминает недавнюю ситуацию с оптическим распознаванием текста. Только специализированные отечественные продукты,изначально ориентированные именно на русский язык, смогут по-настоящему решить ту задачу, что ни по силам ни "Горынычу", ни "Комбату" (еще один продукт той же фирмы White Group).
Не случайно лидеры отечественного рынка программ OCR (распознавания печатных текстов), которыми являются ABBYY (BIT Software) и Cognitive Technologies, заявили о ведущихся ими в области распознавания русской речи разработках. ABBYY работает над проектом NLC, связанным с естественно-языковой обработкой распознаваемых текстов. Cognitive Technologies на выставке "Комтек'97" уже демонстрировала систему со словарным запасом в 500 слов, распознающую речь независимо от произношения диктора, причем на 1999 год намечено завершить создание дикторо независимой системы распознавания слитной речи, к тому же устойчивой к внешнему шуму.
Пока же технология распознавания речи российскими разработчиками применяется в основном в интерактивных обучающих системах и играх вроде "Мой говорящий словарь", "Talk to Me" или "Профессор Хиггинс", а целью их использования являются контроль произношения у изучающих английский язык и аутентификация пользователя. Еще одно остроумное применение технологии распознавания речи позволяет весьма ощутимо сжимать файлы с диктофонными записями или \ посланиями звуковой почты.
Будущее систем распознавания речи
Важная задача, которая стоит перед создателями речевых технологий, - выработка единого стандарта на API-интерфейс (Applications Programming Interface), который должен связывать приложения и обеспечивать своевременную передачу управляющих функций. Такой стандарт должен не только позволять строить приложения на базе какой-либо распространенной операционной системы, имеющей соответствующие встроенные функции (первой такой ОС стала, как уже упоминалось, OS/2 Warp), но и обеспечивать переносимость систем распознавания речи на другие ОС.
Современное ПО для распознавания слитной речи, как правило, не только снабжается собственными текстовыми редакторами,но и способно встраиваться в популярные программы, среди которых MS Word, Excel, Lotus Smart Suite Millennium Edition (Lotus Development) и Word Perfect Suite (Corel). Кроме того, оно позволяет получить доступ к любому
С другой стороны, производители офисных программ стали включать в состав своего ПО системы распознавания речи, как правило, от IBM (Smart Suite), Dragon Dictate (Word Perfect Suite) или Lernout&Hauspie. Ожидалось, что Microsoft, не только давно интересующаяся речевыми технологиями, но и, помимо собственных разработок, вложившая в сентябре 1997 г. 45 млн. дол. в Lernout&Hauspie, включит поддержку распознавания речи в Office 2000 и Windows 2000, но, судя по бета-версиям соответствующих пакетов, этого пока не произойдет. Глава корпорации Билл Гейтс заявил, что считает речевые технологии еще не готовыми для массового применения.
Несмотря на все достижения последних лет, средства для распознавания слитной речи еще допускают большое количество ошибок, нуждаются в длительной настройке, требовательны к аппаратной части и к квалификации пользователя и отказываются работать в зашумленных помещениях (а это важно как для шумных офисов, так и для мобильных систем и эксплуатации в условиях телефонной связи).
Ф. Уоссермен «Нейрокомпьютерная техника: Теория и практика». /Перевод на русский язык Ю. А. Зуев, В. А. Точенов, М., Мир, 1992. (имеется электронный вариант /Doc/Нейрокомпьютерная техника)
Винцюк Т.К. «Анализ, распознавание и интерпретация речевых сигналов» /Киев: Наук. думка, 1987. -262 с.
Э.М.Куссуль «Ассоциативные нейроподобные структуры» /Киев, Наукова думка, 1990 (имеется электронный вариант /Doc/Ассоциативные нейроподобные структуры/)
Киедзи Асаи, Дзюндзо Ватада, Сокуке Иваи и др. Прикладные нечеткие системы. Под редакцией Т.Тэрано, К. Асаи, М. Сугено. Издательсгво 'Мир' Москва 1993г.
Л. Рабинер, Б. Гоулд. Теория и применение цифровой обработки сигналов. Издательство 'Мир' Москва 1978г.
Предлагается пройти тест для самоконтроля (Тест 12) на усвоение материала.
