- •(Конспект лекций)
- •Содержание
- •3 Сосудистая оболочка; 4 радужная оболочка; 5 сетчатка;
- •6 Зрительный нерв; 7 центральная ямка (макула?); 8 хрусталик;
- •9 Слепое пятно; 10 зрачок; 11 стекловидное тело.
- •Квантование изображений
- •2.2. Типы представления изображений
- •2.3. Пиксели, разрешение, размер изображения
- •2.4. Цветовая глубина
- •2.5. Типы изображений
- •2.6. Размер растровых изображений
- •2.7. Форматы данных
- •Распространенные форматы файлов растровой графики
- •Файлы bmp
- •Файлы pcx
- •Файлы tiff
- •Файлы gif
- •Файлы png
- •Файлы jpeg
- •Распространенные форматы файлов растровой графики
- •3.1. Улучшение визуального качества изображений путем поэлементного преобразования
- •3.2. Линейное контрастирование изображения
- •3.3. Соляризация изображения
- •3.4. Препарирование изображения
- •3.5. Преобразование гистограмм, эквализация
- •3.6. Применение табличного метода при поэлементных преобразованиях изображений
- •4.1. Введение в Фурье-преобразование
- •4.2. Двумерное дискретное преобразование Фурье
- •5.1. Оптимальная линейная фильтрация. Уравнение Винера-Хопфа
- •5.2. Масочная (оконная) фильтрация изображений
- •Влияние размера выборки
- •5.3. Медианная фильтрация
- •Сравнение алгоритмов фильтрации
- •6.1. Сегментация изображений
- •6.1.1. Основные принципы сегментации изображений
- •6.1.2. Пороговое ограничение
- •6.1.3. Центроидное связывание
- •6.1.4. Алгоритмы слияния-расщепления
- •6.1.5. Алгоритмы разметки точек смешанного типа
- •6.1.6. Раскраска изображений
- •6.1.7. Сегментация путем выделения границ
- •6.1.8. Подавления шумов
- •6.2. Формализация задач распознавания изображений
- •6.2.1. Распознавание с помощью инвариантных признаков
- •6.2.2. Корреляционные алгоритмы распознавания
- •6.2.3. Распознавание с помощью нормализации
- •7.1. Преобразование изображений – преобразование Хока
- •7.2. Математическая морфология и обработка изображений
- •8.1. Основы цветного зрения
- •8.2. Цветовые модели
- •8.3. Основы цветной печати (цветоделение)
- •Вельтмандер п.В.Учебное пособие "Архитектуры графических систем. Машинная графика" Книга 2
- •Роуз а. Зрение человека и электронное зрение./ Перевод с английского под редакцией в.С.Вавилова. - м.: Мир, 1977
- •9.2. Методы сжатия изображений без потерь
- •9.3. Методы сжатия изображений с потерями
- •9.4. Фрактальное и вейвлетное сжатие изображений
- •9.1. Основы сжатия изображений
- •2N2n элементов, а во втором случае – нечетном косинусном преобразовании,
- •Матрицы Хаара
- •Преобразование Уолша – Адамара можно рассматривать как дискретный аналог непрерывного преобразования по базису, составленному из функций Уолша.
- •Результаты статистических исследований ортогональных преобразований
- •Информационное описание поиска и распознавания объектов
- •10.1. Управление процессами обработки и анализа изображений
- •10.2. Современная технология содержательного поиска в электронных коллекциях изображений
- •11. Обработка аудиоинформации
- •11.2. Цифровое представление звука Цифро-аналоговое и аналого-цифровое преобразование
- •11.3. Восприятие звука человеком
- •Клиппирование речевого сигнала
- •Избыточность речевого сигнала. Вокодер
- •Более сложные методы сжатия
- •Некоторые характеристики технологии mpeg
- •Алгоритм кодирования mpeg
- •Уровни mpeg
- •Intensity stereo coding – в высокочастотных подполосах кодируется суммированный из двух каналов сигнал вместо различных сигналов левого и правого каналов.
- •Технология mp3
- •TwinVq-кодирование
- •Сравнение звуковых форматов
- •12.1. Проблемы, возникающие при распознавании речи
- •12.2. Обзор алгоритмов распознавания речи
- •12.3. Синтез речи
- •12.1. Проблемы, возникающие при распознавании речи
- •12.2. Обзор алгоритмов распознавания речи
- •12.3. Синтез речи
- •12.5. Классификация речевых систем
- •12.6. РЕчевые технологии
- •Рекомендуемая литература Учебная и методическая литература
- •Другие виды литературы
12.5. Классификация речевых систем
В настоящее время можно выделить четыре сравнительно изолированных направления в области развития речевых технологий.
Первое - распознавание речи
Т.е. преобразование речевого акустического сигнала в цепочку символов, слов. Эти системы могут быть охарактеризованы по ряду параметров. Прежде всего это объем словаря: малые объемы до 20 слов, большие - тысячи и десятки тысяч. Количество дикторов: от одного до произвольного. Стиль произнесения: от изолированных команд до слитной речи и от чтения до спонтанной речи. Коэффициент ветвления, т.е. величина, определяющая количество гипотез на каждом шаге распознавания: от малых величин (<10-15) до больших (~100-200). Отношение сигнал/шум от больших (>30 дб) до низких (<10 дб). Качество каналов связи: от высококачественного микрофона до телефонного канала. Качество работы ситем распознавания речи обычно характеризуется надежностью распознавания слов, или , что то же самое , процентом ошибок).
В последние годы наблюдается активное развитие автоматического распознавания речи. Основной показатель (процент ошибок в распознавании слов) уменьшается приблизительно в два раза каждые два года. Для распознавания цифр, произносимых слитно произвольными дикторами по телефону, достигнут уровень ~0,3% ошибок. Для диалоговых систем (несколько тысяч слов) для произвольного диктора достигнут уровень ошибки в несколько процентов.
Второе направление - определение индивидуальности говорящего
Эти системы прежде всего делятся на 2 класса: верификация говорящего (т.е. подтверждение его личности) и идентификация говорящего (т.е. определение его личности из заранее ограниченного числа людей). Оба эти класса далее могут быть разделены на тексто-зависимые и тексто-независимые. Следующий характеристический параметр - объем парольной фразы. Два других (как и в распознавании речи): отношение сигнал/шум и качество канала связи. Качество работы систем верификации, идентификации говорящего характеризуется 2-мя величинами: вероятностью не опознания "своего" диктора и вероятностью принятия "чужого" диктора за своего.
Здесь наблюдается столь же быстрый процесс, что и для систем распознавания речи. Вероятность суммарной ошибки при верификации говорящего в телефонном канале и по короткой парольной фразе составляет ~1%.
Третье направление - синтез речи
Практически существует два класса:
воспроизведение записанной в той или иной форме ограниченного числа сообщений и
синтез речи по тексту.
Характеризуются синтезаторы по следующим параметрам:
разборчивость (словесная или слоговая)
естественность звучания,
помехоустойчивость.
Уровень синтеза речи, сравнимого с естественной речью, достигнут уже несколько лет назад.
Четвертое направление - компрессия речи
Основной (и единственный) классификационный признак этих систем - степень компрессии: от низкой (32-16 кбит/сек) до высокой (1200-2400 кбит/сек и ниже). Качество работы систем компрессии речи характеризуются прежде всего разборчивостью компрессированной речи. Дополнительными характеристиками очень важными в ряде приложений являются узнаваемость голоса говорящего и возможность определения уровня стрессованности говорящего.
В настоящее время можно считать достигнутым уровень компрессии 1200 бит/сек. при удовлетворительной разборчивости и узнаваемости говорящего (хотя следует отметить, что для определения узнаваемости нет стандартных методик).
