- •(Конспект лекций)
- •Содержание
- •3 Сосудистая оболочка; 4 радужная оболочка; 5 сетчатка;
- •6 Зрительный нерв; 7 центральная ямка (макула?); 8 хрусталик;
- •9 Слепое пятно; 10 зрачок; 11 стекловидное тело.
- •Квантование изображений
- •2.2. Типы представления изображений
- •2.3. Пиксели, разрешение, размер изображения
- •2.4. Цветовая глубина
- •2.5. Типы изображений
- •2.6. Размер растровых изображений
- •2.7. Форматы данных
- •Распространенные форматы файлов растровой графики
- •Файлы bmp
- •Файлы pcx
- •Файлы tiff
- •Файлы gif
- •Файлы png
- •Файлы jpeg
- •Распространенные форматы файлов растровой графики
- •3.1. Улучшение визуального качества изображений путем поэлементного преобразования
- •3.2. Линейное контрастирование изображения
- •3.3. Соляризация изображения
- •3.4. Препарирование изображения
- •3.5. Преобразование гистограмм, эквализация
- •3.6. Применение табличного метода при поэлементных преобразованиях изображений
- •4.1. Введение в Фурье-преобразование
- •4.2. Двумерное дискретное преобразование Фурье
- •5.1. Оптимальная линейная фильтрация. Уравнение Винера-Хопфа
- •5.2. Масочная (оконная) фильтрация изображений
- •Влияние размера выборки
- •5.3. Медианная фильтрация
- •Сравнение алгоритмов фильтрации
- •6.1. Сегментация изображений
- •6.1.1. Основные принципы сегментации изображений
- •6.1.2. Пороговое ограничение
- •6.1.3. Центроидное связывание
- •6.1.4. Алгоритмы слияния-расщепления
- •6.1.5. Алгоритмы разметки точек смешанного типа
- •6.1.6. Раскраска изображений
- •6.1.7. Сегментация путем выделения границ
- •6.1.8. Подавления шумов
- •6.2. Формализация задач распознавания изображений
- •6.2.1. Распознавание с помощью инвариантных признаков
- •6.2.2. Корреляционные алгоритмы распознавания
- •6.2.3. Распознавание с помощью нормализации
- •7.1. Преобразование изображений – преобразование Хока
- •7.2. Математическая морфология и обработка изображений
- •8.1. Основы цветного зрения
- •8.2. Цветовые модели
- •8.3. Основы цветной печати (цветоделение)
- •Вельтмандер п.В.Учебное пособие "Архитектуры графических систем. Машинная графика" Книга 2
- •Роуз а. Зрение человека и электронное зрение./ Перевод с английского под редакцией в.С.Вавилова. - м.: Мир, 1977
- •9.2. Методы сжатия изображений без потерь
- •9.3. Методы сжатия изображений с потерями
- •9.4. Фрактальное и вейвлетное сжатие изображений
- •9.1. Основы сжатия изображений
- •2N2n элементов, а во втором случае – нечетном косинусном преобразовании,
- •Матрицы Хаара
- •Преобразование Уолша – Адамара можно рассматривать как дискретный аналог непрерывного преобразования по базису, составленному из функций Уолша.
- •Результаты статистических исследований ортогональных преобразований
- •Информационное описание поиска и распознавания объектов
- •10.1. Управление процессами обработки и анализа изображений
- •10.2. Современная технология содержательного поиска в электронных коллекциях изображений
- •11. Обработка аудиоинформации
- •11.2. Цифровое представление звука Цифро-аналоговое и аналого-цифровое преобразование
- •11.3. Восприятие звука человеком
- •Клиппирование речевого сигнала
- •Избыточность речевого сигнала. Вокодер
- •Более сложные методы сжатия
- •Некоторые характеристики технологии mpeg
- •Алгоритм кодирования mpeg
- •Уровни mpeg
- •Intensity stereo coding – в высокочастотных подполосах кодируется суммированный из двух каналов сигнал вместо различных сигналов левого и правого каналов.
- •Технология mp3
- •TwinVq-кодирование
- •Сравнение звуковых форматов
- •12.1. Проблемы, возникающие при распознавании речи
- •12.2. Обзор алгоритмов распознавания речи
- •12.3. Синтез речи
- •12.1. Проблемы, возникающие при распознавании речи
- •12.2. Обзор алгоритмов распознавания речи
- •12.3. Синтез речи
- •12.5. Классификация речевых систем
- •12.6. РЕчевые технологии
- •Рекомендуемая литература Учебная и методическая литература
- •Другие виды литературы
12.1. Проблемы, возникающие при распознавании речи
12.2. Обзор алгоритмов распознавания речи
Ввод речи и цифровая обработка
Предварительная обработка и выделение первичных признаков
Выделение примитивов речи
Распознавание сложных звуков, слов, фраз
12.3. Синтез речи
12.4. Проблемы создания многоуровневой системы распознавании речи
12.5. Классификация речевых систем
Первое направление - распознавание речи
Второе направление - определение индивидуальности говорящего
Третье направление - синтез речи
Четвертое направление - компрессия речи
12.6. Речевые технологии
Развитие речевых технологий в России
Положение в России
Будущее систем распознавания речи
12.7. Ссылки и литература для дальнейшего изучения
12.8. Задание
Задачу распознавания речи считают средоточием всех задач искусственного интеллекта. При построении систем распознавания речи охватывается очень широкий круг вопросов: от построения датчиков, позволяющих вводить речь в компьютер, до сложнейших баз данных, позволяющих использовать смысловую нагрузку речи и распознавать слова в контексте целых предложений и фраз. При этом отдельные задачи в этой области далеко не тривиальны.
Существующие системы распознавания речи можно классифицировать по разным признакам.
По назначению:
командные системы,
системы диктовки текста.
По потребительским качествам:
диктороориентированные (тренируемые на конкретного диктора),
дикторонезависимые,
распознающие отдельные слова,
распознающие слитную речь.
По механизмам функционирования:
простейшие (корреляционные) детекторы,
экспертные системы с различным способом формирования и обработки базы знаний,
вероятностно-сетевые модели принятия решения, в том числе нейронные сети.
12.1. Проблемы, возникающие при распознавании речи
Во-первых, звуки речи различаются по длительности. Один и тот же звук, но произнесенный в разных словах, значительно варьируется по длительности. Например, длительность звука а в слове сад составляет 250-300 мс, а в слове садовод около 60 мс. Опытным путем установлена постоянная времени человеческого слуха, т.е. минимальная длительность звука, при которой ухо может проанализировать, узнать это звук. Эта величина равняется приблизительно 30-50 мс.
Во-вторых, желательно, чтобы система распознавания речи была независима от диктора. Но голоса отдельных людей очень сильно отличаются друг от друга, так что решение этой проблемы является непростой задачей.
В-третьих, речь даже одного человека подвержена сильным изменениям в результате разного эмоционального состояния говорящего. При этом может меняться темп речи, высота, ширина динамического диапазона (вариации по частоте и громкости).
В-четвертых, при распространении звука в пространстве он подвергается довольно сильным искажениям. Такие эффекты, как эхо, реверберация, изменение спектрального состава в результате неоднородного поглощения звука в среде, и т.д., очень сильно искажают звук.
Очевидно, что о простой записи слов в базу данных и последующем распознавании речи путем сравнения с записанными образцами не может быть и речи. Два временных представление звука речи даже для одного и того же человека, записанные в один и тот же момент времени, не будут совпадать. Необходимо искать такие параметры речевого сигнала, которые полностью описывали бы его (т.е. позволяли бы отличить один сигнал от другого), но были бы инвариантны относительно описанных выше вариаций речи. Полученные таким образом параметры должны затем сравниваться с образцами, причем это должно быть не простое сравнение на совпадение, а поиск наибольшего соответствия. Это вынуждает искать нужную форму расстояния в найденном параметрическом пространстве.
При определении объема хранимых системой данных также возникают определенные трудности. Как записать практически бесконечное число вариаций звуков речи в отведенный размер памяти? Очевидно, что здесь не обойтись без какой-либо формы статистического усреднения. Ещё одна проблема – уменьшение быстродействия системы при обработке большого количества данных, а ведь распознавание речи в большинстве случаев должно происходить в реальном времени!
Использование нейросетевых алгоритмов позволяет решить большинство перечисленных проблем.
