- •«Системы автоматизированной подготовки производства в информационно-вычислительной технике» введение в автоматизированное проектирование
- •Системный подход к проектированию. Понятие инженерного проектирования
- •Система конструирования)
- •Стадии технологической подготовки производства
- •I. Техническое задание
- •III. Рабочая документация:
- •Стратегия создания автоматизированных систем технологической подготовки производства
- •Моделирование в технологической подготовке производства
- •Стадии жизненного цикла изделий
- •Использование виртуальной реальности в астпп
- •Основные понятия и определения
- •Области применения имитационных моделей
- •Основные теоретические положения имитационного моделирования
- •Целевая функция. Стоимость всех перевозок определяется как сумма произведений стоимости перевозок единицы товара на количество перевозимого по маршруту груза:
- •Методика решения транспортной задачи Задачи имитационного моделирования решаются итерационными методами (методами приближений). Решение транспортной задачи проводят в два этапа.
- •Построение опорного плана
- •Алгоритм метода потенциалов
- •Предварительное планирование в астпп
- •Графовые математические модели Основные понятия теории графов
- •Элементы сетевого графа в применении к технологии машиностроения
- •Методы представления и расчета сетевых графиков
- •Правила оформления и обозначения рассчитанных значений на графе и в таблицах при комбинированном методе расчета
- •Модели, применяемые для реализации технологий виртуального прототипирования
- •Модели теории игр
- •Формы представления игр
- •Число полков у полковника Блотто – 4;
- •Математическая модель задачи со смешанной стратегией для а имеет вид:
- •Модели распознавания образов
- •Признаковое пространство
- •Распознавание речи
- •Виды систем
- •Модели систем массового обсуживания
- •Основные параметры систем массового обслуживания
- •1. Неустановившийся режим
- •2. Установившийся режим
- •Определение вероятности системы
- •Искусственный интеллект
- •Когнитивное моделирование
- •Агентно-ориентированный подход
- •Хранение и обработка знаний
- •Язык и нотация
- •Теоретические аспекты получения знаний
- •Психологический аспект
- •Лингвистический аспект
- •Общий код
- •Инженер по знаниям
- •Гносеологический аспект
- •Методы приобретения знаний.
- •Обучение по аналогии.
- •Проектирование технологических процессов
- •Проектирование технологических маршрутов
- •Технология изготовления деталей на оборудовании с чпу
- •Влияние числового управления на основные фазы производственного процесса
- •При конструировании
Распознавание речи
Распознавание речи – процесс преобразования речевого сигнала в цифровую информацию (напр., текстовые данные). Обратной задачей является синтез речи.
Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры.
Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.
Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Например, приложение Microsoft Voice Command позволяет работать со многими приложениями при помощи голоса (можно включить воспроизведение музыки в плеере или создать новый документ).
Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения позволяет снизить нагрузку на операторов контакт-центров и секретарей, сократить расходы на оплату труда и повышение производительности систем обслуживания.
В последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нем может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.
Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: 1) чрезмерная чувствительность к шумам и 2) необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.
Виды систем
На сегодня существует два типа систем распознавания речи — работающие «на клиенте» (client-based) и по принципу «клиент-сервер» (client-server). При использовании клиент-серверной технологии речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (Google Voice, Vlingo, пр.); ввиду большого количества пользователей сервера система распознавания получает большую базу для обучения. Первый вариант работает на иных математических алгоритмах и встречается редко (Speereo Software) — в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки «на клиенте» в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая «на клиенте» кажется надежнее, но ограничивается, порой, мощностью устройства на стороне пользователя.
Сейчас применяется также технология SIND (без привязки к голосу конкретного человека).
Методы распознавания речи
В существующих системах используются два принципиально разных подхода:
распознавание голосовых меток (по образцу);
распознавание лексических элементов
Первый подход предполагает распознавание фрагментов речи по заранее записанному образцу. Этот подход широко используется в относительно простых системах, предназначенных для исполнения заранее записанных речевых команд.
При реализации второго подхода из потока речи выделяются отдельные лексические элементы – фонемы и аллофоны, которые затем объединяются в слоги и морфемы. Именно этот подход и используется в «настоящих» системах распознавания речи.
Все системы распознавания речи можно разделить на два класса:
системы, зависимые от диктора, которые настраиваются на речь диктора в процессе обучения (для работы с другим диктором такие системы требуют полной перенастройки);
системы, не зависимые от диктора, которые не требуют предварительного обучения и способны распознавать речь любого диктора.
Создание систем распознавания речи любого класса, пригодных для промышленного применения, представляет собой очень сложную задачу. Как правило, разработчики таких систем обладают многолетним опытом в практическом применении речевых технологий.
Распознавание по образцу
Системы с голосовым управлением применяются в современных мобильных телефонах и компьютерных клавиатурах. Но качество распознавания меток зависит от уровня шума в окружающей среде.
Технология распознавания фрагментов по заранее записанным образцам применяется и во многих программах, позволяющих подключить голосовое управление к операционной системе Microsoft Windows и ее приложениям. При использовании этих программ можно запускать приложения, переключаться между ними, выбирать строки из меню и щелкать кнопки диалоговых окон, отдавая голосовые команды и не притрагиваясь руками к клавиатуре или мыши. Возможно, такие программы и не ускорят работу с приложениями для обычных людей, но они отчасти помогут инвалидам, неспособным использовать стандартные средства общения с компьютером.
Эта технология работает достаточно хорошо, если телефоном пользуется только один человек, а общее количество голосовых меток не превышает десяток-другой. При обучении своего телефона (или клавиатуры с голосовым интерфейсом) реагировать на определенный голос, то только обладатель этого голоса может пользоваться речевыми метками. Таким образом, эти системы относятся к классу систем, зависимых от диктора.
Выделение лексических элементов
Далее в этой главе мы сосредоточим свое внимание на подходе к созданию систем распознавания речи, основанном на выделении из речи лексических элементов, таких как фонемы и аллофоны (фонема – основная единица звукового строя языка, аллофоны – все звуки, реализующие определенную фонему).
Проводя осциллографические исследования, невозможно выделить из речи фонемы и аллофоны, анализируя только форму огибающей звукового сигнала. Нельзя также ограничиться составлением базы данных из записей звуковых сигналов всех фонем, аллофонов и других лексических элементов для последующего сравнения формы сигналов в процессе распознавания. Здесь нужны более сложные методы, требуется обработка звуковых сигналов, которая проводится в несколько этапов.
Предварительная обработка звуковых сигналов
Перед тем как предпринимать попытки распознавания речи, нужно выполнить предварительную обработку речевого сигнала. В ходе этой обработки следует:
удалить шумы и посторонние сигналы, частотный спектр которых находится вне спектра человеческой речи, при помощи аналоговых или цифровых полосовых фильтров;
оцифровать отфильтрованный звуковой сигнал, выполнив аналого-цифровое преобразование;
нормализовать уровень сигнала, что позволяет уменьшить погрешности распознавания, связанные с тем, что диктор может произносить слова с разным уровнем громкости.
Всю предварительную обработку звукового сигнала можно сделать при помощи стандартного звукового адаптера, установленного в компьютере. Дополнительная цифровая обработка звукового сигнала (например, частотная фильтрация) может выполняться центральным процессором компьютера. Таким образом, при использовании современных персональных компьютеров системы распознавания речи не требуют для своей работы какого-либо специального аппаратного обеспечения.
Если входной звуковой сигнал имеет слишком малый уровень громкости, то после нормализации может появиться шум. Поэтому для успешной работы системы распознавания речи необходимо отрегулировать оптимальным образом чувствительность микрофона. Чрезмерная чувствительность может привести к нелинейным искажениям сигнала и, как следствие, к увеличению погрешности распознавания речи.
Выделение информативных признаков речевого сигнала
Как говорилось ранее, информации об амплитуде и форме огибающей речевого сигнала не достаточно для выделения из речи лексических элементов. В зависимости от различных обстоятельств форма огибающей речевого сигнала может меняться в широких пределах, что затрудняет задачу распознавания.
Для решения задачи распознавания необходимо выделить первичные признаки речи, которые будут использованы на последующих этапах процесса распознавания. Первичные признаки выделяются посредством анализа спектральных и динамических характеристик речевого сигнала.
Спектральное представление речи
Для выделения информативных признаков речевого сигнала используется спектральное представление речи. При этом на первом этапе осуществляется получение частотного спектра речевого сигнала с помощью набора программных полосовых фильтров.
На втором этапе выполняются преобразования полученного спектра речевого сигнала:
логарифмическое изменение масштаба в пространстве амплитуд и частот;
сглаживание спектра с целью выделения его огибающей;
·кепстральный анализ, т.е. обратное преобразование Фурье от логарифма прямого преобразования.
Эти преобразования позволяют учитывать такие особенности речевого сигнала, как понижение информативности высокочастотных участков спектра, логарифмическую чувствительность человеческого уха, и т.д.
Учет динамики речи
Помимо спектральных характеристик, необходимо учитывать и динамические особенности речи. Для этого используют дельта-параметры, представляющие собой производные по времени от основных параметров.
При этом можно отслеживать не только изменение параметров речи, но и скорость их изменения.
Выделение фонем и аллофонов
Обучение выделению примитивов речи (фонем и аллофонов) может заключаться в формировании нейронных ансамблей, ядра которых соответствуют наиболее частой форме каждого примитива.
Формирование нейронных ансамблей представляет собой процесс обучения нейронной сети без учителя, при котором происходит статистическая обработка всех сигналов, поступающих на вход нейронной сети. При этом формируются ансамбли, соответствующие наиболее часто встречающимся сигналам. Запоминание редких сигналов происходит позже.
Уровни распознавания слитной речи
Распознавание слитной речи представляет собой многоуровневый процесс. После предварительной обработки речевого сигнала и выделения из него информативных признаков выполняется выделение лексических элементов речи. Это первый уровень распознавания.
На втором уровне выделяются слоги и морфемы (морфема – значащая часть слова), на третьем – слова, предложения и сообщения.
На каждом уровне сигнал кодируется представителями предыдущих уровней. То есть слоги и морфемы составляются из фонем и аллофонов, слова – из слогов и морфем, предложения и сообщения – из слов.
На третьем уровне проводится смысловой контроль текста.
При переходе с уровня на уровень помимо представителей сигналов передаются и некоторые дополнительные признаки, временные зависимости и отношения между сигналами. Собирая сигналы с предыдущих уровней, высшие уровни располагают большим объемом информации (или её другим представлением), и могут осуществлять управление процессами на низших уровнях.
Применение нейронных сетей для распознавания речи
После выделения информативных признаков речевого сигнала можно представить эти признаки в виде некоторого набора числовых параметров. Далее задача распознавания примитивов речи (фонем и аллофонов) сводится к их классификации при помощи обучаемой нейронной сети.
Нейронные сети можно использовать и на более высоких уровнях распознавания слитной речи для выделения слогов, морфем и слов.
При обучении сети с учителем можно научить сеть распознавать объекты, принадлежащие заранее определенному набору классов. Если же сеть обучается без учителя, то она может группировать объекты по классам в соответствии с их цифровыми параметрами.
Таким образом, на базе нейронных сетей можно создавать обучаемые и самообучающиеся системы. К самообучающимся системам предъявляются следующие требования.
Разработка системы заключается только в построении архитектуры системы. В процессе создания системы разработчик создает только функциональную часть, но не наполняет (или наполняет в минимальных объемах) систему информацией. Основную часть информации система получает в процессе обучения.
Возможность контроля своих действий с последующей коррекцией. Этот принцип говорит о необходимости в системе обратной связи Действие-Результат-Коррекция.
Возможность накопления знаний об объектах рабочей области. Количество знаний об объекте определяется не только набором его свойств, но ещё и информацией о его взаимодействии с другими объектами, поведении при различных воздействиях, нахождении в разных состояниях, и т.д., т.е. его поведении во внешнем окружении. Это свойство наделяет систему возможностью абстрагирования от реальных объектов, т.е. возможностью анализировать объект при его отсутствии, открывая тем самым новые возможности в обучении.
Автономность системы. При интеграции комплекса действий, которые система способна совершать, с комплексом датчиков, позволяющих контролировать свои действия и внешнюю среду, система будет способна адекватно реагировать на изменение внешнего окружения. Способность корректировать свое поведение в зависимости от внешних условий позволяет частично или полностью устранить необходимость контроля извне, т.е. система становится автономной.
Возможность создания на базе искусственных нейронных сетей самообучающихся систем является важной предпосылкой для их применения в системах распознавания (и синтеза) речи.
Нейронные сети можно использовать и более высоких уровнях распознавания слитной речи для выделения слогов, морфем и слов.
Генетические алгоритмы
Возможность изменения алгоритма работы нейронной сети простым изменением ее архитектуры позволяют решать задачи совершенно новым способом, с помощью так называемых генетических алгоритмов.
При использовании генетических алгоритмов создаются правила отбора, позволяющие определить, лучше или хуже справляется новая нейронная сеть с решением задачи. Кроме того, определяются правила модификации нейронной сети.
Изменяя достаточно долго архитектуру нейронной сети и отбирая те архитектуры, которые позволяют решить задачу наилучшим образом, рано или поздно можно получить верное решение задачи.
Генетические алгоритмы обязаны своим появлением эволюционной теории (отсюда и характерные термины: популяция, гены, родители-потомки, скрещивание, мутация). Таким образом, существует возможность создания таких нейронных сетей, которые ранее не изучались исследователями (или не поддаются аналитическому изучению), но, тем не менее, успешно решают задачу.
Техника распознавания речи находится в постоянном развитии. Чтобы всегда быть в курсе событий, следите за публикациями в Интернете и периодической печати. Не исключено, что скоро будут разработаны новые, более совершенные методы распознавания речи.
