
- •1 Разработка информационной системы (ее структуры, информационного, алгоритмического и математического обеспечения)
- •Современное состояние исследований и разработок в области информационных систем распознавания речи
- •1.1.1 1950-1965Гг.: Начало исследований
- •1.1.2 1970-Е: Системы постепенно приобретают популярность
- •1.1.3 1980-Е: Распознавание речи оправдывает прогнозы
- •1.1.4 1990-Е: Автоматическое распознавание речи получает широкое распространение
- •1.1.5 2000-Е: Застой в распознавании речи
- •Способы и этапы распознавания речи
- •Современные программные продукты для распознавания голосовых команд
- •ViaVoice (компания «ibm»)
- •Моделирование процесса распознавания голосовых команд
- •Моделирование информационной системы распознавания голосовых команд
- •Выводы по разделу
Моделирование процесса распознавания голосовых команд
Обобщенный процесс распознавания голосовых команд представлен на рисунке 1.1. В начале работы на экран выводится главное окно, и пользователь выбирает режим работы программы. После этого на динамик микрофона подается звуковой сигнал, за который отвечает подсистема ввода сигнала. Если выбран режим создания эталона, за который отвечает подсистема хранения базы данных (БД) голосовых команд и их идентификации, то программа обрабатывает и сохраняет входной сигнал с микрофона. Если же выбран режим распознавания, то программа обрабатывает результаты и сравнивает с заранее записанным эталоном в БД, сохраняет входной сигнал и переходит к его распознаванию с помощью программного продукта (Глава 1.4.), результат распознавания выводится на дисплей.
Таким образом, в структуре информационной системы голосового управления персональным компьютером можно выделить подсистемы: ввода информации, цифровой обработки сигналов, идентификации и базы данных голосовых команд – каждой из которых присущи свои задачи, методы, алгоритмы.
Рисунок 1.1 – обобщенное представление процесса распознавания голосовых команд
Моделирование информационной системы распознавания голосовых команд
В данном разделе требуется разработать модель работы информационной системы распознавания голосовых команд средствами UML 8.0 (англ. Unified Modeling Language – унифицированный язык моделирования) – язык графического описания для объектного моделирования в области разработки программного обеспечения.
1.5.1 Бизнес-модель системы
Модель распознавания голосовых команд представлена на рисунке 1.2.
В рамках бизнес-модели были выделены следующие действующие лица:
Пользователь – лицо, которое обладает доступом к основной функциональности системы, т.е. может осуществлять ввод информации в систему, заполнение БД системы, просмотр результата анализа данных.
Администратор расширяет права пользователя, он имеет возможность настраивать систему (изменять БД, конфигурировать аппаратную часть системы, настраивать режимы работы и т.д.).
База данных – является внутренним компонентом системы, представляет собой хранилище эталонов сигналов.
Микрофон – осуществляет прием голосовых команд.
Рисунок 1.2 – бизнес-модель распознавания голосовых команд
Описание вариантов использования (рисунок 1.2 и рисунок 1.3) представлено в таблицах с 1.3 по 1.12.
Таблица 1.3 - Сценарий 1
Вариант использования |
Получение голосовых команд |
Актеры |
Пользователь, микрофон |
Цель |
Получение данных о текущей команде |
Тип |
Базовый |
Типичный ход событий:
|
Таблица 1.4 - Сценарий 2
Вариант использования |
АЦП голосовых команд |
Актеры |
Микрофон |
Цель |
Аналого-цифровое преобразование голосовых команд |
Тип |
Включенный |
Типичный ход событий:
|
Таблица 1.5 - Сценарий 3
Вариант использования |
Цифровая обработка голосовых команд |
Актеры |
Пользователь |
Цель |
Шумоочистка сигнала |
Тип |
Базовый |
Типичный ход событий:
|
Таблица 1.6 - Сценарий 4
Вариант использования |
Фильтрация сигнала |
Актеры |
Пользователь |
Цель |
Выделение информативной части сигнала |
Тип |
Включенный |
Типичный ход событий:
|
Таблица 1.7 - Сценарий 5
Вариант использования |
Архивация результатов обработки |
Актеры |
Пользователь |
Цель |
Сохранение обработанных данных |
Тип |
Базовый |
Типичный ход событий:
|
Таблица 1.8 - Сценарий 6
Вариант использования |
Шифрование данных |
Актеры |
Пользователь |
Цель |
Шифрование и дешифрование пакетов данных, передаваемых по каналу связи |
Тип |
Включенный |
Типичный ход событий:
|
Таблица 1.9 - Сценарий 7
Вариант использования |
Хранение данных (БД) |
Актеры |
Пользователь |
Цель |
Формирование библиотеки голосовых команд |
Тип |
Включенный |
Типичный ход событий:
|
Таблица 1.10 - Сценарий 8
Вариант использования |
Идентификация голосовых команд |
Актеры |
Пользователь |
Цель |
Определение вероятности совпадения веденного сигнала с БД |
Тип |
Базовый |
Типичный ход событий:
|
Таблица 1.11 - Сценарий 9
Вариант использования |
Получение вектора признаков |
Актеры |
Пользователь |
Цель |
Формирование признаков сигнала |
Тип |
Включенный |
Типичный ход событий:
|
Таблица 1.12 Сценарий 10
Вариант использования |
Аппаратная и программная настройка |
Актеры |
Пользователь, администратор |
Цель |
Настройка ПО и аппаратной части системы |
Тип |
Базовый |
Типичный ход событий:
|
1.5.2 Функциональная модель
На основе бизнес-модели системы распознавания голосовых команд и, выделения основных её функций, была разработана функциональная модель.
Данная модель показывает варианты использования проектируемой системы, заключенные в границу системы, и внешних актеров, а также определенные отношения между актерами и вариантами использования.
Модель (рисунок 1.3) позволяет определить общие границы функциональности проектируемой системы в контексте моделируемой предметной области, специфицировать требования к функциональному поведению проектируемой системы, разработать исходную концептуальную модель системы для ее последующей детализации в форме логических и физических моделей, а также подготовить исходную документацию для взаимодействия разработчиков системы с ее заказчиками и пользователями.
Рисунок 1.3 – функциональная модель
Создание системы такого класса следует проводить в соответствии со следующими требованиями:
1) Требования к подсистеме ввода данных
Входными данными для подсистемы сбора является голосовая команда (сигнал) пользователя. Рассматриваются звуковые сигналы с частотой в диапазоне от 300 Гц до 4000 Гц.
Основной задачей при вводе данных является аналого-цифровое преобразование сигнала, а так же передача данных в подсистему цифровой обработки информации. Обосновать технические характеристики АЦП.
2) Требования к подсистеме цифровой обработки данных
В подсистеме цифровой обработки данных необходимо обеспечить:
первичную обработку с помощью фильтра нижних частот;
– обработку винеровским фильтром для выделения более четкого сигнала.
3) Требования к подсистеме идентификации и хранения информации
Подсистема идентификации и хранения информации в активном режиме должна определять вероятность совпадения входного сигнала с заложенной библиотекой голосовых команд; быть оборудована оперативной памятью, используемой для хранения текущих измерений, промежуточных результатов расчетов и анализа.
4) Требования к оптимизации
Провести анализ качества работы информационной системы голосового управления персональным компьютером и определить точность работы подсистемы идентификации. Спланировать и провести эксперимент, позволяющий определить оптимальную оценку отдельных параметров.
5) Требования по экономическому обоснованию
Проанализировать экономическую целесообразность создания предприятия, специализирующегося на выпуске информационной системы распознавания речи. Произвести расчет основных показателей, отображающих экономическую выгоду от привлечения заемных средств для реализации проекта.
6) Требования по безопасности, защищенности и надежности
Система должна удовлетворять требованиям безопасности, надежности и защищенности. В рамках подсистемы ввода данных требования включают обеспечение защищенности и безопасности путем реализации шифрования передачи данных между устройствами.