Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
проект2.docx
Скачиваний:
6
Добавлен:
30.04.2019
Размер:
369.42 Кб
Скачать

олимпиада школьников «Шаг в будущее»

Россия, Москва, МГТУ им. Н.Э.Баумана

пятнадцатая научная конференция молодых исследователей «Шаг в будущее, Москва»

регистрационный номер

Факультет: «Информатика и системы управления»

Кафедра: «Информационная безопасность» ИУ-8

Название работы:

«Защита биометрических данных с помощью идентификации голоса»

Научный руководитель: Горшков Юрий Георгиевич, доцент кафедры

«Информационная безопасность»,

кандидат технических наук

Автор: Хожабердиев Вепа Гурбангелдиевич

ГОУ СОШ № 417, 11 класс

Москва, 2012

Содержание

Введение…………………………………………………………………………………………………………………………….. 3

1. Методы идентификации ……………………………………………………………………………………………… 9

1.1. Первый подход ……………………………………………………………………………………………………… 10

1.2. Второй подход ……………………………………………………………………………………………………….. 11

1.3. Характеристики обоих способов …………………………………………………………………………… 13

2. Защита от перехвата парольной фразы ………………………………………………………………………. 13

3. Оценка биометрического метода ……………………………………………………………………………….. 15

3.1. Достоинства …………………………………………………………………………………………………………… 15

3.2. Недостатки ……………………………………………………………………………………………………………. 15

4. Основные способы распознавания речи …………………………………………………………………….. 15

4.1. Распознавание отдельных команд ……………………………………………………………………….. 15

4.2. Распознавание по грамматике ………………………………………………………………………………. 16

4.3. Поиск ключевых слов в потоке слитной речи ………………………………………………………… 16

4.4. Распознавание слитной речи на большом словаре ………………………………………………. 16 5. Синтез речи ………………………………………………………………………………………………………………….. 19

5.1. Тематически заданный синтез ………………………………………………………………………………. 22

5.2. Тематически открытый, универсальный синтез ……………………………………………………. 22

6. Шумоочистка ……………………………………………………………………………………………………………….. 23

2

Введение

Кто из нас не сталкивался с ситуацией, когда, подойдя к своему дому, обнаруживаешь, что ключи от двери забыл, случайно выронил или оставил где-то в толпе большого города.

Что же можно придумать, чтобы избежать таких ситуаций. Чего проще для открытия двери использовать то, что присуще самому человеку: голос, руки, глаза, отпечатки пальцев и т. д. Эти объекты, назовем их биометрическими идентификаторами, принадлежат человеку и являются его неотъемлемой частью. Их нельзя где-то забыть, оставить, потерять. Биометрия основывается на анатомической уникальности каждого человека, и, следовательно, это можно использовать для идентификации личности.

В последнее время быстро возрастает интерес к биометрическим системам идентификации пользователей компьютерных систем. Сферы применения технологий идентификации практически не ограничены. Правительственные и частные организации заинтересованы в технологиях распознавания лиц, поскольку это позволяет повысить уровень защиты секретной и конфиденциальной информации. Компании, работающие в области информационных технологий, заинтересованы в технологиях распознавания отпечатков пальцев, лиц, голоса, радужной оболочки глаза и т. п., чтобы предотвратить проникновение посторонних в их сети.

По словам президента Microsoft Билла Гейтса, «Биометрия в ближайшем будущем обязательно станет важнейшей частью информационных технологий... Технологии идентификации голоса, лица и отпечатков пальцев будут наиболее важными инновационными технологиями в ближайшие несколько лет».

В современном мире один из традиционных способов распознавания речи является идентификация человека по голосу. Это объясняется, с одной стороны, появлением высокопроизводительных вычислительных систем на базе персональных компьютеров и аппаратных средств, позволяющих производить ввод сигнала в компьютер, а, с другой стороны, высокой потребностью систем аутентификации в разных областях жизнедеятельности человека. Как Вы заметили, всё больше проявляется интерес к речевым технологиям. Можно легко узнать собеседника по телефону, не видя его.

Так же можно определить психологическое состояние по эмоциональной окраске голоса. Как не всегда по ответу на вопрос «Кто там?» мы можем определить, что за дверью стоит знакомый человек, и приходится развеивать свои сомнения, заглянув в дверной глазок. Метод опознавания личности по голосу существует с тех пор, как человек научился говорить. Поэтому

3

достоинства и недостатки этого метода известны всем.

Так как голосовая идентификация бесконтактна и не требует от человека особых усилий, ведутся работы по созданию голосовых замков и систем ограничения доступа к информации.

Привлекательность данного метода - удобство в применении. Метод проверки голоса имеет два положительных отличия от остальных биометрических методов. Во-первых, это идеальный способ для телекоммуникационных приложений. Во-вторых, большинство современных компьютеров уже имеют необходимое аппаратное обеспечение. Продукты с проверкой голоса сейчас предлагают более 20 компаний.

Основная проблема - точность идентификации. Однако это не является серьезной проблемой с того момента, как устройства идентификации личности по голосу различают характеристики человеческой речи. Голос формируется из комбинации физиологических и поведенческих факторов. В настоящее время идентификация по голосу используется для управления доступом.

Идентификация по голосу удобный, но в тоже время не такой надежный, как другие биометрические методы. Например, человек с простудой или ларингитом может испытывать трудности при использовании данных систем. Существует также возможность воспроизведения звукозаписи с магнитофона.

Технология распознавания голоса — вероятно, наиболее практичное решение для большинства сетевых приложений, во всяком случае, на данный момент. Системы распознавания голоса анализируют характеристики оцифрованной речи, в том числе ее тон, высоту и ритм.

Несмотря на остающиеся технические вопросы, в частности, на снижение надежности распознавания при наличии шумов, это весьма экономичное решение, так как микрофоны и звуковые карты уже давно получили прописку в сети.

Как известно, источником речевого сигнала служит речеобразующий тракт, который возбуждает звуковые волны в упругой воздушной среде. Сформированный речевой сигнал и передается в пространстве в виде звуковых волн. Приемник сигнала — это датчик звуковых колебаний. Обычно для этих целей используют микрофон - устройство для преобразования звуковых колебаний в электрические. Существует большое количество типов микрофонов (угольные, электродинамические, электростатические, пьезоэлектрические и др.). Но в микрофонах любого типа чувствительным элементом является упругая мембрана,

4

посредством которой передается колебательный процесс под воздействием звуковых волн. Мембрана связана с элементом, который преобразует колебания мембраны в электрический сигнал.

С выхода микрофона сигнал подается на вход звуковой карты персонального компьютера. При записи звуковая карта представляет собой аналого-цифровой преобразователь с широкими возможностями настройки параметров оцифровки. Основными параметрами является частота дискретизации и разрядность кодирования. Данные параметры определяют качество и размер выборки, получаемой в результате записи. Причем размер записи и ее качество прямо пропорциональны, т. е. чем выше качество записи, тем больше ее размер.

Чтобы обеспечить компромисс между качеством и размером, воспользуемся знаниями о свойствах человеческого голоса при выборе параметров аналого-цифрового преобразования.

К настоящему моменту у нас и за рубежом реализованы системы автоматической идентификации по голосу, большинство из которых строятся по единой концептуальной схеме:

производится регистрация пользователя и вычисляется шаблон;

выбираются участки речевого потока для дальнейшего анализа;

осуществляется первичная обработка сигнала;

вычисляются первичные параметры;

строится «отпечаток» (шаблон) голоса;

производится сравнение «отпечатков» голосов и формируется решение по идентичности голосов или «близости» голоса к группе голосов.

Рассмотрим более подробно каждый из этапов.

На этапе регистрации новый пользователь вводит свой идентификатор, например, имя и фамилию, а затем произносит несколько раз ключевое слово или фразу (создаются эталоны). Число повторов ключевой фразы может варьироваться для каждого пользователя, а может быть постоянным для всех. После предварительной обработки фрагменты попарно сравниваются, и на основе их степени сходства вычисляется значение «отпечатка» (шаблона).

Для выбора фрагментов фонограммы, с целью извлечения необходимых параметров, существует несколько подходов. Например, часто применяют метод, в котором используется весь речевой сигнал за исключением пауз. Также существует метод выбора опорных сегментов — наиболее информативных участков речевого сигнала. При этом выбирают

5

наиболее энергетически мощные звуки, т. к. они менее зависимы от шумов и искажений. В основном это гласные и звонкие согласные, произношение которых хорошо отражает работу голосовых связок и речевого тракта. Эти звуки обязательно имеют ярко выраженную неравномерность спектральной характеристики и именно в них выражена индивидуальная особенность мышечной активности речевого тракта личности.

Вероятность присутствия характерных индивидуальных особенностей голоса личности в 18 фонемах русского языка, которая упорядочивает по информативности фонемы русского языка с позиций решения задачи идентификации личности. Фонема — это единица языка, с помощью которой различаются и отождествляются морфемы и тем самым слова (проще говоря - звуки). Наиболее информативны фонемы, расположенные в левой части таблицы. В правой части таблицы помещены фонемы, малоинформативные для целей идентификации личности, так как они позволяют узнавать диктора с вероятностью 0,5 и менее. Эти фонемы могут отражать особенности голоса личности только в сочетании с другими звуками.

В процессе первичной обработки сигнала производится оценка спектральных параметров речи. Первые системы идентификации личности по особенности голоса строились исходя из частотных представлений и возможностей средств аналоговой фильтрации. В основу их работы положена различная тембральная окраска голосов и индивидуальная неравномерность распределения мощности произносимой фразы по частотному спектру. Базовыми процедурами для этого класса устройств являются узкополосная фильтрация сигнала и восстановление его огибающей.

При произношении контрольной фразы система идентификации осуществляет приведение сигнала к единому масштабу амплитуд за счет работы АРУ входного усилителя. Полосовые фильтры и детекторы огибающей их откликов позволяют получить 16 функций времени Al(t),A2(t),...,A16(t)характеризующих распределение энергии звукового сигнала по частотному спектру. Функция A0(t) описывает изменения значения энергии полного сигнала во всем диапазоне звуковых частот. При обучении система запоминает наиболее вероятные эталонные значения функций Ak(t) для конкретной личности и допустимые коридоры отклонений для этих функций.

Первичные параметры речевого сигнала должны обладать следующими свойствами:

отражать индивидуальность диктора;

быть легко и надежно выделяемы из сигнала;

6

мало зависеть от мешающих факторов;

быть инвариантными к эмоциональному и физическому состоянию диктора;

слабо поддаваться имитации.

В качестве первичных параметров обычно используются такие характеристики речевого сигнала, как АЧХ, основной тон, форманты, расстояние между обертонами, формы импульсов возбуждения, длительность отдельных звуков и т. п.

Как правило, при произнесении парольной фразы длительности составляющих ее звуков и пауз между ними могут варьироваться в пределах от 10 до 50%.

Для компенсации временной нестабильности произнесения диктором парольных фраз можно использовать два способа:

подгонка под эталон путем сжатия и растяжения участков, соответствующих отдельным звукам, средствами динамического программирования;

G выделение центра звуковой области и идентификационные измерения в окрестностях центральной части фонемы, тогда абсолютные значения длительностей фонем и пауз между ними не играют существенной роли. По полученным на предыдущем этапе параметрам, исходя из выбранной математической модели, строится «отпечаток» голоса. Далее производится сравнительный анализ отпечатков голосов. Анализировать можно различными способами, начиная от: идентификации голоса многоканальным анализом простых, статистических методов и заканчивая тем, что решение принимается нейросетью и/или сложной системой искусственного интеллекта.

Задача идентификации возникает тогда, когда необходимо найти ближайший голос (или несколько голосов) из фонотеки к рассматриваемой фонограмме. Необходимость автоматизации этой задачи напрямую зависит от количества голосов в фонотеке, уровня эксперта и необходимой оперативности принятия решения.

Обычно после задачи идентификации приходится решать вторую задачу, в которой подтверждается или опровергается принадлежность фонограммы конкретному голосу, т. е. задачу верификации.

Решение задачи идентификации позволяет решать задачу верификации не на всей фонотеке, а только на группе ближайших голосов, что значительно сокращает время обработки фонограммы.

Описанный выше частотный подход к идентификации личности мог быть реализован

7

средствами аналоговой фильтрации уже 30—40 лет назад и именно по этой причине в то время произошел всплеск интереса к этому классу систем голосовой идентификации. По мере развития средств вычислительной техники и методов цифровой фильтрации, интерес к частотным методам идентификации замещается на интерес к системам, применяющим линейные предсказатели речевого сигнала.

Системы идентификации с линейным предсказанием речи используют описание сигнала во временной области.

В основу кодирования речи методом линейного предсказания положена волновая структура речевого сигнала, особенно хорошо наблюдаемая при произношении гласных. ающих волн, возбуждаемых говорящим с периодом основного тона. Соседние волны волновой пачки достаточно похожи друг на друга. Метод линейного предсказания построен на аппроксимации соседних волн в звуковой пачке переходным процессом некоторого линейного цифрового фильтра.

При описании звукового сигнала методом линейного предсказания исходный сигнал разбивают на отдельные интервалы анализа фиксированной длины (обычно длина интервала анализа составляет 20 мс). Далее определяют тип звука внутри интервала.

Структура речевого сигнала парольной фразы анализа (шум или тональный звук). Если внутри интервала находится шумовой участок, тогда определяют только его энергетические параметры. Если внутри интервала анализа присутствует тональный фрагмент, то сигнал дополнительно описывают путем задания коэффициентов линейного предсказателя (линейного цифрового фильтра) и задания периода импульсов основного тона, возбуждающих переходные процессы на выходе линейного предсказателя.

В качестве недостатка биометрических систем идентификации личности по голосу необходимо отметить, прежде всего, то, что парольную фразу трудно сохранить в тайне. Современные средства акустического прослушивания (радиожучки и другие подслушивающие устройства) позволяют достаточно успешно осуществлять несанкционированное копирование парольной фразы. Ожидается, что исключение опасности использования злоумышленниками «магнитофонов» произойдет при переходе к идентификации личности на произвольных фразах. Как потенциальное противодействие «магнитофонам» используют случайный розыгрыш парольных фраз, а также комбинирование с другими методами биометрической аутентификации.

8

1. Методы идентификации

На сегодняшний день существует два подхода к идентификации человека по голосу, построенные на учёте структуры речевого сигнала.

Пример голосовой фразы и выделения из неё 8 фрагментов.

Каждый всплеск голосового сигнала соответствует некоторому фрагменту речи. Это может быть одна буква, сочетание букв (фонема) или короткое слово (то самое слово из трёх букв сюда не относится). Всего в русской речи есть 42 фонемы, но подходят для идентификации человека не все. Часть фонем огласованы. Именно им присущ индивидуальный характер. Это звуки "э", "о", "л", "а", "и" и другие. Другая часть фонем - шипящие (шумоподобные). Это "ц", "ч", "ш", "щ" и т.д. Они не являются индивидуальными и их использование при идентификации может привести к снижению качества распознавания. На рисунке выше синим цветом отмечена огласованная фонема, а красным - шумоподобная.

Ниже - они же, но крупно:

9

Огласованные фрагменты речи имеют явно выраженный периодический характер. Период и характер колебаний индивидуальны. Это хорошо видно на графике:

Чёрной и синей линиями обозначены колебания одной фонемы для одного человека. Красный цветом обозначена фонема от другого человека.

Для одного человека графики очень похожи. У другого человека и период тона и форма внутренних колебаний значительно отличаются.

1.1 Первый подход

Индивидуальные различия распределения мощности сигнала по спектру положены в основу первой категории систем биометрической идентификации по голосу. Они строятся на базе гребёнки узкополосных фильтров, выделяющих из голоса колебания разных частот.

На основании выходных данных можно построить следующий график (амплитудно-частотную характеристику):

10

Полосы пропускания фильтров выбираются при проектировании системы, но они не должны быть слишком узкими, чтобы не зависеть от вариаций частотного спектра голоса. В то же время, они не должны быть и очень широкими. Нужно подбирать оптимальную ширину, достаточную для уверенной идентификации. Обычно используют 16 фильтров, которые расширяются по мере роста значений выделяемых частот. Это связано с нестабильностью высоких частот по энергии (в сравнении с низкими частотами).

Системы спектрального анализа голоса обучаются, запоминая распределение энергий с частотой порядка 35 миллисекунд. В итоге получается большой массив данных, соответствующий фразе (сравнимо с размером *.wav-файла соответствующей продолжительности). Данные снимаются с частотой 16кГц и в 16 разрядов (это связано с особенностями фильтров). После чего они пропускаются через фильтры. Итоговый массив данных выходит очень маленького размера (нужно записать только 16 координат вершин по одной оси).

Для идентификации можно использовать как статистические методы, так и нейронную сеть, что не должно влиять на результат распознавания.

1.2 Второй подход

Использование аппарата линейного предсказания.

Огласованные колебания звука имитируют периодическими ударами по некоторому колебательному звену (колоколу). Период ударов должен точно соответствовать периоду основного тона голоса. Динамические характеристики колокола должны меняться, чтобы получить форму, близку к голосовой фразе.

11

Понятно, что в качестве колокола используется цифровой колебательный фильтра, а не реальный аналог:

Число коэффициентов фильтра колеблется от 10 до 12 (а1,..., а12). Этого достаточно для качественного воспроизведения речи с сохранением индивидуальных особенностей. Коэффициенты линейного предсказателя вычисляются на выборке из 180-220 отсчётов ("ударов"). Вычисление параметров предсказателя (цифрового фильтра) находят решением системы из 10...12 линейных уравнений. Для того, чтобы понизить вычислительную нагрузку частоту дискретизации понижают до 8 кГц.

При имитации огласованных звуков на вход цифрового фильтра подают периодическую последовательность импульсов, промодулированную по амплитуде. В таком случае на выходе фильтра появляются периодические переходные процессы, повторяющие моделируемый звук. При моделировании шипящих на вход фильтра подают случайный шум нужной амплитуды.

При обучении системы, на её вход подают несколько образцов голоса пользователя. Они преобразуются в последовательность импульсов основного тона и соответствующую

12

последовательность коэффициентов линейного предсказателя. Получается массив данных,

описывающий индивидуальные особенности голоса человека для данной фразы. Этот массив из коэффициентов и является тем биометрическим эталоном, который записывается в базу данных.