Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Semestrovaya_rabota.docx
Скачиваний:
119
Добавлен:
14.03.2016
Размер:
69.67 Кб
Скачать

Параметрический синтез

Параметрический синтез речи является конечной операцией в вокодерных системах, где речевой сигнал представляется набором небольшого числа непрерывно изменяющихся параметров. Параметрический синтез целесообразно применять в тех случаях, когда набор сообщений ограничен и изменяется не слишком часто. Достоинством такого способа является возможность записать речь для любого языка и любогодиктора. Качество параметрического синтеза может быть очень высоким (в зависимости от степени сжатия информации в параметрическом представлении). Однако параметрический синтез не может применяться для произвольных, заранее не заданных сообщений.

Предметно-ориентированный синтез

Предметно-ориентированный синтез компилирует слова, записанные заранее, а также фразы для создания полных речевых сообщений. Он используется в приложениях, где многообразие текстов системы будет ограничено определенной темой/областью, например объявления об отправлении поездов и прогнозы погоды. Эта технология проста в использовании и достаточно долго применялась в коммерческих целях: ее так же применяли при изготовлении электронных приборов, таких как говорящие часы и калькуляторы. Естественность звучания этих систем потенциально может быть высокой благодаря тому, что многообразие видов предложений ограничено и близко с соответствием интонацией исходных записей. А так как эти системы ограничены выбором слов и фраз в базе данных, они в дальнейшем не могут иметь широкое распространение в сферах деятельности человека, лишь потому, что способны синтезировать комбинации слов и фраз, на которые они были запрограммированы.

Полный синтез речи по правилам

Полный синтез речи по правилам (или синтез по печатному тексту) обеспечивает управление всеми параметрами речевого сигнала и, таким образом, может генерировать речь по заранее неизвестному тексту. В этом случае параметры, полученные при анализе речевого сигнала, сохраняются в памяти так же, как и правила соединения звуков в слова и фразы. Синтез реализуется путём моделирования речевого тракта, применения аналоговой или цифровой техники. Причём в процессе синтезирования значения параметров и правила соединения фонем вводят последовательно через определённый временной интервал, например 5—10 мс. Метод синтеза речи по печатному тексту (синтез по правилам) базируется на запрограммированном знании акустических и лингвистических ограничений и не использует непосредственно элементы человеческой речи. В системах, основанных на этом способе синтеза, выделяется два подхода. Первый подход направлен на построение модели речепроизводящей системы человека, он известен под названием артикуляторного синтеза. Второй подход — формантный синтез по правилам. Разборчивость и натуральность таких синтезаторов может быть доведена до величин, сравнимых с характеристиками естественной речи.

Синтез речи по правилам с использованием предварительно запомненных отрезков естественного языка — это разновидность синтеза речи по правилам, которая получила распространение в связи с появлением возможностей манипулирования речевым сигналом в оцифрованной форме. В зависимости от размера исходных элементов синтеза выделяются следующие виды синтеза:

  • микросегментный (микроволновый);

  • аллофонический;

  • дифонный;

  • полуслоговой;

  • слоговой;

  • синтез из единиц произвольного размера.

Обычно в качестве таких элементов используются полуслоги — сегменты, содержащие половину согласного и половину примыкающего к нему гласного. При этом можно синтезировать речь по заранее не заданному тексту, но трудно управлять интонационными характеристиками. Качество такого синтеза не соответствует качеству естественной речи, поскольку на границах сшивки дифонов часто возникают искажения. Компиляция речи из заранее записанных словоформ также не решает проблемы высококачественного синтеза произвольных сообщений, поскольку акустические и просодические (длительность и интонация) характеристики слов изменяются в зависимости от типа фразы и места слова во фразе. Это положение не меняется даже при использовании больших объёмов памяти для хранения словоформ.

Предметно-ориентированный синтез

Предметно-ориентированный синтез компилирует слова, записанные заранее, а также фразы для создания полных речевых сообщений. Он используется в приложениях, где многообразие текстов системы будет ограничено определенной темой/областью, например объявления об отправлении поездов ипрогнозы погоды. Эта технология проста в использовании и достаточно долго применялась в коммерческих целях: ее так же применяли при изготовлении электронных приборов, таких как говорящие часы и калькуляторы. Естественность звучания этих систем потенциально может быть высокой благодаря тому, что многообразие видов предложений ограничено и близко с соответствием интонацией исходных записей. А так как эти системы ограничены выбором слов и фраз в базе данных, они в дальнейшем не могут иметь широкое распространение в сферах деятельности человека, лишь потому, что способны синтезировать комбинации слов и фраз, на которые они были запрограммированы.

Система анализа текста

Системный анализ возник в эпоху разработки компьютерной техники. Успех его применения при решении сложных задач во многом определяется современными возможностями информационных технологий. Н. Н. Моисеев приводит, по его выражению, довольно узкое определение системного анализа: «Системный анализ — это совокупность методов, основанных на использовании ЭВМ и ориентированных на исследование сложных систем — технических, экономических, экологических и т.д. Результатом системных исследований является, как правило, выбор вполне определенной альтернативы: плана развития региона, параметров конструкции и т. д. Поэтому истоки системного анализа, его методические концепции лежат в тех дисциплинах, которые занимаются проблемами принятия решений: исследование операций и общая теория управления».

Анализ текста — процесс получения высококачественной информации из текста на естественном языке. Как правило, для этого применяется статистическое обучение на основе шаблонов: входной текст разделяется с помощью шаблонов, затем производится обработка полученных данных.

Чтобы выделить необходимые структуры при автоматическом анализе, надо пройти несколько последовательных этапов:

1) Исходный текст

2) Преданализ

3) морфологический анализ

4) поверхностный синтаксический анализ

5) глубинный синтаксический анализ

6) поверхностный семантический анализ

7) глубинный семантический анализ

8) прагматический анализ

9) выявление текстовых структур.

Указанные этапы охватывают всю задачу анализа текстов на естественном языке. Необходимость в исполнении тех или иных этапов при анализе конкретного текста зависит от тех целей, для которых тот анализ осуществляется.

В компьютерной лингвистике проблемы синтеза текстов сейчас находятся в центре внимания исследователей, и нет сомнений, что в ближайшее время будут найдены эффективные средства для создания текстов на заданную тему.

Это одно из самых молодых направлений в компьютерной лингвистике - это оживление текста. Своим появлением оно обязано персональным компьютерам, которые впервые дали возможность организовать общение с пользователем не только путем обмена текстами, но и посредством зрительных образов на экране дисплея. Одной из особенностей мышления человека (едва ли не основной для возможности самого мышления) является его разномодальность. Психологи пользуются этим термином, чтобы подчеркнуть, что наши представления об окружающем мире и о нас самих могут иметь различную природу (различную модальность). Можно "мыслить словами", но можно представлять себе какие-то зрительные картинки, как часто бывает во снах. Есть люди, для которых многие воспоминания состоят из запахов или вкусовых впечатлений. Словом, все наши органы чувств дают свою модальность в мышлении. Но две модальности: символьная (текстовая) и зрительная - являются для человека основными. Легко проверить, что между этими модальностями имеется весьма тесная связь. Обычно называние чего-то или текстовое описание некоторой ситуации тут же вызывает зрительные представления об этих объектах и ситуациях. И наоборот, стоит нам увидеть нечто, как мы тут же готовы описать увиденное с помощью нашего родного языка. Так текст и сопутствующая ему зрительная картина оказываются объединенными в нашем сознании и интегрированными в некоторое единство. Текст как бы "живет" в виде некоторого образного представления. Уже найдены некоторые важные законы интеграции текстов и зрительных образов. Созданы первые экспериментальные модели этого процесса и первые интеллектуальные системы, способные описывать в виде текста предъявляемую им картинку, а также воссоздавать одну из возможных картин, соответствующих введенному в систему тексту.

Russian Context Optimizer

RCO

Комплекс программ для синтаксического и морфологического анализа русскоязычных текстов. Модули лингвистического анализа включают: морфологические словари, словари графем, синтаксические правила, семантический классификатор, словари синонимов. Инструментарий разработчика представлен модулями морфологического и фактографического анализа. Используется морфологический словарь объемом ~ 115000 лексем. Программы разработаны для Windows, Oracce, SDK работает на платформах Windows и Unix. Программы и SDK распространяются на коммерческой основе. Уровни лингвистического анализа: графематический, морфологический, синтаксический, семантический.

Link Grammar Parser

John Lafferty Daniel Sleator Davy Temperley  Carnegi Melon University, USA

Link Grammar Parser – это синтаксический парсер английского языка. Работает со словарем, включающем около  60000 словарных форм. Реализован на C для Unix. Есть также версия для Windows API32. Имеет консольный интерфейс. Исходные предложения для разбора могут вводиться вручную с клавиатуры или задаваться в ASCII-файле для пакетной обработки. Программа распространяется бесплатно.

AskNet

ПОЛИГЛОТ

Семантические вопросно-ответные поисковые системы AskNetи инструментарий разработчика, реализующий полный лингвистический анализ текстов на русском и (или) английском языках. Модули лингвистического анализа включают в себяморфологию(словарную и бессловарную),синтаксис,семантику(включая толково-комбинаторные словари). Имеется модуль семантической рубрикации текстов. Программные продукты представлены коробочными версиямикорпоративной,сайтовойиперсональнойпоисковой системы. Вопросно-ответный поиск по Интернету реализован на баземетапоисковой системыwww.asknet.ru. Разрабатывается аналитическая поисковая система AQUA, позволяющая находить семантические ответы на основе автоматического обобщения системой текстовой информации и проведения логического вывода. Программы и SDK  распространяются на коммерческой основе. Уровни лингвистического анализа:графематический,морфологический,синтаксический,семантический.

Russian Morphological Dictionary

Sergey Sikorsky

Программа для синтаксического и морфологического анализа русскоязычных текстов. Работает с входным ASCII-текстом. Используется морфологический словарь, включающий 120000 слов. Реализована на SWI-Prolog для Windows. Программа распространяется бесплатно.

Mystem

Компактный, очень быстрый и бесплатный морфологический парсер русскоязычных текстов, реализованный на основе словаря Зализняка. Доступны для загрузки версии для Windows и Linux. Работает как консольное приложение и имеет различные режимы представления результатов.

Лингвоанализатор

On-line версия программы математического анализа структуры текста. Целью анализа является определение близости любого из предлагаемых пользователем текстов к одному из авторских эталонов, определенных заранее. (Авторский эталон - это набор текстов данного автора, взятый из ресурсов Русской Фантастики). Программа анализирует входной текст и выдает имена трех писателей, которые могли бы быть его наиболее вероятными авторами. Кроме этого, программа находит три произведения каждого из авторов, которые наиболее близки данному тексту.

Программные продукты фирмы LingSoft

Компоненты грамматического разбора, морфологического анализа и лемматизации (нормализации) для английского, немецкого, финского, датского, норвежского, шведского, эстонского и русского языков. Это коммерческие продукты, которые могут быть использованы при разработке других систем.

Система StarLing

СУБД StarLing, позволяющая работать с мультиязычными текстами большой длины, с транскрипционными знаками, с удобным поиском, с анализом и синтезом словоформ по словарю Зализняка, с переводом по словарю Мюллера. Есть функции для сравнительно-исторических исследований (глоттохронология). Для загрузки доступны полные DOS и Windows версии системы. Для обеих версий системы требуется предустановка системных фонтов, также доступных для загрузки (DOS, Windows). Кроме этого можно загрузить словари Ожегова и Зализняка в DBF-формате. В режиме on-line на сайте доступна этимологическая база для различных языков.

Морфологический анализатор

On-line версия программы морофлогического анализа слов русского/английского языков. Позволяет получить для вводимого слова базовую форму и морфологическую информацию. Программа реализована на основе словарей Зализняка (рус.яз.) и Мюллера (англ.яз.).

MonoConc/ParaConc

Коммерческие программы построения различных конкордансов, в том числе и мультиязычных. Имеется возможность загрузки бесплатных демо-версий, которые имеют ряд ограничений в сравнении с реальными версиями.

Список литературы:

  1. Википедия [http://library.kiwix.org/wikipedia_ru_all/A/html/%D0%A1/%D0%B5/%D0%BC/%D0%B0/%D0%A1%D0%B5%D0%BC%D0%B0%D0%BD%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%81%D0%B5%D1%82%D1%8C.html].

  2. Мельчук, И.А. Опыт теории лингвистических моделей «Смысл↔Текст». М.: Наука, 1974.

  3. Рыбина Г.В. Основы построения интеллектуальных систем.: «Инфра-м», 2010, 432с.

  4. Википедия [http://ru.wikipedia.org/wiki/Поисковые_системы]: свободная энциклопедия, 2015.

  5. Центр информационно-библиотечного обеспечения учебно-научной деятельности [http://library.mephi.ru/icb2/glav5_new.html]: НИЯУ МИФИ, 2015.

  6. Библиотека интернет индустрии [http://www.i2r.ru/static/334/out_20911.shtml]: I2R, 2008.

  7. Поисковые системы Internet: эволюция и перспективы [http://www.gpntb.ru/win/inter-events/crimea97/doc/sem4/s4doc3.html]: Степанов В.К. Государственная публичная историческая библиотека, Москва, Россия.

  8. Zoom international [http://zoomint.ru/zoom-ru/blog/ispolzovanie-analiza-rechi-v-metodike-shest-sigm]: Лиам Андерсеном, 2014.

  9. Википедия [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D0%B5%D1%81%D0%BF%D0%B5%D1%87%D0%B5%D0%BD%D0%B8%D0%B5]: свободная энциклопедия, 2015.

  10. Википедия [https://ru.wikipedia.org/wiki/%D0%A1%D0%B8%D0%BD%D1%82%D0%B5%D0%B7_%D1%80%D0%B5%D1%87%D0%B8#.D0.A1.D0.BF.D0.BE.D1.81.D0.BE.D0.B1.D1.8B_.D1.81.D0.B8.D0.BD.D1.82.D0.B5.D0.B7.D0.B0_.D1.80.D0.B5.D1.87.D0.B8]: свободная энциклопедия, 2015.

  11. СРАВНИТЕЛЬНЫЙ АНАЛИЗ СОВРЕМЕННЫХ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ [file:///C:/Users/Mefisto/Downloads/s012-152.pdf]: Шубный А.В.,Сибирский федеральный университет.

  12. Википедия [http://ru.wikipedia.org/wiki/Анализ_текста]: свободная энциклопедия, 2015.

  13. Электронная публикация - РВБ [http://www.rvb.ru/soft/catalogue/c01.html]: Логичев Сергей, 2013.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]