Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
I часть.doc
Скачиваний:
33
Добавлен:
16.08.2019
Размер:
879.62 Кб
Скачать
  1. Технологии анализа и синтеза естественного языка. Области использования. Уровневый анализ ея, начиная с технологий ocr/icr и т.Д.

Технологии анализа и синтеза естественного языка

Системой АОТ, т.е. системой переработки одного вида текста в другой в памяти компьютера различается по выполняемым функциям и по входной и выходной информации.

Язык входного текста

Язык выходного текста

1 ЕЯ1

машинный переводчик

1ЕЯ2

2 ИЯ

2 ЕЯ

3 ЕЯ

3 ИЯ

4 ЕЯ

4 ЕЯ+ИЯ

Примером систем 2-го типа является система генерации (синтеза) текста на основе некоторого формального описания.

К системам 3-го типа могут относиться системы автоматического реферирования информации или ее индексирования.

К 4-му типу относятся программы, которые занимаются проверкой текста на ЕЯ и в результате своей работы они исправляют входной текст либо автоматически либо составляют протокол замечаний (орфография, стилистика).

Для создания систем обрабатывающих ЕЯ необходимы сложные лингвистические процессы и богатая техническая база, которой часто не хватает. Для того до сих пор не разработана лингвистическая теория текста: нет единой схемы непротиворечивого описания семантики языка. Возникают проблемы синтаксического анализа.

В настоящее время наиболее активно разрабатывают АОТ, решающие следующие прикладные задачи:

  1. Гипертекстовые системы и технологии.

  2. Машинный перевод по уровням языка (очень много подзадач, начиная с анализа символов, морфологического анализа, лексического анализа, синтаксического анализа, семантического анализа и синтеза текста).

  3. Система генерации текста / синтеза текста.

  4. Локализация и интернационализация текста. Приспособление программных продуктов и различных технических текстов к культурным и языковым нормам покупателей других стран мира (руссификация).

  5. Создание текстовых документов на основе их ввода, редактирования и проверки орфографии (текстовые редакторы или издательские системы).

  6. Работа на ограниченном языке, т.е. использование некоторого упрощенного варианта языка для технического описания или иных продуктов.

  7. Информационный поиск с задачами индексирования информации.

В проблематику гипертекста включают 2 резко-контрастирующие части:

  1. Когда речь идет о ФОРМЕ представленного текста, о его нелинейной организации, о его элементах (часто мультимедийных), о характере взаимосвязей между ними и способе его чтения и осмысления. В этом случае он противопоставлен обычному линейному тексту.

  2. С другой стороны гипертекст это вопрос технологии, которая делает возможным такое представление текста (часто текста больших объемов) и в этом случае гипертекст понимается как новая компьютерная информационная технология.

Обработка графики языка в компьютере.

Стандартный ввод и вывод символов. Обеспечивается за счет специальных кодовых таблиц, которые внесены изображения всех букв, знаков препинания и других символов со своими номерами, т.е. каждому символу соответствует свое число в какой-либо системе исчисления. Наиболее распространенной системой исчисления является двоичная, но для удобства часто используют 16-ричную, что б сократить запись. Кодовых таблиц очень много. Наиболее популярной кодовой таблицей является ASCII, где каждый символ представляется 1им байтом и эта таблица содержит 128 символов, 128 – для своего языка.

Распознавание символов.

Существует 2 основных способа распознавания символов.

  1. оптическое распознавание символов печатного текста (OCR)

  2. оптическое распознавание рукописных символов (ICR)

В области ICR существует 2 основных направления:

  1. Разработка систем распознания форм, т.е. бланков заполненных печатными буквами от руки (анкеты, бланки, тестирования, банковские чеки, налоговые декларации).

  2. Разработка систем распознания текстов является перспективной, но мало разработанной областью. Может использоваться для распознания почтовых адресов, банковских квитанций, причем для реализации этой задачи 70% сложности зависит от понимания семантики документов.

Рассмотрим наиболее разработанную задачу OCR – эта технология позволяет компьютеру считывать тексты с физических носителей и требует графического определения текста для интерпретации. Существуют несколько алгоритмов распознания печатных символов. При распознавания символа важен тот факт, что вся печатная продукция производиться при помощи ограниченного набора оригинальных символов, которые группируются по стилю, который отличает данную группу от других. Одна группа включает в себя все алфавитные значения, цифры и набор служебных символов, называется шрифтом/гарнитурой. Любой характеризуется в первую очередь шрифтами и с этой точки зрения существует 2 класса алгоритмов распознания печатных символов:

  1. шрифтовой/шрифтозависимый – здесь используется априорная инструкция о шрифтах, которыми напечатаны буквы, т.е. заранее известны характеристики того или иного шрифта. Все шрифты меньше 100.

  2. Безшрифтовой алгоритм. Используются алгоритмы, когда нет априорного знания о символах, поступающих на вход. Эти алгоритмы измеряют и анализируют различные характеристики присущие буквам, как таковым безотносительно шрифтам и размерам. Это считается универсальным методом распознания, но качество распознания ниже.

Методы распознавания

Существует 3 метода:

  • шаблонный

  • признаковый

  • структурный

При этом распознавание строится на классификации тех или иных признаков символов.

Шаблонный

Основан на технологии так называемых шаблонных классификаторах, которые приобретают исходное представление символов в набор точек и затем сравнивают его с шаблонами, имеющимися в базе системы.

Шаблон имеющий больше всего совпадений является искомым. У таких систем достаточно высокая точность распознавания в том числе дефектных символов. Основной недостаток этих систем – это невозможность распознать шрифты хоть немного отличающихся от заложенного в систему.

Признаковый

Является для него базовым признаковый классификатор. И они по каждому символу поступивших на вход системы распознают вычислительный набор признаков данной системы.

Эти наборы, т.е. основная часть информации храниться в базе системы и представляет собой топологию символа.

Структурный

Является наиболее перспективным методом распознавания и основан на структурного эталона. При этом структурное изображение символа – это некоторый набор точек , связанных параллельными отношениями. Технология АВВЦЦ.

Этапы работы стандартной системы OCR

  1. Работа со сканером, в процессе которого текст переводится в графическое изображение в виде картинки, при этом качество ее распознания можно улучшить за счет специальных функций по управлению яркостью, контрастности, разрешения.

  2. Сканер передает изображения в систему распознавания и начинается процедура сервирования , т.е. анализирует изображение, система делит его на участки, которые будут преобразовывать место в тексте, либо остановит нераспознаваемые картинки. Затем разбитый на участки документ поступает в ядро распознавания и в тексте выделяет сначала строки, затем слова и в конце символы. Каждый символ идентифицируется, т.к. в системе хранится знание о символах в виде эталона, то система сравнивает символы с эталонами.

Для улучшенного распознавания в случае дефектов или затруднений используются специальные контекстные модули этой системы.

Способы моделирования речи

  1. Предлагает моделирование собственно голосовым сигналом, т.е. речь разбивается на элементы, из которых в последствии собираются слова и текст в целом. Данный способ – форматный. Синтезатором называется синтезаторами формант, а способ синтеза речи.

Этот способ в настоящее время доминирует в компьютерных технологиях.

  1. Моделирование голосового аппарата человека, т.е модель речевого трактата, когда некоторым способом изменяется положение губ, языка, зубов при произнесении звука. Данный способ – артикуляторный. Он не распространен в виду большой сложности моделирования.

Системы синтеза текста в речь.

Существует множество систем синтеза, которые классифицируются в зависимости от размера исходных элементов для синтеза. Например, микросегментные системы, аллофонические, полуслоговые, слоговые и т.д.

И наиболее популярный метод во всех этих системах – компилятивный синтез речи.

Принцип действия его такой : из письменного текста выдают отдельную словоформу. Между ними оставляют паузы в соответствии с правилами языка, знаки препинания и интонации. Озвучивание осуществляется с помощью дробления словоформ на фонему или аллофоны для получения фонемной транскрипции. Неполные слова могут быть и в словаре сэмплов. Например, я, мы.

Алгоритм компилятивного синтеза предполагает, что в его библиотеке хранятся отдельные звуки, из которых собирается синтезируемая речь. В настоящее время создание программных синтезов кроме известных компаний (корпорации IBM) участвуют и крупные международные фирмы(Rollana, Yamaha). Самые известные синтезы речи Talk to me и Compositor, waw manner.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]