Системы автоматического порождения письменного текста:

Занимаются с 70-х, однако нет единой теории текстообразования, не может быть создана единая теория порождения текста из-за неоднозначного определения понятия «текст»:

Создатели диалоговых систем под текстом понимают любую реплику из нескольких слов;
Создатели систем генерации метеосводок или статистических отчётов понимают под текстом некоторую таблицу;
Создатели инструкций понимают под текстом цепочку несвязанных между собой предложений, относящихся к одному объекту.

Этапы порождения текста:

Стратегический (решение, что писать) – результат: семантическое представление будущего текста;
Тактический (решение, как писать) – результат: собственно текст в языковой форме.

Общая структура системы порождения письменного текста:

Оболочка: определяет назначение порождающей системы (диалог, сказка, стих и т.д.), содержит базу данных из 2 частей:

Нелингвистическая (понятия, связи, отношения между понятиями конкретной предметной области);
Лингвистическая (формализованные сведения о конкретном языке):

Списки морфем;
Слова с лексикой;
Синтаксические структуры предложения;
Семантико-синтаксические структуры абзацев и всего текста;

Планировщик выполняет функции:

Определяет ту информацию, которая должна быть в тексте;
Определяет, как она будет представлена;
Определяет порядок следования абзацев;
Устанавливает порядок следования синтаксических составляющих в пределах текста;
Осуществляет языковое оформление взаимосвязи предложений в тексте;
Осуществляет построение синтаксических структур предложений текста;
Осуществляет выбор соответствующей лексики.

Лингвистическийреализатор обеспечивает грамматическую правильность текста и принимает все окончательные грамматические и морфологические решения.

Виды компьютерных систем порождения текста:

Системы, работающие на основе шаблонных технологий (строят будущий текст, манипулируя готовыми предложениями и словосочетаниями как строительными блоками; просты и надёжны, находят широкое промышленное применение; содержание порождённого текста представляется в виде фрагментов текстов, созданных ранее людьми, поэтому выглядит естественно, однако работает только с жёсткими типами текстов);
Системы, работающие на основе лингвистически мотивированных технологий (для создания текста системе нужны сложные знания структуры содержания создаваемого текста и сложные лингвистические знания, которые позволяют выразить содержание языковыми средствами; промышленных систем такого рода нет).

Системы распознавания речи

Данной проблемой учёные занимаются около 70 лет, первая промышленная система была создана в Японии второй половине 80-х, её называли системой надиктовки текста в ПК (диктографами), данная система имела узкую специализацию.

Под распознавание речи ПК понимают такое распознавание, которое подробно восприятию речи человеком, в любых условиях и при общении с любым человеком.

Решению проблемы мешает:

Отсутствие чётких теоретических представления, которые описывали бы весь комплекс преобразований, осуществляемых нервной системой при переработке речевых сигналов;
Обладание слитно произнесённой речью:
Размытой границы слов:
Влияния соседних звуков друг на друга;
Нечётким выговором и даже исчезновением функциональных слов;
Наличие в голосе говорящего экстралингвистической информации, указывающей на пол, возраст и т.д.;
Большое значение в процессе речевого общения паралингвистических средств коммуникации:
1. Кинесика (мимика, жесты);
2. Фанация (характеристика голоса);
3. Проксемика (расстояние между людьми).

Поэтому сегодня АРР может осуществляться только при определённых ограничениях:

Распознавание изолированно произнесённых слов;
Распознавание речи с настройкой на голос пользователя;
Распознавание с опорой на небольшой, заранее определённый словарь.

IBM– лидер в продуктах такого рода с системойViaVoice (140 слов в минуту). Популярной системой надиктовки являетсяDragonSystem.

Алгоритм распознавания:

Ввод устной речи, обработка данных (убор шумов);
Деление звукового потока на сегменты;
Выделение в каждом сегменте минимальной акустической единицы – слова;
Сравнение выделенных единиц с эталонами.

Промышленные системы распознавания речи условно делятся на 4 группы:

Средства речевого управления (ПК, телефон);
Средства надиктовки текста;
Информационно-справочные системы в диалоговом режиме в качестве автоответчика;
Средства идентификации человека по образцу речи.

<<< < Предыдущая 1 2 34 / 54 5 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
08.06.20152.03 Mб18ИСТОРИЯ ПЕДАГОГИИ 3.doc
#
19.12.2018138.36 Кб4История стран (зачет).docx
#
08.06.201537.3 Mб24История США(коллектив авторов) Т.4 1987.pdf
#
08.06.201551.71 Кб21история франции.doc
#
23.07.2019189.5 Кб6История.docx
#
08.06.2015106.18 Кб10ИТ.docx
#
08.06.2015147.46 Кб18К ДМ_16_09.doc
#
08.06.2015229.89 Кб6К занятию_23_09_ТВ.doc
#
08.06.201576.8 Кб26К. МАРКС К критике политэкономии. Предисловие.doc
#
08.06.2015215.55 Кб71К. МАРКС Наемный труд и капитал.doc
#
08.06.2015366.08 Кб12К. МАРКС Ф. ЭНГЕЛЬС Немецкая идеология.doc