Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИТ.docx
Скачиваний:
10
Добавлен:
08.06.2015
Размер:
106.18 Кб
Скачать

Системы автоматического порождения письменного текста:

Занимаются с 70-х, однако нет единой теории текстообразования, не может быть создана единая теория порождения текста из-за неоднозначного определения понятия «текст»:

  1. Создатели диалоговых систем под текстом понимают любую реплику из нескольких слов;

  2. Создатели систем генерации метеосводок или статистических отчётов понимают под текстом некоторую таблицу;

  3. Создатели инструкций понимают под текстом цепочку несвязанных между собой предложений, относящихся к одному объекту.

Этапы порождения текста:

  1. Стратегический (решение, что писать) – результат: семантическое представление будущего текста;

  2. Тактический (решение, как писать) – результат: собственно текст в языковой форме.

Общая структура системы порождения письменного текста:

    1. Оболочка: определяет назначение порождающей системы (диалог, сказка, стих и т.д.), содержит базу данных из 2 частей:

  • Нелингвистическая (понятия, связи, отношения между понятиями конкретной предметной области);

  • Лингвистическая (формализованные сведения о конкретном языке):

  1. Списки морфем;

  2. Слова с лексикой;

  3. Синтаксические структуры предложения;

  4. Семантико-синтаксические структуры абзацев и всего текста;

  • Планировщик выполняет функции:

    • Определяет ту информацию, которая должна быть в тексте;

    • Определяет, как она будет представлена;

    • Определяет порядок следования абзацев;

    • Устанавливает порядок следования синтаксических составляющих в пределах текста;

    • Осуществляет языковое оформление взаимосвязи предложений в тексте;

    • Осуществляет построение синтаксических структур предложений текста;

    • Осуществляет выбор соответствующей лексики.

  • Лингвистическийреализатор обеспечивает грамматическую правильность текста и принимает все окончательные грамматические и морфологические решения.

    Виды компьютерных систем порождения текста:

    1. Системы, работающие на основе шаблонных технологий (строят будущий текст, манипулируя готовыми предложениями и словосочетаниями как строительными блоками; просты и надёжны, находят широкое промышленное применение; содержание порождённого текста представляется в виде фрагментов текстов, созданных ранее людьми, поэтому выглядит естественно, однако работает только с жёсткими типами текстов);

    2. Системы, работающие на основе лингвистически мотивированных технологий (для создания текста системе нужны сложные знания структуры содержания создаваемого текста и сложные лингвистические знания, которые позволяют выразить содержание языковыми средствами; промышленных систем такого рода нет).

    Системы распознавания речи

    Данной проблемой учёные занимаются около 70 лет, первая промышленная система была создана в Японии второй половине 80-х, её называли системой надиктовки текста в ПК (диктографами), данная система имела узкую специализацию.

    Под распознавание речи ПК понимают такое распознавание, которое подробно восприятию речи человеком, в любых условиях и при общении с любым человеком.

    Решению проблемы мешает:

    1. Отсутствие чётких теоретических представления, которые описывали бы весь комплекс преобразований, осуществляемых нервной системой при переработке речевых сигналов;

    2. Обладание слитно произнесённой речью:

    3. Размытой границы слов:

    4. Влияния соседних звуков друг на друга;

    5. Нечётким выговором и даже исчезновением функциональных слов;

    6. Наличие в голосе говорящего экстралингвистической информации, указывающей на пол, возраст и т.д.;

    7. Большое значение в процессе речевого общения паралингвистических средств коммуникации:

      1. Кинесика (мимика, жесты);

      2. Фанация (характеристика голоса);

      3. Проксемика (расстояние между людьми).

    Поэтому сегодня АРР может осуществляться только при определённых ограничениях:

    1. Распознавание изолированно произнесённых слов;

    2. Распознавание речи с настройкой на голос пользователя;

    3. Распознавание с опорой на небольшой, заранее определённый словарь.

    IBM– лидер в продуктах такого рода с системойViaVoice (140 слов в минуту). Популярной системой надиктовки являетсяDragonSystem.

    Алгоритм распознавания:

    1. Ввод устной речи, обработка данных (убор шумов);

    2. Деление звукового потока на сегменты;

    3. Выделение в каждом сегменте минимальной акустической единицы – слова;

    4. Сравнение выделенных единиц с эталонами.

    Промышленные системы распознавания речи условно делятся на 4 группы:

    1. Средства речевого управления (ПК, телефон);

    2. Средства надиктовки текста;

    3. Информационно-справочные системы в диалоговом режиме в качестве автоответчика;

    4. Средства идентификации человека по образцу речи.

  • Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]