Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОПЛ_ответы.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
1.07 Mб
Скачать

18. Оптимизация обработки информации с помощью компьютера

Преобладающая часть информации существует в виде устных и письменных текстов на естественном языке. Поэтому большое значение имеет обработка естественно-языковой информации. Прикладная лингвистика может быть определена как дисциплина, в которой целенаправленно изучаются и разрабатываются способы оптимизации различных сфер функционирования языковой системы.

Основные недостатки обработки информации человеком – низкая скорость и низкая эффективность, а также склонность к ошибкам. Причины, по которым возникают подобные проблемы:

1. Недостаточная емкость оперативной памяти (7 + \ - 2)

2. Последовательная обработка информации (быстрое переключение внимания, автоматизм деятельности)

3. Медленный процесс записи информации для сохранения в долговременной памяти (нужно прилагать усилия для того, чтобы запомнить надолго)

4. Сокращение и упрощение реального мира и его закономерностей при создании абстрактных пространственных моделей (человек не умеет ориентироваться в пространстве, не упрощая существенные для реального мира признаки).

Компьютер помогает избежать данных проблем.

Существует несколько видов лингвистических программ для оптимизации обработки информации.

1. Программы, связанные с распознаванием устной речи

- типы систем распознавания речи:

* пофонемное распознавание звукового сигнала

Получение акустических характеристик и распознавание фонем по ним.

Например, акустич. хар-ка: источники шума (имплазивные \звук - преграда\, турбулентные \щель - ветер\).

Главный недостаток программ: ограниченные возможности у систем при распознавании слога; пофонемные программы не учитывают трансформацию акустических сигналов в потоке речи.

Используются в технических сетях.

* распознавание изолированных слов

- Главный недостаток: маленький словарь (ок. 100 слов)

Использование в робототехнике

- Основная проблема: вариативность произнесения слов различными дикторами.

- Словарь в памяти компьютера организован как система акустических эталонов слов. Каждый эталон – набор вариантов произнесения слова (мужчина \ женщина).

* большие системы

- распознавание сегментов речи путем дробления их на более мелкие отрезки, вплоть до фонем, и установление графических соответствий каждому отрезку (соотношение устной речи и письменного текста).

- Вся программа – путь от речевого сигнала к словарю (письменный вариант)

- строятся на Марковских цепях, т.е. на оценке вероятности последовательности символов в речевой цепи

Основная проблема: перевод фонем в графемы:

* распознавание отрезков речевой цепи, в которой выделяются более мелкие единицы

* элементы речевой цепи могут распознаваться как фонетические слова

Достоинство: словарь м. исчисляться 1000-ми слов

Для таких программ необходимы базы данных графических сочетаний (диграфы, триграфы) и типы структур русского слога.

Использование: ответы компьютера на человеческие звонки (запись к врачу, вокзал, почта…)

2. Программы, связанные с распознаванием письменного текста

Учитывается:

- статистические данные о комбинации знаков алфавита (например, что перед Ь\Ъ не может быть пробела)

- вероятностные характеристики сочетаний знаков (оценка вероятности сочетания букв)

- частотность слов \ частотность последовательности алфавитных символов (например, предлог «В» частотнее предлога «ВО»)

- частотность устойчивых и свободных словосочетаний

Задача графического распознавания:

- поиск искажений

- дешифровка новых текстов

- пополнение словаря новыми единицами