
Lecture 41
.docЛекция № 41. Уровни языка. Лингвистический процессор
4.1. Уровни языка
(15) Язык членится на участки (планы, ярусы, уровни). Уровень - это крупная часть языка, состоящая из однородных единиц и включающая набор правил, регулирующих использование этих единиц, их группировку в классы и разряды. Уровни автономны, каждый уровень характеризуется особой единицей, предельной и минимальной для каждого уровня.
(16) Различают следующие уровни: 1)фонемный, 2)морфемный, 3) лексический, 4) синтаксический, 5) семантический, 6) прагматический.
Уровнеобразующие единицы - сущность, отражающая характеристики объекта. Они характеризуются особой субстанцией, функциями, (15) в зависимости от уровня выделяют следующие:
1. фонема — неделимая, единица, класс класс вариантов звука (аллофонов), фонему можно представить в виде набора дифференциальных признаков.
Функции -1. строительная 2. смыслоразличительная.
2. морфема - полноценная двусторонняя (имеет план выражения и план содержания) знаковая единица. Морфема обладает значением (лексическое, словообразовательное, грамматическое), но не является целостной единицей, не обладает грамматической оформленностью и смысловой самостоятельностью.
Функции - 1. семасиологическая (может выражать значение, например, суффикс л в глаголах указывает на прошедшее время - «проходила») 2. строительная.
3. слово (лексема) - целостная единица, обладающая морфологической оформленностью и смысловой самостоятельностью. Лексема (от греч. lexis — слово, выражение, оборот речи) — слово как самостоятельная единица языка, рассматриваемая во всей совокупности своих форм и значений. В одну лексему объединяются разные словоформы одного слова (например, «словарь, словарём, словарю» и т. п.).
Функции - 1. минимальная номинативная единица (может называть вещи в отличие от морфемы) 2. строительная (входит в состав словосочетания и предложения).
4. предложение - минимальная коммуникативная единица языка (с помощью нее осуществляется общение). Предложение утверждает наличие объекта, оно обладает временной характеристикой, модальностью. Предложение отличается от слова по степени сложности выражаемого им смысла и функцией. Предложение -сочетание нескольких слов. Любое предложение строится на предикации (выделение какого-либо объекта и приписывание ему признака).
Функции - 1. номинативная 2, строительная.
5. текст - особая единица языка (не уровень, но единица), В тексте предложения связаны между собой по смыслу. Наличие связности - важное свойство.
Функции -1.коммуникативная 2. информативная.
(1) Ядром любой ЕЯ-системы является лингвистический процессор, структура и задачи которого более подробно рассмотрены ниже.
(2) Естественный язык служит человеку для выражения собственных мыслей и для понимания мыслей других людей. Первому виду языковой деятельности соответствует производство ЕЯ-текстов, а второму - понимание таких текстов. Если обозначить множество текстов через {Т}, а множество выражаемых ими смыслов через {С}, то модель естественного языка можно определить как транслятор, устанавливающий соответствие между этими двумя множествами:
{Т}
{С}.
(3) Формальные модели языка рассматриваются как компоненты различных прикладных ЕЯ-систем. Компонент системы, реализующий формальную лингвистическую модель и способный работать с ЕЯ во всем его объеме, называется лингвистическим процессором (ЛП). (4) Две основные функции ЛП состоят в извлечении смысла из заданного текста и в выражении заданного смысла текстом на ЕЯ, иначе это функции:
-
моделирования понимания (анализ);
-
моделирования производства текстов (синтез).
(5) Структура и состав лингвистического процессора
ЛП представляет собой многоуровневый преобразователь. В нем различаются четыре уровня пофразного представления текста, которые соответствуют уровням языка -морфологический, синтаксический, семантический и прагматический. Каждый из уровней обслуживается соответствующим компонентом модели - массивом правил и определенным словарем. (6) На каждом из уровней предложение имеет формальный образ, именуемый в дальнейшем его структурой - морфологической (МорфС), синтаксической (СинтС) и семантической (СемС). (7) Синтез представляет собой обратный переход от СемС предложения к его записи в обычном орфографическом виде. Структура лингвистического процессора представлена на рисунке 1.
(8) Под морфологической структурой понимается последовательность входящих в анализируемое предложение слов с указанием части речи и морфологических характеристик (падежа, числа, рода, одушевленности, вида и т.п.).
(9) Под синтаксической структурой понимается дерево зависимостей, в узлах которого стоят слова данного естественного языка с указанием части речи и грамматических характеристик, а дуги соответствуют специфичным для данного естественного языка отношениям между словами.
(9а) Под семантической структурой понимается граф, в узлах которого стоят понятия, соответствующие словам предложения, а дуги соответствуют семантическим отношениям между понятиями (например, предикатная структура).
Рис. 2.1. Структура лингвистического процессора
(10) ЛП в целом должен обеспечивать выполнение следующих преобразований:
предложение на ЕЯ ⇒ МорфС ⇒ СинтС ⇒ СемС (при анализе)
СемС ⇒ СинтС ⇒ МорфС ⇒ предложение на ЕЯ (при синтезе)
(11) Таким образом, чтобы построить ЛП, необходимо разработать:
-
формальные языки для записи (образов) предложений на морфологическом, синтаксическом, семантическом уровнях представления;
-
формальное понятие структуры предложения для каждого из этих уровней;
-
массивы правил для преобразования структур смежных уровней друг в друга;
-
морфологический, синтаксический и семантический словари, включив в них всю информацию о каждой лексеме, необходимую для осуществления соответствующего преобразования.
(12) Цель анализа предложения на естественном языке - перевод их на М-язык вычислительной системы. Функциями анализатора являются:
-
распознавание правильно построенных предложений ЕЯ;
-
фиксация, локализация и возможность исправления ошибок в ЕЯ-тексте;
-
декомпозиция предложения на составляющие (фрагменты) и построение соответствующей синтаксической структуры предложения;
-
семантическая интерпретация фрагментов ЕЯ-предложения фрагментами М- языка;
-
композиция фрагментов М-языка в структуру, описывающую прагматическую ситуацию предметной области.
Реализация этих функций осуществляется на этапах морфологического и синтаксического анализов, семантической интерпретации и проблемного анализа. Во многих моделях ЛП два последних этапа объединяются в один этап семантического анализа.
(13) В большинстве случаев вместо полного синтеза используется синтез по шаблонам. Суть его состоит в том, чтобы для конкретной системы рассмотреть все типы сообщений, относящиеся как к процессу общения, так и к процессу выдачи результатов работы ВС, и для каждого типа разработать шаблон, который заполняется при обращении к пользователю.
(14) Задача синтеза заключается в переводе «текста» М-языка в ЕЯ-текст и состоит из следующих этапов:
-
разбиение текста М-языка на фрагменты, соответствующие будущим фразам;
-
определение лексем для синтезируемой фразы;
-
построение синтаксической структуры фразы;
-
приписывание морфологической информации вершинам синтаксической структуры фразы;
-
определение порядка слов;
-
осуществление морфологического синтеза лексем.