- •Институт вычислительного моделирования
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов 21
- •Глава 2. Принцип объектных определений как основа классификации единиц языка 53
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов 86
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов 114
- •Введение
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов
- •1.1. Проблема применения лингвистического аппарата в естественно-языковых интерфейсах программных систем
- •1.1.1. Проблема исследования значения
- •1.1.2. Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике
- •1.2. Семантические классификации языковых единиц в лингвистических базах данных
- •1.2.1. История составления словарей
- •1.2.2. Семантические поля, тезаурусы, темы и подтемы
- •1.2.3. Задача представления иерархии языковых единиц
- •1.3. Лингвистические исследования множества слов в речи
- •1.3.1. Тождественные элементы значения слов в тексте
- •1.3.2. Сильные и слабые импликации в тексте
- •1.3.3. Порождающие грамматики
- •1.4. Представление слов языка и проблема полисемии
- •1.4.1. Внутренняя структура слова, ядро и периферия
- •1.4.2. Дефинитивное и полное значение слова
- •1.4.3. Применение компонентного анализа
- •1.4.4. Лексико-семантические варианты в языке и речи
- •1.5. Единство формальных и смысловых характеристик слова в искусственных языках для машинного перевода
- •1.5.1. Системы типа «Интерлингво» и машинный перевод
- •1.5.2. Проблемы создания языка описания семантики
- •1.6. Табличный естественно-языковой интерфейс
- •1.7. Задачи диссертационной работы
- •Выводы к главе 1
- •Глава 2. Принцип объектных определений как основа классификации единиц языка
- •2.1. Формализация дефиниций
- •2.1.1. Общий вид формальной дефиниции
- •2.1.2. Последовательность классификаций единиц языка
- •2.1.3. Определение базиса понятийного аппарата словарных дефиниций
- •2.1.4. Представление языка
- •2.2. Принципы построения классификации
- •2.2.1. Множество классификаций
- •2.2.2. Множество отрицаний в определении классификации единиц языка
- •Семантика и семантическая классификация
- •2.3.1. Семантический и другие аспекты языка
- •2.3.2. Проблема построения классификаций вида Ai.Cj
- •2.3.3. Семы классификации
- •2.3.4. Геносемы
- •2.3.5. Классификация понятий
- •2.3.6. Синтагмы и валентности
- •2.3.7. Факты классификации
- •2.3.8. Высказывания
- •2.4. Понятийное пространство в целом
- •Выводы к главе 2
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов
- •3.1. Общие принципы построения словаря
- •3.1.1. Понятийное пространство и его наполнение
- •3.1.2. Классификация p1.D3 в целом
- •3.2. Уровни классификации
- •3.2.1. Вектор классификации слов и понятий
- •3.2.2. Валентностный уровень классификации
- •3.2.3. Уровень основных сем
- •3.2.4. Уровень локализации
- •3.2.5. Уровень свойств
- •3.2.6. Уровень отношений
- •3.2.7. Рекурсивное порождение последующих уровней классификации
- •3.3. Примеры понятий и их кодовых обозначений
- •3.3.1. Примеры понятий для уровня основных сем
- •3.3.2. Примеры понятий для валентностного уровня классификации
- •3.3.3. Примеры понятий уровня локализации
- •Семантический код описания смысла
- •3.4.1. Кодировка сочетаний групп слов
- •3.4.2. Кодировка стилистики языка
- •3.4.3. Формула слова и плановые языки
- •3.5. Типы классификаций
- •3.5.1. Словарь гиперонимов
- •3.5.2. Тематический словарь
- •3.5.3. Словарь дефинонимов
- •Выводы к главе 3
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов
- •4.1. Системы «Электронный словарь» и «Электронный разговорник»
- •4.2. Назначение системы «Электронный словарь»
- •4.3. Функции системы «Электронный словарь»
- •4.4. Состав и структура системы «Электронный словарь»
- •4.5. Входные и выходные данные
- •4.6. Функционирование системы «Электронный словарь»
- •4.7. Программная система «Электронный разговорник»
- •4.7.1. Назначение программы «Электронный разговорник»
- •4.7.2. Функции программы «Электронный разговорник»
- •4.7.3. Структура программы «Электронный Разговорник»
- •4.7.4 Входные и выходные данные программы «Электронный разговорник»
- •4.7.5. Описание работы программы «Электронный разговорник»
- •Выводы к главе 4
- •Заключение
- •Литература
- •Приложение 1. Определения основных терминов
- •Приложение 2. Фрагмент словаря подстановочных таблиц
2.1.4. Представление языка
Под языком будем понимать множество всех его единиц, определяемых через базис и множество сложных композиций вида: S(Еi1, …, Еif, Tj1, …, Tjv, Ng1, …,Ngp) Другими словами, в состав языка входит ряд проецирующихся друг на друга последовательностей классификаций вида:
A:= S(Efb, …).
B:= S(Ajs, …),
C:= S(Bid, …),
…
Причем не существует такого P, что E := S(Phr, …).
Данный вывод запишем в виде: {E} S {A} S {B} S {C}… Такого вида формулой можно задавать, например, последовательный вывод: {геносемы} S {семы} S {понятия} S {факты}. Другим примером такой последовательности может служить фонетическая система языка: {характеристики звуков} S {звуки} S {слова} S {высказывания}. В языке часто отсутствуют те или иные потенциально выводимые единицы, например, немецкому слову Geschwester (ребенок тех же родителей, брат и сестра) не соответствует ни одного слова ни в русском, ни в английском языках. Буквосочетанию «ррнто» не соответствует никакое слово русского языка. Таким образом, лишь некоторые элементы пространства всех возможных звукосочетаний соответствуют некоторым элементам пространства всех возможных значений слов.
Последовательностям {E} S {A} S {B} S {C}… могут также соответствовать графическая система языка, а также его грамматическая система. Можно находить правила соответствия системы {E'} S {A'} S {B'} S {C'}… и некой иной системы {E''} S {A''} S {B''} S {C''}... Например, написание слов может в некоторой степени определяться его звучанием. Также оно определяется его грамматическими характеристиками (например, мягкий знак в слове «жечь»). От части написание слов определяется семантическими характеристиками (например, написание дней недели с большой буквы в английском языке).
Последовательность {E} S {A} S {B} S {C}… назовем аспектом языка L, где {E} S {A} S {B} … будут называться классификациями одного аспекта языка L.
Если Pα’ = {E'} {A'} {B'} {C'}… и Pα’’ = {E''} {A''} {B''} {C''},… и если имеет место взаимно однозначное соответствие (A' A''), (B' B''), (C' C'')…, то запишем соответствие классификаций Pα'.D Pα''.D, где P – множество последовательностей классификаций единиц языка.
Однако в естественном языке такое взаимно однозначное соответствие встречается редко. Фонетическая классификация единиц языка предполагает вывод таких единиц языка, как слова, в плане их звучания. Множество всех звучаний слов языка проецируется, во-первых, на множество написаний слов, причем одно произношение может соответствовать нескольким видам написания и наоборот. Далее множество всех звучаний слов проецируется на пространство грамматических и семантических единиц.
2.2. Принципы построения классификации
2.2.1. Множество классификаций
Классификация понятий языка представляется в форме дерева. Множество узлов дерева семантической классификации назовем понятийным пространством. Рассмотрим подробнее дерево классификации, вершинами которого являются единицы на выходе классификации, а единицы на входе классификации задают классификационные признаки. В дереве классификации выделяются уровни. На одном уровне классификации может быть только один классификационный признак. Признаки разных уровней составляют ряд (или вектор) признаков заданной классификации. Каждому признаку классификации соответствует множество возможных значений. Все признаки являются сложными, каждый из них состоит из конечного числа смысловых компонентов. В свою очередь, каждая из смысловых компонент является узлом другой классификации – меньшего масштаба. Семантическая классификация понятий строится на основе классифицируемых сем – «атомов смысла», составляющих структуру смысла слов.
Будем исходить из базового предположения, что язык представлен двумя аспектами, семантическим и формальным, обозначим их соответственно P1 и P2. Каждый аспект можно представить в виде последовательности классификаций: геносем, сем и графем, слов и понятий, фактов и высказываний, соответственно обозначим их через D0, D1, D2, D3. Обозначение Pα.Dβ будем интерпретировать как классификацию β по аспекту α .
Классификации семантического аспекта:
-
P0.D0: Геносемы – специальные служебные самые мелкие смысловые единицы (объект, отрицание, тождество, равенство и т.п.), позволяющие интерпретировать более сложные единицы языка;
-
P0.D1: Семы – атомы смысла, составляющие структуру слов и понятий (существо, место, внутри, имплицировать и т.п.);
-
P0.D2: Понятия – смысловые единицы, соответствующие словам (дом, телефон, дружба, вещество и т.п.);
-
P0.D3: Факты – элементы знания из различных областей, факт – это некоторое утверждение, о котором можно говорить, что оно истинно или ложно, формально факт представляется как высказывание или предикат.
Классификации формального аспекта опираются на синтаксическую структуру языка:
-
P0.D1: Графемы – буквы языка;
-
P0.D2: Слова с их морфологической структурой для конкретного языка;
-
P0.D3: Высказывания – предложения в связном тексте. [53-57].
Семантический и формальный аспекты языка тесно связаны. Высказывание формально выражает некоторый факт, понятия выражаются словами, плановый язык должен в перспективе сопоставлять графемам слов семы, составляющие значения этих слов. Геносемы не соответствуют никаким формальным единицам языка и служат для выражения элементарного смысла.
Каждая из перечисленных классификаций семантического и синтаксического аспектов имеет форму дерева.
Обозначим уровни дерева классификации Qk', каждому из них соответствует один признак Gk вектора G признаков классификации:
" Pα.Dβ.Qγ, $ Gγ (Pα.Dβ.Qγ « Pα.Dβ.Gγ),
где Pα.Dβ.Qγ – уровень Qγ дерева классификации Dβ аспекта Pα, а Pα.Dβ.Gγ – значение Gγ вектора G дерева классификации Dβ аспекта Pα.
Вектор признаков Pα.Dβ.G = < Pα.Dβ.G1, Pα.Dβ.G2, Pα.Dβ.G3 … Pα.Dβ.Gγ> представляет собой последовательность признаков.
Множество значений признака Gγ обозначим {Gγ1, Gγ2, …}. Каждое значение Gγl является строкой символов – элементов этого значения, пусть Gγl = 12…l. Множества строк Gγl Î {Gγ1, Gγ2, …} задаются перечислением, или при помощи порождающей грамматики.
Каждый символ q’ значения признака вектора Pα.Dβ.G является узлом предшествующей классификации q = Pα.Dβ.Qγ,φ, где Qγ,φ – γ-й узел дерева φ-го уровня классификации Pα.Dβ.
Рассматриваемые в предыдущих параграфах множества смысловых единиц A, B, C,… являются единицами на выходе в последовательности классификаций, например: A Pα.Dβ, B Pα.Dβ+1, C Pα.Dβ+2…. Элементы множеств A, B, C,… соответствуют узлам соседних классификаций.
Каждой семантической единице языка может соответствовать множество формальных единиц языка (синонимов): Pα.Dβ.Qγ,φ ® { Pα+1.Dβ.Qτω} , где τ = 1, 2, 3,..., ω = 1, 2, 3,..., и наоборот, каждой формальной единице языка может соответствовать множество семантических единиц языка (значений и омонимов): и Pα+1.Dβ.Qτω ® { Pα.Dβ.Qγ,φ}, где γ = 1, 2, 3,... , φ = 1, 2, 3,..., то есть имеет место отношение «многие ко многим».