- •Институт вычислительного моделирования
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов 21
- •Глава 2. Принцип объектных определений как основа классификации единиц языка 53
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов 86
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов 114
- •Введение
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов
- •1.1. Проблема применения лингвистического аппарата в естественно-языковых интерфейсах программных систем
- •1.1.1. Проблема исследования значения
- •1.1.2. Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике
- •1.2. Семантические классификации языковых единиц в лингвистических базах данных
- •1.2.1. История составления словарей
- •1.2.2. Семантические поля, тезаурусы, темы и подтемы
- •1.2.3. Задача представления иерархии языковых единиц
- •1.3. Лингвистические исследования множества слов в речи
- •1.3.1. Тождественные элементы значения слов в тексте
- •1.3.2. Сильные и слабые импликации в тексте
- •1.3.3. Порождающие грамматики
- •1.4. Представление слов языка и проблема полисемии
- •1.4.1. Внутренняя структура слова, ядро и периферия
- •1.4.2. Дефинитивное и полное значение слова
- •1.4.3. Применение компонентного анализа
- •1.4.4. Лексико-семантические варианты в языке и речи
- •1.5. Единство формальных и смысловых характеристик слова в искусственных языках для машинного перевода
- •1.5.1. Системы типа «Интерлингво» и машинный перевод
- •1.5.2. Проблемы создания языка описания семантики
- •1.6. Табличный естественно-языковой интерфейс
- •1.7. Задачи диссертационной работы
- •Выводы к главе 1
- •Глава 2. Принцип объектных определений как основа классификации единиц языка
- •2.1. Формализация дефиниций
- •2.1.1. Общий вид формальной дефиниции
- •2.1.2. Последовательность классификаций единиц языка
- •2.1.3. Определение базиса понятийного аппарата словарных дефиниций
- •2.1.4. Представление языка
- •2.2. Принципы построения классификации
- •2.2.1. Множество классификаций
- •2.2.2. Множество отрицаний в определении классификации единиц языка
- •Семантика и семантическая классификация
- •2.3.1. Семантический и другие аспекты языка
- •2.3.2. Проблема построения классификаций вида Ai.Cj
- •2.3.3. Семы классификации
- •2.3.4. Геносемы
- •2.3.5. Классификация понятий
- •2.3.6. Синтагмы и валентности
- •2.3.7. Факты классификации
- •2.3.8. Высказывания
- •2.4. Понятийное пространство в целом
- •Выводы к главе 2
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов
- •3.1. Общие принципы построения словаря
- •3.1.1. Понятийное пространство и его наполнение
- •3.1.2. Классификация p1.D3 в целом
- •3.2. Уровни классификации
- •3.2.1. Вектор классификации слов и понятий
- •3.2.2. Валентностный уровень классификации
- •3.2.3. Уровень основных сем
- •3.2.4. Уровень локализации
- •3.2.5. Уровень свойств
- •3.2.6. Уровень отношений
- •3.2.7. Рекурсивное порождение последующих уровней классификации
- •3.3. Примеры понятий и их кодовых обозначений
- •3.3.1. Примеры понятий для уровня основных сем
- •3.3.2. Примеры понятий для валентностного уровня классификации
- •3.3.3. Примеры понятий уровня локализации
- •Семантический код описания смысла
- •3.4.1. Кодировка сочетаний групп слов
- •3.4.2. Кодировка стилистики языка
- •3.4.3. Формула слова и плановые языки
- •3.5. Типы классификаций
- •3.5.1. Словарь гиперонимов
- •3.5.2. Тематический словарь
- •3.5.3. Словарь дефинонимов
- •Выводы к главе 3
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов
- •4.1. Системы «Электронный словарь» и «Электронный разговорник»
- •4.2. Назначение системы «Электронный словарь»
- •4.3. Функции системы «Электронный словарь»
- •4.4. Состав и структура системы «Электронный словарь»
- •4.5. Входные и выходные данные
- •4.6. Функционирование системы «Электронный словарь»
- •4.7. Программная система «Электронный разговорник»
- •4.7.1. Назначение программы «Электронный разговорник»
- •4.7.2. Функции программы «Электронный разговорник»
- •4.7.3. Структура программы «Электронный Разговорник»
- •4.7.4 Входные и выходные данные программы «Электронный разговорник»
- •4.7.5. Описание работы программы «Электронный разговорник»
- •Выводы к главе 4
- •Заключение
- •Литература
- •Приложение 1. Определения основных терминов
- •Приложение 2. Фрагмент словаря подстановочных таблиц
2.3.7. Факты классификации
Рассмотрим классификацию P1.D3 фактов языка, то есть соотношений понятий приведенного вида, содержащих определенную чисто логическую компоненту. Для построения высказывания необходимо учитывать следующие условия: Высказывание должно содержать
-
либо эмоциональную оценку какого-либо факта, например, «Это прекрасный кофе»,
-
либо утверждение или отрицание не самоочевидного факта, например, «Кофе кончился».
-
либо выражать всеобщий характер высказывания «Многие женщины упрямы», «Чеснок помогает от простуды»
-
либо связывать смысл высказывания с понятиями «я», «вы» и «это». «Мой дядя заболел. За ним ухаживают соседи».
Кроме того, в высказывании должен присутствовать как элемент произвола, так и элемент самоочевидности.
Высказывания, не соответствующие изложенным выше принципам, кажутся надуманными и неуместными. «В белом доме перегорела лампочка» (фраза без контекста, произнесенная в Англии).
Любая новая единица предполаает отождествление компонент системы единиц более низкого уровня. При этом такая система единиц низкого уровня представляет собой множество таких единиц, некоторые компоненты которых объявляются тождественными друг другу. Например, сема СУЩЕСТВО определялась как ВОСПРИНИМАЮЩЕЕ, ЛОКАЛИЗОВАННОЕ.. S(СУЩЕСТВО, ЛОКАЛИЗАЦИЯ, ВОСПРИЯТИЕ, T(СУЩЕСТВО, ЛОКАЛИЗАЦИЯ.ОБЪЕКТ), T(СУЩЕСТВО, ВОСПРИЯТИЕ.СУБЪЕКТ)) есть формула отождествления компонентов объектов низкого уровня для определения объекта СУЩЕСТВО. Аналогично любое высказывание есть отождествление компонентов множества понятий. Например, «Я хочу угостить тебя чаем». Приведем формулу этого факта. В скобочках даны расшифровки одинаковые для тождественных компонентов.
Идея (наш разговор):
1) ОТНОШЕНИЕ (говорить) СУЩЕСТВО (я) СУЩЕСТВО (вы) ИДЕЯ (наш разговор).
2) ОТНОШЕНИЕ (угощать) СУЩЕСТВО (я) СУЩЕСТВО (вы) ПРЕДМЕТ (еда) В СУЩЕСТВЕ (вы).
3) ОТНОШЕНИЕ (хотеть) СОЗНАНИЯ, ПОЗИТИВНОЕ (хорошо), НЕСУЩЕСТВУЮЩЕЕ (в будущем)
4) ПРЕДМЕТ (еда) В СУЩЕСТВЕ (вы); СТЕПЕНЬ ИЗМЕНЧИВОСТИ. СРЕДНЯЯ (жидкость); СТЕПЕНЬ ИНФОРМАТИВНОСТИ. ВЫСОКАЯ (растение); РАЗМЕР ПРЕДМЕТА. ШИРОКИЙ (ширина). ДЛИННЫЙ (длина). УЗКИЙ (ширина) (лист).
Высказывание, так же, как и факт есть определенная система понятий, компоненты которых отождествляются с учетом основной аксиомы сочетаемости понятий. В отличие от высказываний факт представляет собой информацию в приведенном виде. Факт – это семантическая функция от нескольких аргументов, семантических объектов. Попробуем пояснить сказанное на основе мини текста [66].
«Регулярное употребление в пищу йогурта укрепляет нервную систему, улучшает обмен веществ, способствует быстрому восстановлению сил, покрывает потребности организма в жизненно важных аминокислотах, солях кальция и других веществах. Состав: изготовлен из нормализованного молока, сухого молока, сахара, стабилизатора, фруктового наполнителя, закваски. Пищевая ценность: жира – 1,5 г, белка – 3,0 г, углеводов – 12,7 г.»
Все слова, задействованные в приведенном выше тексте, относятся к некоторым классам слов всей понятийной классификации. Над этими словами и группами слов задаются семантические функции, в которых представлена информация приведенного выше текста. Классы слов являются областями определения семантической функции, а слова - значениями ее аргументов. Например, «пища» {йогурт, молоко, сахар и т.д.}, «тело» {нервная система, орган обмена веществ, мышцы, организм}, «вещества» {аминокислоты, соли, кальций, жир и т.д.} есть группы слов и области определения семантических функций вида: F(йогурт, содержит, кислоты), F(молоко, полезно для, мышцы). Таким образом, вся информация этого текста сводится к функциям с областями определения: «пища», «тело», «вещество». Различные экземпляры этих классов: «йогурт», «молоко» и так далее связываются в особую семантическую сеть сем этого текста. Таким образом, для любого текста можно упорядочить семантическую сеть в рамках смысловых функций, заданных на понятийном пространстве языка. Отдельные области этого пространства задействованы под области определения семантических функций текста. Факты формируют класс фактов, располагаясь друг относительно друга в определенных отношениях. Например, факты «йогурт положительно действует на (полезен для) нервную систему» и «йогурт содержит кальций» находятся в отношении соседства, так как проецируются на общую опору {пища}. А факты «йогурт содержит кальций» и «йогурт содержит 3,0 г белка» находятся в иерархической зависимости. Первое высказывание имеет только аргументы «еда» и «вещество», а второе – «еда», «вещество» и «единица измерения». Факты напоминают спрута, щупальца которого есть опоры, цепляющиеся за понятийную поверхность. Колония таких «спрутов», находящихся друг возле друга или друг под другом (в соседних или иерархических отношениях) есть класс фактов того или иного текста или речевого акта. Такое представление информации может быть использовано при создании естественно-языковых интерфейсов, поскольку выбор в словаре последовательно подклассов слов (таких как «еда» и «вещество») может являться автоматически вызовом фактов типа «подсолнечное масло часто содержит холестерин».
Рисунок 2.5. Принцип порождения осмысленных текстов
В данном случае пользователь мог бы почти напрямую иметь доступ к полностью упорядоченному массиву данных из любой предметной области и смежных областей. Последнее открывает широкое поле деятельности в области проектирования поисковых систем, предусматривающих создание дружелюбного естественно-языкового интерфейса.