- •Институт вычислительного моделирования
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов 21
- •Глава 2. Принцип объектных определений как основа классификации единиц языка 53
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов 86
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов 114
- •Введение
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов
- •1.1. Проблема применения лингвистического аппарата в естественно-языковых интерфейсах программных систем
- •1.1.1. Проблема исследования значения
- •1.1.2. Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике
- •1.2. Семантические классификации языковых единиц в лингвистических базах данных
- •1.2.1. История составления словарей
- •1.2.2. Семантические поля, тезаурусы, темы и подтемы
- •1.2.3. Задача представления иерархии языковых единиц
- •1.3. Лингвистические исследования множества слов в речи
- •1.3.1. Тождественные элементы значения слов в тексте
- •1.3.2. Сильные и слабые импликации в тексте
- •1.3.3. Порождающие грамматики
- •1.4. Представление слов языка и проблема полисемии
- •1.4.1. Внутренняя структура слова, ядро и периферия
- •1.4.2. Дефинитивное и полное значение слова
- •1.4.3. Применение компонентного анализа
- •1.4.4. Лексико-семантические варианты в языке и речи
- •1.5. Единство формальных и смысловых характеристик слова в искусственных языках для машинного перевода
- •1.5.1. Системы типа «Интерлингво» и машинный перевод
- •1.5.2. Проблемы создания языка описания семантики
- •1.6. Табличный естественно-языковой интерфейс
- •1.7. Задачи диссертационной работы
- •Выводы к главе 1
- •Глава 2. Принцип объектных определений как основа классификации единиц языка
- •2.1. Формализация дефиниций
- •2.1.1. Общий вид формальной дефиниции
- •2.1.2. Последовательность классификаций единиц языка
- •2.1.3. Определение базиса понятийного аппарата словарных дефиниций
- •2.1.4. Представление языка
- •2.2. Принципы построения классификации
- •2.2.1. Множество классификаций
- •2.2.2. Множество отрицаний в определении классификации единиц языка
- •Семантика и семантическая классификация
- •2.3.1. Семантический и другие аспекты языка
- •2.3.2. Проблема построения классификаций вида Ai.Cj
- •2.3.3. Семы классификации
- •2.3.4. Геносемы
- •2.3.5. Классификация понятий
- •2.3.6. Синтагмы и валентности
- •2.3.7. Факты классификации
- •2.3.8. Высказывания
- •2.4. Понятийное пространство в целом
- •Выводы к главе 2
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов
- •3.1. Общие принципы построения словаря
- •3.1.1. Понятийное пространство и его наполнение
- •3.1.2. Классификация p1.D3 в целом
- •3.2. Уровни классификации
- •3.2.1. Вектор классификации слов и понятий
- •3.2.2. Валентностный уровень классификации
- •3.2.3. Уровень основных сем
- •3.2.4. Уровень локализации
- •3.2.5. Уровень свойств
- •3.2.6. Уровень отношений
- •3.2.7. Рекурсивное порождение последующих уровней классификации
- •3.3. Примеры понятий и их кодовых обозначений
- •3.3.1. Примеры понятий для уровня основных сем
- •3.3.2. Примеры понятий для валентностного уровня классификации
- •3.3.3. Примеры понятий уровня локализации
- •Семантический код описания смысла
- •3.4.1. Кодировка сочетаний групп слов
- •3.4.2. Кодировка стилистики языка
- •3.4.3. Формула слова и плановые языки
- •3.5. Типы классификаций
- •3.5.1. Словарь гиперонимов
- •3.5.2. Тематический словарь
- •3.5.3. Словарь дефинонимов
- •Выводы к главе 3
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов
- •4.1. Системы «Электронный словарь» и «Электронный разговорник»
- •4.2. Назначение системы «Электронный словарь»
- •4.3. Функции системы «Электронный словарь»
- •4.4. Состав и структура системы «Электронный словарь»
- •4.5. Входные и выходные данные
- •4.6. Функционирование системы «Электронный словарь»
- •4.7. Программная система «Электронный разговорник»
- •4.7.1. Назначение программы «Электронный разговорник»
- •4.7.2. Функции программы «Электронный разговорник»
- •4.7.3. Структура программы «Электронный Разговорник»
- •4.7.4 Входные и выходные данные программы «Электронный разговорник»
- •4.7.5. Описание работы программы «Электронный разговорник»
- •Выводы к главе 4
- •Заключение
- •Литература
- •Приложение 1. Определения основных терминов
- •Приложение 2. Фрагмент словаря подстановочных таблиц
2.3.4. Геносемы
Рассмотрим далее классификацию P1.D0 геносем - самых мелких единиц языка, не считая элементарное понятие «тождество».
Семы выводятся из более мелких единиц «геносем», образуя классификацию. Например, рассмотрим геносемы: ЛОКАЛИЗАЦИЯ (местонахождение) и ОТРАЖЕНИЕ (восприятие). Эти понятия могут составлять структуру сем, например: МЕСТО, ИДЕЯ, СУЩЕСТВО,
МЕСТО – НЕ ОТРАЖАЕМОЕ, ЛОКАЛИЗУЮЩЕЕ,
ИДЕЯ – ОТРАЖАЕМОЕ, НЕ ЛОКАЛИЗУЮЩЕЕ,
СУЩЕСТВО – ОТРАЖАЮЩЕЕ, ЛОКАЛИЗОВАННОЕ и так далее.
Таким образом, СУЩЕСТВО – это то, что способно к ВОСПРИЯТИЮ (идей) и ЛОКАЛИЗОВАНО в пространстве (месте) и т.д. Три геносемы ВКЛЮЧЕНИЕ, ВОСПРИЯТИЕ и ЛОКАЛИЗАЦИЯ имеют сложную структуру, например, ЛОКАЛИЗАЦИЯ. ЧТО ЛОКАЛИЗОВАНО или ВОСПРИЯТИЕ. ТО, ЧТО ВОСПРИНИМАЕТ. Трех геносем в сочетании со служебными символами «тождество», «отрицание» и «объект» достаточно для задания всех сем языка и далее любого понятия или слова. В свою очередь геносемы можно определить через понятия «тождество», «отрицание» и «объект».
2.3.5. Классификация понятий
Рассмотрим классификацию понятий P1.D2. Под понятием понимается семантическая единица, которой может соответствовать некоторое реально существующее или гипотетически возможное слово языка. Например, понятию «гуляющий за городом» не соответствует в русском языке ни одно слово. Напротив, для английского языка это будет слово «rambler». Как и любую другую единицу языка, понятие можно дробить и анализировать как систему составляющих ей более мелких единиц. Так, например, понятию «уходить» соответствует конструкция из сем – более мелких единиц: ОТНОШЕНИЕСУЩЕСТВОМЕСТО и «1 0». Напротив, слово «приходить» имеет структуру: ОТНОШЕНИЕСУЩЕСТВОМЕСТО и «0 1». ОТНОШЕНИЕ, СУЩЕСТВО, МЕСТО и т.д. Таким образом, можно разлагать понятия (как и другие единицы) на составляющие компоненты значения и в результате сводить их к множеству связанных друг с другом единиц более низкого уровня вывода. Классификация понятий должна отражать их внутреннюю структуру. Для классификации важно определить порядок следования понятий друг за другом. Например, в предлагаемой классификации понятие «думать» стоит в иерархии понятий на месте, следующем за понятием «приходить» или «уходить», поскольку сема МЕСТО имеет приоритет над семой ИДЕЯ и их внутренняя структура будет соответствовать порядку их следования. Это дает критерии к однозначной линеаризации предлагаемой классификации на основе отношений порядка на уровнях классификации и приоритетов определенных уровней.
2.3.6. Синтагмы и валентности
В построении предложений важную роль играет сочетание понятий. Например, слово «видеть» сочетается со словом «груша» – «видеть грушу». А слова «человек» и «видеть» могут сочетаться двояко: «видеть человека» и «человек видит». Для построения осмысленных фраз важно знать, может ли пара слов сочетаться друг с другом определенным образом или нет. Для этого, во-первых, все слова представляются в виде системы валентностей. Например, понятие «обижать» имеет структуру: ОТНОШЕНИЕ СУЩЕСТВО СУЩЕСТВО. Значит, любое понятие, тождественное понятию «существо», может быть подставлено в эту структуру и может сочетаться со словом «обижать» как подлежащее или дополнение. Под валентностью понимается потенциальная связь слова с другими словами. Например, в семантической структуре слова «хранить»: ОТНОШЕНИЕ СУЩЕСТВО ПРЕДМЕТ отношение является нулевой валентностью, СУЩЕСТВО – первой валентностью, ПРЕДМЕТ – второй валентностью. На основе определения места слова в классификации задается его валентностная структура. Для определения сочетаемости понятий необходимо использовать данные о том, может ли одна валентность быть тождественна другой или нет. На этот вопрос можно ответить на основе главной аксиомы сочетаемости понятий: «Любые две единицы языка могут быть тождественны, если не верно, что одна из них содержит компоненту, а другая – ее отрицание. Иными словами,
A B C ((A.C) & (B.C)).