
- •Институт вычислительного моделирования
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов 21
- •Глава 2. Принцип объектных определений как основа классификации единиц языка 53
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов 86
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов 114
- •Введение
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов
- •1.1. Проблема применения лингвистического аппарата в естественно-языковых интерфейсах программных систем
- •1.1.1. Проблема исследования значения
- •1.1.2. Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике
- •1.2. Семантические классификации языковых единиц в лингвистических базах данных
- •1.2.1. История составления словарей
- •1.2.2. Семантические поля, тезаурусы, темы и подтемы
- •1.2.3. Задача представления иерархии языковых единиц
- •1.3. Лингвистические исследования множества слов в речи
- •1.3.1. Тождественные элементы значения слов в тексте
- •1.3.2. Сильные и слабые импликации в тексте
- •1.3.3. Порождающие грамматики
- •1.4. Представление слов языка и проблема полисемии
- •1.4.1. Внутренняя структура слова, ядро и периферия
- •1.4.2. Дефинитивное и полное значение слова
- •1.4.3. Применение компонентного анализа
- •1.4.4. Лексико-семантические варианты в языке и речи
- •1.5. Единство формальных и смысловых характеристик слова в искусственных языках для машинного перевода
- •1.5.1. Системы типа «Интерлингво» и машинный перевод
- •1.5.2. Проблемы создания языка описания семантики
- •1.6. Табличный естественно-языковой интерфейс
- •1.7. Задачи диссертационной работы
- •Выводы к главе 1
- •Глава 2. Принцип объектных определений как основа классификации единиц языка
- •2.1. Формализация дефиниций
- •2.1.1. Общий вид формальной дефиниции
- •2.1.2. Последовательность классификаций единиц языка
- •2.1.3. Определение базиса понятийного аппарата словарных дефиниций
- •2.1.4. Представление языка
- •2.2. Принципы построения классификации
- •2.2.1. Множество классификаций
- •2.2.2. Множество отрицаний в определении классификации единиц языка
- •Семантика и семантическая классификация
- •2.3.1. Семантический и другие аспекты языка
- •2.3.2. Проблема построения классификаций вида Ai.Cj
- •2.3.3. Семы классификации
- •2.3.4. Геносемы
- •2.3.5. Классификация понятий
- •2.3.6. Синтагмы и валентности
- •2.3.7. Факты классификации
- •2.3.8. Высказывания
- •2.4. Понятийное пространство в целом
- •Выводы к главе 2
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов
- •3.1. Общие принципы построения словаря
- •3.1.1. Понятийное пространство и его наполнение
- •3.1.2. Классификация p1.D3 в целом
- •3.2. Уровни классификации
- •3.2.1. Вектор классификации слов и понятий
- •3.2.2. Валентностный уровень классификации
- •3.2.3. Уровень основных сем
- •3.2.4. Уровень локализации
- •3.2.5. Уровень свойств
- •3.2.6. Уровень отношений
- •3.2.7. Рекурсивное порождение последующих уровней классификации
- •3.3. Примеры понятий и их кодовых обозначений
- •3.3.1. Примеры понятий для уровня основных сем
- •3.3.2. Примеры понятий для валентностного уровня классификации
- •3.3.3. Примеры понятий уровня локализации
- •Семантический код описания смысла
- •3.4.1. Кодировка сочетаний групп слов
- •3.4.2. Кодировка стилистики языка
- •3.4.3. Формула слова и плановые языки
- •3.5. Типы классификаций
- •3.5.1. Словарь гиперонимов
- •3.5.2. Тематический словарь
- •3.5.3. Словарь дефинонимов
- •Выводы к главе 3
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов
- •4.1. Системы «Электронный словарь» и «Электронный разговорник»
- •4.2. Назначение системы «Электронный словарь»
- •4.3. Функции системы «Электронный словарь»
- •4.4. Состав и структура системы «Электронный словарь»
- •4.5. Входные и выходные данные
- •4.6. Функционирование системы «Электронный словарь»
- •4.7. Программная система «Электронный разговорник»
- •4.7.1. Назначение программы «Электронный разговорник»
- •4.7.2. Функции программы «Электронный разговорник»
- •4.7.3. Структура программы «Электронный Разговорник»
- •4.7.4 Входные и выходные данные программы «Электронный разговорник»
- •4.7.5. Описание работы программы «Электронный разговорник»
- •Выводы к главе 4
- •Заключение
- •Литература
- •Приложение 1. Определения основных терминов
- •Приложение 2. Фрагмент словаря подстановочных таблиц
3.2.2. Валентностный уровень классификации
В основе представляемой классификации лежит ряд приводимых выше классификаций геносем. На основе двух семантических понятий (местонахождение и восприятие) задаются значения семи сем: МЕСТО, ПРЕДМЕТ, СУЩЕСТВО, ИНФОРМАЦИЯ, ИДЕЯ, СОЗНАНИЕ, ОТНОШЕНИЕ. Объединением этих семи сем является понятие НЕЧТО. Рассмотрим понятие о валентностях слов (способности слов сочетаться с другими словами). На основании этого можно конструировать различные схемы слов. Например, схема ОТНОШЕНИЕ СУЩЕСТВО ПРЕДМЕТ соответствует словам: ломать, производить, хранить, чинить и так далее. (Кто-то чинит предмет, кто-то хранит предмет). Другой пример, схема ОТНОШЕНИЕ СУЩЕСТВО СУЩЕСТВО соответствует словам: убить, родить, спасать, воскрешать и так далее. (Кто-то убивает кого-то, кто-то родил кого-то). Все слова языка неизбежно укладываются в подобные схемы. При этом наиболее часто используются схемы типа:
НЕЧТО,
НЕЧТО НЕЧТО,
ОТНОШЕНИЕ НЕЧТО,
ОТНОШЕНИЕ НЕЧТО НЕЧТО,
ОТНОШЕНИЕ СУЩЕСТВО НЕЧТО,
ОТНОШЕНИЕ СУЩЕСТВО НЕЧТО НЕЧТО,
ОТНОШЕНИЕ СУЩЕСТВО СУЩЕСТВО НЕЧТО,
ОТНОШЕНИЕ СУЩЕСТВО СУЩЕСТВО НЕЧТО НЕЧТО.
Эти восемь валентностных конструкций составляют первый уровень классификации
В естественно-языковых интерфейсах, построенных на основе порождающих грамматик. заложен принцип импликаций или валентностей, который в предлагаемой классификации работает на валентностном уровне. Табличный тип интерфейса, вбирающий в себя все уровни классификации понятий, представляет собой более дружелюбную программную реализацию, чем порождающие грамматики с набором правил, действующих согласно валентностной структуре слов. Это связано с тем, что набор правил порождающих грамматик скрыт от пользователя и плохо поддается визуализации. Табличные же интерфейсы явно демонстрируют соответствие их структуры простой логике и «здравому смыслу» построения предложений. Таким образом, предлагаемое исследование в области семантики и упорядочение лексических пластов позволяет создать настолько простую систему взаимодействия программного обеспечения с пользователем, что порождение естественного языка в рамках программного обеспечения сводится к простым подстановкам и выбору нужного понятия из столбцов подстановочных таблиц. Концепция же Smart таблиц должна исключить в будущем шероховатости и пробелы в построении фраз естественного языка, и их представление в виде пользовательского интерфейса будет накладывать дополнительные ограничения на составление фраз со стороны программного обеспечения.
3.2.3. Уровень основных сем
На втором уровне предлагаемой классификации определяется, какая из основных семи сем стоит вместо символа НЕЧТО в предлагаемых валентностных схемах. Таким образом, на валентностном уровне классификации определяются типы валентностных конструкций, а уровень основных сем конкретизирует значение этих конструкций, определяя символ НЕЧТО как одну из семи сем: МЕСТО, ПРЕДМЕТ, СУЩЕСТВО, ИНФОРМАЦИЯ, ИДЕЯ, СОЗНАНИЕ, ОТНОШЕНИЕ или оставляя ее неопределенной.
3.2.4. Уровень локализации
На третьем уровне классификации определяются так называемые «локализации» – части классификации и формулы слов языка, характеризующие их отношение к пространственному местоположению. Например, понятие «орган» относится к классу ПРЕДМЕТ, и далее конкретизируется как ПРЕДМЕТ ИЗ СУЩЕСТВА. «Одежда» есть ПРЕДМЕТ НА СУЩЕСТВЕ. «Контейнер» есть ПРЕДМЕТ В КОТОРОМ ПРЕДМЕТ. «Коллекция» есть ПРЕДМЕТ ИЗ ПРЕДМЕТОВ. Формула ПРЕДМЕТ В СУЩЕСТВЕ обозначает понятия «еда, пища, напитки». Общая схема локализации следующая: ИЗ / В / НА / ОКОЛО (КОТОРОГО) ЖИВОЕ / НЕ ЖИВОЕ, где под символом «/» понимается дизъюнкция. Уровни классификации могут повторяться рекурсивно. Например, группа слов «ресторан, кафе, бар, столовая, закусочная» определяется при помощи следующей последовательности признаков классификации НЕЧТО \\ ПРЕДМЕТ \\ В КОТОРОМ ЖИВОЕ \\ ОТНОШЕНИЕ СУЩЕСТВО НЕЧТО \\ ПРЕДМЕТ \\ В ЖИВОМ, что обозначает здание для действий с пищей, где символ «\\» означает переход на следующий уровень классификации.
Уровень основных сем в сочетании с уровнем локализации задает классы лексических единиц для подстановочных таблиц в рамках систем ЕЯ интерфейса. Например, подстановочная таблица по теме «симпатии к одежде», подстановочная таблица по теме «поход в магазин» и далее - по теме «деньги за товар» образуют последовательность подстановочных таблиц, выборка предложений из которых дает предложения вида: «Я люблю полосатые жакеты, я с удовольствием ношу полосатую одежду. Завтра я иду в магазин на улице Иванова. Я еду туда на машине. Я заработал 50 долларов и хочу потратить 300 рублей на новый жакет». Таким образом, два вышеупомянутых уровня классификации не только определяют позицию классов слов в понятийном пространстве, но и могут входить в классификацию высказываний, организованную тематически. Последнее должно визуализировать в рамках естественно-языкового интерфейса не только структуру предложения, но и структуру возможных текстов. Таким образом, последовательность подстановочных таблиц является еще одним средством построения табличного ЕЯ интерфейса.