- •Институт вычислительного моделирования
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов 21
- •Глава 2. Принцип объектных определений как основа классификации единиц языка 53
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов 86
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов 114
- •Введение
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов
- •1.1. Проблема применения лингвистического аппарата в естественно-языковых интерфейсах программных систем
- •1.1.1. Проблема исследования значения
- •1.1.2. Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике
- •1.2. Семантические классификации языковых единиц в лингвистических базах данных
- •1.2.1. История составления словарей
- •1.2.2. Семантические поля, тезаурусы, темы и подтемы
- •1.2.3. Задача представления иерархии языковых единиц
- •1.3. Лингвистические исследования множества слов в речи
- •1.3.1. Тождественные элементы значения слов в тексте
- •1.3.2. Сильные и слабые импликации в тексте
- •1.3.3. Порождающие грамматики
- •1.4. Представление слов языка и проблема полисемии
- •1.4.1. Внутренняя структура слова, ядро и периферия
- •1.4.2. Дефинитивное и полное значение слова
- •1.4.3. Применение компонентного анализа
- •1.4.4. Лексико-семантические варианты в языке и речи
- •1.5. Единство формальных и смысловых характеристик слова в искусственных языках для машинного перевода
- •1.5.1. Системы типа «Интерлингво» и машинный перевод
- •1.5.2. Проблемы создания языка описания семантики
- •1.6. Табличный естественно-языковой интерфейс
- •1.7. Задачи диссертационной работы
- •Выводы к главе 1
- •Глава 2. Принцип объектных определений как основа классификации единиц языка
- •2.1. Формализация дефиниций
- •2.1.1. Общий вид формальной дефиниции
- •2.1.2. Последовательность классификаций единиц языка
- •2.1.3. Определение базиса понятийного аппарата словарных дефиниций
- •2.1.4. Представление языка
- •2.2. Принципы построения классификации
- •2.2.1. Множество классификаций
- •2.2.2. Множество отрицаний в определении классификации единиц языка
- •Семантика и семантическая классификация
- •2.3.1. Семантический и другие аспекты языка
- •2.3.2. Проблема построения классификаций вида Ai.Cj
- •2.3.3. Семы классификации
- •2.3.4. Геносемы
- •2.3.5. Классификация понятий
- •2.3.6. Синтагмы и валентности
- •2.3.7. Факты классификации
- •2.3.8. Высказывания
- •2.4. Понятийное пространство в целом
- •Выводы к главе 2
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов
- •3.1. Общие принципы построения словаря
- •3.1.1. Понятийное пространство и его наполнение
- •3.1.2. Классификация p1.D3 в целом
- •3.2. Уровни классификации
- •3.2.1. Вектор классификации слов и понятий
- •3.2.2. Валентностный уровень классификации
- •3.2.3. Уровень основных сем
- •3.2.4. Уровень локализации
- •3.2.5. Уровень свойств
- •3.2.6. Уровень отношений
- •3.2.7. Рекурсивное порождение последующих уровней классификации
- •3.3. Примеры понятий и их кодовых обозначений
- •3.3.1. Примеры понятий для уровня основных сем
- •3.3.2. Примеры понятий для валентностного уровня классификации
- •3.3.3. Примеры понятий уровня локализации
- •Семантический код описания смысла
- •3.4.1. Кодировка сочетаний групп слов
- •3.4.2. Кодировка стилистики языка
- •3.4.3. Формула слова и плановые языки
- •3.5. Типы классификаций
- •3.5.1. Словарь гиперонимов
- •3.5.2. Тематический словарь
- •3.5.3. Словарь дефинонимов
- •Выводы к главе 3
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов
- •4.1. Системы «Электронный словарь» и «Электронный разговорник»
- •4.2. Назначение системы «Электронный словарь»
- •4.3. Функции системы «Электронный словарь»
- •4.4. Состав и структура системы «Электронный словарь»
- •4.5. Входные и выходные данные
- •4.6. Функционирование системы «Электронный словарь»
- •4.7. Программная система «Электронный разговорник»
- •4.7.1. Назначение программы «Электронный разговорник»
- •4.7.2. Функции программы «Электронный разговорник»
- •4.7.3. Структура программы «Электронный Разговорник»
- •4.7.4 Входные и выходные данные программы «Электронный разговорник»
- •4.7.5. Описание работы программы «Электронный разговорник»
- •Выводы к главе 4
- •Заключение
- •Литература
- •Приложение 1. Определения основных терминов
- •Приложение 2. Фрагмент словаря подстановочных таблиц
1.2. Семантические классификации языковых единиц в лингвистических базах данных
1.2.1. История составления словарей
Первые прообразы современных словарей появились еще до 20 века до нашей эры. В середине первого тысячелетия они уже были во многом схожи с современными словарями. Наибольший размах составление словарей приобрело с появлением книгопечатания, но многие билингвистические словари европейских языков появляются только в XVIII – XIX веках, а словари малых народов и того позже. В советский период в России словарному делу и языкам малых народов уделяется особое внимание [18].
Что касается науки о составлении словарей и ее особого места в системе наук, то этот вопрос был окончательно решен лишь во второй половине XX века [86].
Некоторые из основных решенных лексикологией вопросов – это определение видов словарей, структуры словаря, и, в частности, структуры словарной статьи. Л. П. Ступин выделяет пять главных признаков деления словарей на классы.
1) Объект описания.
По этому признаку словари делятся на энциклопедические и лингвистические. Первые, в отличие от вторых, объясняют не слова как таковые, а предметы, вещи, события, явления, которые обозначены словами.
2) Объем вокабуляра, количество слов в словаре.
Долгое время в практике советской лексикографии господствовал «принцип включения любого зарегистрированного слова из неограниченного репертуара источников», что из-за обилия последних в начале советской эпохи особенно выходило за рамки здравого смысла. В результате отказа от этого принципа были «практически созданы и теоретически намечены три основных типа нормативных общих словарей русского языка»:
А) Большой, представляющий современный литературный язык в широкой исторической перспективе.
Б) Средний, с детальной разработкой исторически оправданно стилистического многообразия современного литературного языка.
В) Краткий, популярного типа, стремящийся к нормализации современной литературной речи.
3) По количеству языков, отраженных и сопоставленных в словаре.
Бывают одно-, дву- и многоязычные словари.
4) По функциональной разновидности языка, описываемой в словаре.
a) по назначению,
b) по эпохе.
5) По масштабу единиц, описываемых в языке.
Это могут быть слова, словосочетания, фразеологизмы. В качестве шестого критерия можно предложить особенности упорядочения слов в языке. Слова могут располагаться в алфавитном порядке либо семантически.
7) По способу описания лексики.
Соответственно можно выделить следующие виды словарей:
Идеографические словари имеют свои особые функции и преимущества. Ведь для того чтобы найти в словаре алфавитного типа нужное слово, необходимо знать это слово (его форму), а если слово забыто или его трудно вспомнить, или оно вообще не известно пользователю словаря, то найти его в таком издании достаточно сложно. Именно поэтому и существуют словари, где слова располагаются не в алфавитном порядке, а в порядке смысловом, по связям слов, в частности, по их смысловой близости. Такие словари называются идеографическими, и принцип их построения – не от слова к понятию, а от понятия к слову. Наиболее известным словарем этого типа является справочник П. Роже (Roget P. M. Thesaurus of English Words and Phrases Classified and Arranged so as to Facilitate the Expressions of Ideas in Literary Composition Lnd, 1852). Ценность справочника Роже в том, что если необходимо выразить идею, например, понятие «любовь», то зная хотя бы одно слово, обозначающее это понятие, можно легко найти в словаре целый набор слов (включая все части речи), так или иначе связанных с этим понятием. Кроме словаря Роже в англоязычной лексикографии имеются и другие идеографические издания: Laird Ch. Webster's New World Thesaurus. N. Y., New American Library, 1971. Laffail J. A. Concept Dictionary of English. Essex, N. Y., 1973.
Словарное издание может включать в себя следующие пункты.
-
Введение или предисловие.
-
Раздел «Как пользоваться словарем».
-
Ключ к системе транскрипции, применяемой в словаре.
-
Список сокращений и их объяснения.
-
Основной список слов, т. е. собственно словарь.
-
Дополнительный материал, различные приложения.
Структура словарной статьи в общем виде может выглядеть следующим образом.
1. Заглавное слово, открывающее словарную статью.
2. Описание семантико-стилистических и грамматико-функциональных особенностей слова.
3. Документальное подтверждение использования слова в речи.
Структура словарной статьи толкового словаря дана Л. П. Ступиным в следующем виде.
1. Орфография слова с указанием слогоделения.
2. Орфоэпия (произношение) слова при помощи алфавита и деокритических знаков.
3. Грамматика с указанием на части речи с перечнем основных словоизменительных форм слова.
4. Этимология (язык источник и первоначальное значение элементов слова).
-
Семантика, вскрывает структуру значения слова.
-
Стилистические пометы.
Словарные определения бывают 3-х типов:
1) логический тип (через род и видовое отличие),
2) лингвистический тип (через синонимы),
3) переводные словари (через эквивалент на другом языке).
Очевидно, что пока информация словарей и баз данных не будет представлена в виде понятийного пространства, где семантически схожая информация расположена близко друг к другу, структура данных не будет достаточно простой ни для создания достаточно общих алгоритмических правил, ни для ясного представления информации в рамках естественно-языкового интерфейса. Для достижения этого структура словаря должна быть представлена в форме дерева классификации, свойства которого рассматриваются ниже [61, 62, 83, 91, 3, 6 - 11].