
- •Институт вычислительного моделирования
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов 21
- •Глава 2. Принцип объектных определений как основа классификации единиц языка 53
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов 86
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов 114
- •Введение
- •Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов
- •1.1. Проблема применения лингвистического аппарата в естественно-языковых интерфейсах программных систем
- •1.1.1. Проблема исследования значения
- •1.1.2. Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике
- •1.2. Семантические классификации языковых единиц в лингвистических базах данных
- •1.2.1. История составления словарей
- •1.2.2. Семантические поля, тезаурусы, темы и подтемы
- •1.2.3. Задача представления иерархии языковых единиц
- •1.3. Лингвистические исследования множества слов в речи
- •1.3.1. Тождественные элементы значения слов в тексте
- •1.3.2. Сильные и слабые импликации в тексте
- •1.3.3. Порождающие грамматики
- •1.4. Представление слов языка и проблема полисемии
- •1.4.1. Внутренняя структура слова, ядро и периферия
- •1.4.2. Дефинитивное и полное значение слова
- •1.4.3. Применение компонентного анализа
- •1.4.4. Лексико-семантические варианты в языке и речи
- •1.5. Единство формальных и смысловых характеристик слова в искусственных языках для машинного перевода
- •1.5.1. Системы типа «Интерлингво» и машинный перевод
- •1.5.2. Проблемы создания языка описания семантики
- •1.6. Табличный естественно-языковой интерфейс
- •1.7. Задачи диссертационной работы
- •Выводы к главе 1
- •Глава 2. Принцип объектных определений как основа классификации единиц языка
- •2.1. Формализация дефиниций
- •2.1.1. Общий вид формальной дефиниции
- •2.1.2. Последовательность классификаций единиц языка
- •2.1.3. Определение базиса понятийного аппарата словарных дефиниций
- •2.1.4. Представление языка
- •2.2. Принципы построения классификации
- •2.2.1. Множество классификаций
- •2.2.2. Множество отрицаний в определении классификации единиц языка
- •Семантика и семантическая классификация
- •2.3.1. Семантический и другие аспекты языка
- •2.3.2. Проблема построения классификаций вида Ai.Cj
- •2.3.3. Семы классификации
- •2.3.4. Геносемы
- •2.3.5. Классификация понятий
- •2.3.6. Синтагмы и валентности
- •2.3.7. Факты классификации
- •2.3.8. Высказывания
- •2.4. Понятийное пространство в целом
- •Выводы к главе 2
- •Глава 3. Словарь порождения языковых единиц как средство формирования «табличных» интерфейсов
- •3.1. Общие принципы построения словаря
- •3.1.1. Понятийное пространство и его наполнение
- •3.1.2. Классификация p1.D3 в целом
- •3.2. Уровни классификации
- •3.2.1. Вектор классификации слов и понятий
- •3.2.2. Валентностный уровень классификации
- •3.2.3. Уровень основных сем
- •3.2.4. Уровень локализации
- •3.2.5. Уровень свойств
- •3.2.6. Уровень отношений
- •3.2.7. Рекурсивное порождение последующих уровней классификации
- •3.3. Примеры понятий и их кодовых обозначений
- •3.3.1. Примеры понятий для уровня основных сем
- •3.3.2. Примеры понятий для валентностного уровня классификации
- •3.3.3. Примеры понятий уровня локализации
- •Семантический код описания смысла
- •3.4.1. Кодировка сочетаний групп слов
- •3.4.2. Кодировка стилистики языка
- •3.4.3. Формула слова и плановые языки
- •3.5. Типы классификаций
- •3.5.1. Словарь гиперонимов
- •3.5.2. Тематический словарь
- •3.5.3. Словарь дефинонимов
- •Выводы к главе 3
- •Глава 4. Программное обеспечение естественно-языковых интерфейсов
- •4.1. Системы «Электронный словарь» и «Электронный разговорник»
- •4.2. Назначение системы «Электронный словарь»
- •4.3. Функции системы «Электронный словарь»
- •4.4. Состав и структура системы «Электронный словарь»
- •4.5. Входные и выходные данные
- •4.6. Функционирование системы «Электронный словарь»
- •4.7. Программная система «Электронный разговорник»
- •4.7.1. Назначение программы «Электронный разговорник»
- •4.7.2. Функции программы «Электронный разговорник»
- •4.7.3. Структура программы «Электронный Разговорник»
- •4.7.4 Входные и выходные данные программы «Электронный разговорник»
- •4.7.5. Описание работы программы «Электронный разговорник»
- •Выводы к главе 4
- •Заключение
- •Литература
- •Приложение 1. Определения основных терминов
- •Приложение 2. Фрагмент словаря подстановочных таблиц
Глава 1. Исследование задач формализации семантики языковых единиц в применении к созданию естественно-языковых интерфейсов
1.1. Проблема применения лингвистического аппарата в естественно-языковых интерфейсах программных систем
1.1.1. Проблема исследования значения
Построение взаимодействия с компьютером на естественном языке предполагает самые серьезные исследования в области семантики. На сегодня наиболее разработанной областью остаются дисциплины, изучающие формальные аспекты языка: грамматику, фонетику и прочие. Этим объясняется успех, например, в создании грамматических анализаторов, систем проверки орфографии, синтеза и анализа звуковой речи и поиска текстов по ключевым словам. При этом, в таких системах, как машинный перевод, экспертные системы, реферирование текстов и семантический поиск информации прогресс не столь значителен. Это заставляет многих «пессимистов» в отношении искусственного интеллекта говорить об иррациональности понимания и смысла как такового.
Тем не менее, изучение содержательной стороны языка сегодня выдвинулось в число центральных проблем лингвистики. Это не удивительно, так как цель всякой речи состоит, прежде всего, в том, чтобы передавать смысловое значение. Более того, в последние два десятилетия был достаточно осознан общенаучный характер теории значения, и эта проблематика широко разрабатывается не только с позиции лингвистики, но также философии, логики, психологии, семиотики, социологии, теории связи, кибернетики, информатики, математического и программного обеспечении вычислительных машин, комплексов и компьютерных сетей и в ряде других направлений.
Вместе с тем пристальный интерес к семантике выявил достаточно сложный и многоаспектный характер проблем формального представления языковых единиц естественного языка.
Теория значения к настоящему времени еще не вышла из начальной стадии разработки, а различные аспекты исследования значения и многочисленные частные и общесемантические концепции с трудом поддаются согласованию и сведению в единую теорию. Но даже в отсутствии общепризнанной теории, при всем разнообразии взглядов и подходов в современной семантике, сделано уже немало, и нынешние знания в этой области далеко ушли от наивных представлений, которые держались, почти не меняясь, от древности до нашего времени.
Семасиология по необходимости должна иметь в перспективе общенаучную теорию значения [18]. Отсутствие единой теории значения объясняет тот пробел, который наблюдается сегодня между фрагментарно-интуитивными положениями традиционной лингвистической семантики и концепциями представления и алгоритмов обработки информации, предлагаемых инженерной лингвистикой.
Очевидно, что для обеспечения возможности применения лингвистических исследований в рамках создания средств взаимодействия с пользователем необходима единая семантическая теория. Можно предположить, что предлагаемая в диссертации концепция классификации языковых единиц различных масштабов (уровней) может служить основой построения единой семантической теории и найдет широкое применение в системах порождения естественного языка, что оказывается востребованным именно для построения интерфейсов пользователя с программным обеспечением на различных языках.
1.1.2. Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике
В языкознании, в частности, в семантике, изначально выделяются два основных предмета лингвистической науки – язык и речь. Под языком понимается представление о лингвистических единицах в целом, а под речью –знаковое выражение определенных частных представлений о реальности средствами языка. Язык с точки зрения инженерной лингвистики представляет собой множество всех допустимых фраз – сочетаний слов. Традиционное средство порождения языка – порождающие грамматики. В традиционной лингвистике под языком понимают набор слов, дефиниций, правил и принципов, по которым строится речь. Под речью же понимается последовательность знаков – вербальных и невербальных - письменной и устной речи. Язык в большей степени рассматривает классификацию языковых единиц, представляя собой некую статическую систему. Речь, напротив, явление динамическое, предполагающее творческие и порождающие акты.
Грамматика как лингвистическая наука на протяжении всего «оптимистического» периода в исследовании проблем искусственного интеллекта, с 60-х по 70-е годы, когда большинство исследователей верило в скорое создание искусственного разума, занимала ведущее место. Даже системы порождения фраз были названы порождающими грамматиками. С конца 70-х, начала 80-х годов зреет пессимизм в отношении перспектив прохождения машиной теста Тьюринга в принципе. Так, например, ведущие сторонники пессимизма в отношении перспектив искусственного интеллекта Дрейфус и Хьюберт развивают тезис, о том, что машина не может мыслить, поскольку для мышления требуется понимание, а понимания не может быть там, где понимать некому [34].
Американские авторы часто ссылаются на парадокс «китайской комнаты». В комнате сидит один человек, перед ним, в различных ящиках, должны лежать карточки с китайскими иероглифами, и, не зная значений написанных на них слов, но руководствуясь определенными правилами, этот человек должен составить поэму на китайском языке. По мнению многих специалистов, этот парадокс показывает нелепость попыток построения искусственного интеллекта. Многие оптимисты при этом стали утверждать, что создать искусственный интеллект возможно, но невозможно при этом понять, как он будет работать, и необходимо просто экстенсивно наращивать аппаратное обеспечение машины [2, 95], уподобляя ее по сложности человеческому мозгу, тогда якобы компьютер, за счет самообучения, сам построит непостижимые ячейки памяти и связи между ними, превзойдя более костный естественный интеллект [5, 10]. Пиотровский Р. Г., напротив, считает, что естественный интеллект всегда будет превосходить искусственный, поскольку, если мы создали искусственный интеллект, то мы понимаем все то, чем он является, и, стало быть, сами вмещаем в себя больше, чем искусственный интеллект, а именно, интеллект естественный [72].
Однако, тут можно возразить, что составители компьютерных программ, обыгрывающих гроссмейстеров, не обязательно должны сами уметь обыгрывать гроссмейстеров. На наш взгляд, главным для построения программ, моделирующих естественную речь, должен быть принцип максимальной простоты, даже кажущейся примитивности таких систем, позволяющих человеку настолько успешно рефлектировать собственную мыслительную активность, что он смог бы достаточно легко перенести ее принципы на «бездушные» машины без потери эффективности, но при сохранении «понятности» таких систем.
При этом уже сейчас основные надежды на прорыв в области искусственного интеллекта (ИИ) возлагаются на исследования в области семантики, а именно, предметной области на стыке лингвистической семантики, инженерной лингвистики, философии и психологии. Именно на недостаток философского осмысления понятийной организации мира списываются сегодня основные сложности в области искусственного интеллекта и, в частности, создании естественно-языковых интерфейсов, позволяющих пользователю ясно представить структуру как данных в целом, так и их отдельных фрагментов [75].