Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Интеллектуальные_системы.doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
861.7 Кб
Скачать

Другой вариант модели синтаксического анализатора рассмотрим на примере проекта «диалинг».

Целью синтаксического анализа здесь является построение синтаксических групп на одном морфологическом варианте одной клаузы. Группы строятся с помощью синтаксических правил.  Клаузой здесь называется простое предложение в составе сложного или просто простое предложение. Морфологический вариант – набор юнитов. Юнит – это либо слово либо подклауза данной клаузы.  Синтаксическая группа определяется следующими параметрами:

  1. Номер первого и последнего юнита.

  2. Тип группы (вид синтаксической связи).

  3. Главная подгруппа.

  4. Внешние граммемы группы.

Тип групп – это строковая константа (НАР_ПРИЛ,ПРИЛ_СУЩ и т.д.). Главная подгруппа – подгруппа (или слово) которая определяется как главная в описании данного типа группы. Внешние граммемы группы – это морфологические характеристики группы по отношению к группам вне данной группы. Например внешние граммемы группы «кот и пес» содержат множественное число, в то время как оба слова внутри этой группы имеют единственное число.  Синтаксическое правило – это правила соединяющие существующие группы и отдельные слова в новые группы. Все правила упорядочены, поэтому синтаксическая омонимия (неоднозначность в построении групп) игнорируется, то есть строится всегда один вариант.  На вход алгоритма синтаксического анализа подается морфологический вариант клаузы. Сначала к словам клаузы применяется первое правило и строятся все группы первого типа (КОЛИЧ), потом второе правило применяется к словам, незадействованным в группах и уже созданным группам и строятся группы второго типа. И так далее, пока не будут применены все правила.  Упорядоченный список типов групп выглядит следующим образом:

4. Семантический анализ. Реализация семантического анализа в системе диалинг

Основой семантического анализатора в системе ДИАЛИНГ является Русский семантический словарь (РОСС), созданный коллективом под руководством Н.Н. Леонтьевой. Этот же словарь использовался в системе ПОЛИТЕКСТ и системе французско-русского перевода ФРАП.  Структура словаря содержит следующие поля.  - Лексема;  - Категория лексемы;  - Семантический класс лексемы;  - Грамматический класс лексемы;  - Валентная структура лексемы;  - Семантические и грамматические ограничения на выражение каждого актанта из валентной структуры;  - Английские эквиваленты лексемы;  Категории лексем, представленных в словаре, следующие:

  1. ЭТК.ОБ – слова, обозначающие предмет или одушевленное лицо (например, молоток, директор).

  2. ЭТК.СИТ – слова, обозначающие действие, явление, ситуацию или процесс(например, дегенерация).

  3. ЭТК – слова, для которых затруднительно указать, к какой из категорий 1) или 2) оно относится.

  4. ОТН – слова, обозначающие семантические отношения (например, признак, часть).

  5. ОПЕР – слова, не имеющие собственного смысла, но модифицирующие смысл других слов (например, еще, уже, не).

Семантический класс лексемы определяется набором семантических характеристик (СХ). Из СХ строятся формулы при помощи логических связок И, ИЛИ. Каждому слову ставится в соответствие некоторая такая формула. Используются следующие типы СХ:

  1. АБСТР – любое абстрактное существительное или прилагательное

  2. АРТ – артефакт, все, что сделано человеком.

  3. ВЕЛИЧ – прилагательные, относящиеся к какой-либо количественной характеристике (сильный, низкий)

  4. ВЕЩВО – вещество.

  5. ВЛАСТЬ – государственные учреждения и должности.

  6. ВМЕСТЛ – любая тара.

  7. ВОСПР – все глаголы и существительные, относящиеся к чувствам и ощущениям (видеть, слышать).

  8. ВРЕД – нежелательный результат чего-либо.

  9. ГЕОГР – географический объект.

  10. ГОС – государство.

  11. ДВИЖ – глаголы движения (идти, ехать, кидать).

  12. ДОЛЖ – должность, профессия.

  13. Д-УСТР – деталь устройства.

  14. ИЗМ – действия, изменяющие что-либо (увеличивать, резать).

  15. ИНТЕЛ – действия, связанные с интеллектуальной деятельностью (думать, решать).

  16. ИНТРВЛ – временной интервал (месяц, год, день).

  17. ИНФ – информация (знание, команда, сообщение).

  18. КОМУНИК – глаголы коммуникации (говорить, выступать).

  19. НОСИНФ – носитель информации.

  20. Н-ТРЕБ – набор требований (закон, правила).

  21. ОДЕЯТ – область деятельности (спорт, наука, культура, промышленность).

  22. ОДУШ – одушевленный объект (человек, начальник).

  23. ОРГ – организация.

  24. ПРЕДМ – любой предмет (нечто, меньшее человека по размеру).

  25. ПРОТЯЖ – протяженные объекты (река, дорога, граница).

  26. СОЦ – общественные явления, ситуации, события.

  27. УСТР – устройство.

  28. ФИН – финансы.

  29. ХОР – все, что оценивается положительно.

  30. ЭМОЦ – прилагательные, выражающие эмоции (счастливый, несчастный, грустный).

  31. ЯВЛЕН – ситуация с неявной причиной (ураган, похолодание).

Кроме того, при записи формул применяются три операторные характеристики:

  1. СОБИР – множество однотипных объектов. Например: СХ(народ)=СОБИР,ОДУШ.

  2. ОТСУТ – отрицание наличия чего-либо. Например: СХ(стоять)=ОТСУТ,ДВИЖ.

  3. КАУЗ – каузация ( быть причиной чего-либо).

В системе применяется следующая система семантических отношений, многие из которых аналогичны применяемым в других системах.