Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы

.pdf
Скачиваний:
12
Добавлен:
25.10.2023
Размер:
14.28 Mб
Скачать

Если

указанный признак имеется,

то

перейти

к п. 31,

если

нет —

к п.

29.

Проверить

 

не

 

и Ч =

1.

Если

условие

выпол­

29.

выполнение условия

 

няется,

то перейти

к п. 20, если

 

выполняется — к

п.

30.

 

30.Уменьшить и 1і па единицу. Перейти к п. 31.

31.Проверить информацию к словам и '{ и u2j на совпадение падежей. При положительном результате проверки перейти к п. 32, при отрицательном — к п. 29.

32.Проверить по ранее установленным связям наличие управ­ ляющего слова у слова и1,-. При положительном результате провер­

ки замкнуть связь от

найденного управляющего

слова

к слову u2j

и перейти к п. 33, при

отрицательном — перейти

к ті. 33

без выпол­

нения каких-либо операций.

 

 

33. Проверить по ранее установленным связям наличие у слова uzj подчиненного ему существительного. Если такое существитель­ ное имеется, то замкнуть связь от іг1, к этому существительному и перейти к п. 20. В противном случае перейти к п. 20 без выполнения указанного действия.

34. Проверить наличие признака прилагательного у слова и1;. При положительном результате проверки перейти к п. 35, при отри­

цательном— к п. 20.

п 'і

и

 

1 =

 

Перейти к и. 36.

35.

Положить

V2}=

 

ѵ

і

 

п 1і ^ 1.

36.

Проверить

выполнение

условия н Е = 0 . Если

условие выпол­

няется,

то перейти

к п. 40, если

не выполняется — к

п. 37.

37.Проверить наличие признака существительного у слова и1,- При положительном результате проверки перейти к п. 38, при отри­ цательном — к п. 39.

38.Проверить слова и1,- и v 2j па сочетаемость. Если результат проверки положительный, то замкнуть связь между словами и перей­ ти к п. 20, если отрицательный, то перейти к п. 40.

39.Уменьшить и1; на единицу. Перейти к п. 36.

40.

Положить

ѵІ.і = п і і и v 2j = n 1i +i-

Перейти к п. 41.

условие

вы­

41.

Проверить

выполнение

условия

y2j = ,V + l. Если

полняется, то перейти к п. 45,

если

не выполняется — к

п.

42.

v2j.

42.

Проверить

наличие признака

существительного

у

слова

 

При положительном результате проверки перейти к п. 43, при отри­

цательном — к. п.

44.

 

 

у 1,-

и v 2j

на сочетаемость. При положитель­

ном

43.

Проверить

слова

 

 

результате

проверки замкнуть

связь

между словами и перейти

к п. 20, при отрицательном — перейти к п. 44.

 

 

 

44.

Увеличить

v 2j

на единицу и перейти к п. 41.

 

 

45.

Проверить

выполнение

условия

х = 1 .

Если

условие выпол­

няется— конец

работы

 

алгоритма,

если

 

не выполняется — перейти

к п.

46.

 

 

х== \

 

 

 

 

 

 

 

 

 

 

 

46.

Положить

0

 

и «4 = 1. Перейти к п. 47.

прилагательного.

 

47.

Проверить

наличие

у

слова

м1;

 

признака

При положительном результате проверки перейти к п. 48,

при от­

рицательном-— к п.

50.

списке субстантивированных

48. Произвести

поиск слова и‘ г в

прилагательных. При положительном

результате поиска

перейти

к п. 49, при отрицательном — к п. 50.

 

 

170

49.

Приписать

nсловуl

«Ц

признак

существительного. Перейти

к п. 50.

Увеличить

 

на единицу. Перейти к и. 51.

 

50.

t

 

51.

Проверить

выполнение

условия

гг' г- = УѴ 4- 1.

Если условие вы­

полняется, то стереть все результаты анализа, исключая пп. 1, 46, и перейти к и. 3; если условие не выполняется, то перейти к п. 47.

Вприведенном алгоритме анализ словосочетания на­ чинается с его конца іи выполняется, как правило, за два прохода. При первом проходе (пп. 1—16) связи между словами устанавливаются путем последовательного про­ смотра элементов словосочетания справа налево. Во вто­ ром проходе (пп. 17—45) просмотр производится слева направо и здесь выявляются дополнительные связи, ко­ торые не были выявлены при первом проходе.

Втех случаях, когда в процессе анализа словосоче­

таний встречаются прилагательные, не согласованные с находящимися справа и слева От них существитель­ ными, производится просмотр всех элементов словосо­ четания с целью поиска субстантивированных прилага­ тельных и замены в постоянной грамматической инфор­ мации этих слов признака прилагательного на признак существительного (пп. 46—51). После этого весь анализ словосочетания повторяется. Субстантивированные при­ лагательные (слова типа «мастерская», «столовая» и т. п.), ищутся по специальному списку, где они пред­ ставлены номерами слов.

Результаты первого этапа синтаксического анализа фиксируются путем указания для каждого слова слово­ сочетания перечней порядковых номеров подчиненных ему слов и номеров слов, его подчиняющих. С этой целью все слова в словосочетании нумеруются (см. п. 1 алгоритма).

Известно, что схема связей между словами в имен­ ном словосочетании не всегда может быть правильно построена без привлечения смысла. Но такие случаи очень редки, а неверное построение схем связей обычно не мешает правильному отождествлению понятий. По­ следнее возможно благодаря тому, что грамматические структуры сравниваемых понятий являются результатом работы одного и того же алгоритма.

Вторым этапом синтаксического анализа наименова­ ний понятий является определение однозначной грамма­ тической информации к каждому слову. Прежде всего главному слову словосочетания (первому слева сущест­

171

вительному) и определяющим его прилагательным на­ значается информация «именительный падеж, единст­ венное число», а на прилагательные переносится признак рода главного слова. Далее выполняется операция выде­ ления общей части наборов переменной грамматической информации в группах слов, состоящих из существитель­ ного и зависимых от него прилагательных. В результате выполнения этой операции получается либо однозначная грамматическая информация, либо наборы грамматиче­ ской информации, которые в дальнейшем используются для назначения информации к существительным и при­ лагательным.

Информация к существительным уточняется в сле­ дующем порядке. Если существительное управляется предлогом, то ему назначается первый элемент из соот­ ветствующего набора, который содержит информацию о падеже, допустимую для данного типа предлогов (см. табл. 7.1). Если же существительное управляется дру­ гим существительным, то элемент набора выбирается с учетом возможных для такого существительного зна­ чений признака падежа. При этом сначала ищется эле­ мент с признаком родительного падежа, затем с призна­ ком творительного и, наконец, с признаком дательного падежа. Информация, выбранная для существительных, распространяется и на подчиненные им прилагательные. Неизменяемым словам словосочетания назначается «ну­ левая» информация.

Заключительным этапом синтаксического анализа является приведение структуры словосочетания к кано­ ническому виду. При этом выполняются следующие опе­ рации: 1) прилагательные ставятся перед теми сущест­ вительными, которые они определяют, и упорядочивают­ ся по возрастанию номеров слов; 2) существительные, соединенные сочинительным союзом, располагаются 'по возрастанию их словарных номеров (при этом в случае необходимости изменяется расположение слов относи­ тельно союза); 3) группы слов, соединенные сочини­ тельным союзом и управляемые существительными, рас­ полагаются таким образом, чтобы управляемые слова были упорядочены по возрастанию их номеров; 4) код главного слова словосочетания выносится на первое место; 5) в соответствии с произведенными трансфор­ мациями производится перенумерация слов в словосоче­ тании и перекодировка схемы связей между ними.

172

Поиск и отождествление наименований понятий

Заключительным этапом автоматического кодирова­ ния словосочетаний является поиск по словарю понятий с целью замены кодов, полученных в результате синтак­ сического анализа, на номера понятий. Отождествление исходных и словарных наименований понятий произво­ дится в следующем порядке. Сначала сочетание номе­ ров слов и грамматическая структура кодируемого наи­ менования понятия ищутся по списку сочетаний номеров слов и по списку грамматических структур словаря по­ нятий и заменяются порядковыми номерами по этим спискам. Далее по номеру понятия из словаря выбирает­ ся соответствующий ему номер грамматической струк­ туры и сравнивается с номером, полученным в резуль­ тате поиска по списку грамматических структур. Если эти номера совпадают, то понятия тождественны друг другу. В противном случае они не тождественны.

Среди наименований понятий, используемых в раз­ личных областях практической деятельности, встречают­ ся одинаковые по смыслу словосочетания, отличающиеся

друг от друга не только порядком

следования слов, но

и морфологической структурой

их основ (примером

являются пары словосочетаний «управляющее устройст­

во— устройство управления»,

«меры защиты — защит­

ные меры», «ртутные пары —

пары ртути»). Отождест­

вление таких наименований понятий связано с необходи­ мостью применять трансформации с изменением основ слов. В результате некоторые слова переходят из одного грамматического класса в другой (например, из класса существительных в класс прилагательных или наоборот), а порядок слов в словосочетании и грамматическая ин­ формация к словам изменяются.

Возможность применения трансформаций с измене­ нием основ слов не может быть определена по грамма­ тической структуре словосочетания. Поэтому приходится вводить в словарь понятий дополнительную информацию в виде номеров т р а н с ф о р м а ц и о н н ы х к л а с с о в с л о в о с о ч е т а н и й , определяющих правила преобра­ зования их грамматических структур и словарного со­ става. Различные правила преобразования задаются списком. В словаре слов, в свою очередь, для каждого номера слова указывается номер эквивалентного ему по смыслу слова из другого грамматического класса (для

173

существительного — помер прилагательного, а для при­ лагательного — номер существительного).

Процедура поиска и отождествления наименований понятий с переводом слов из одного грамматического класса в другой выполняется путем последовательного просмотра участков словаря понятий, удовлетворяющих двум условиям:

1) количество слов в словарных словосочетаниях рав­ но количеству слов в исходном словосочетании;

2) главные слова исходного словосочетания и сло­ варных словосочетаний совпадают.

В процессе просмотра для каждого словосочетания словаря формируется его трансформационный ва­ риант, который сравнивается с кодируемым словосоче­ танием.

Слова из класса существительных в класс прилага­ тельных и обратно могут переводиться не только с по­ мощью таблицы, в которой для каждого номера слова из одного класса указывается номер слова из другого класса, по и путем использования закономерностей сло­

вообразования.

При этом номерам основ слов ставятся,

в соответствие

номера т р а н с ф о р м а ц и о н н ы х клас­

сов слов, определяющих порядок преобразования бук­ венных кодов основ. Трансформационные классы основ слов задаются списком правил, в которых указывается, сколько конечных букв следует отделить от основы при ее преобразовании и какое буквосочетание после этого присоединить. Вновь сформированные буквенные коды основ ищутся в словаре и заменяются их номерами.

Декодирование понятий

Подобно процессу кодирования наименований поня­ тий их декодирование также осуществляется в три эта­ па. Сначала по номеру понятия из словаря выбираются соответствующие ему сочетание номеров слов и номер грамматической структуры. Затем из списка грамматиче­

ских

структур

извлекается информация

о формах

слов

и о

р связях,

а также корректируется

порядок

слов

в словосочетании (номер главного слова ставится после номеров определяющих его прилагательных). На заклю­ чительном этапе формируются буквенные коды слово­ форм (см. гл. 7, 8).

174

У

і -

Алгоритмы декодирования понятии значительно про­ ще алгоритмов кодирования, в особенности если наиме­ нования понятий выдаются на печать в основной форме. Если же необходимо согласовать формы наименований понятий с их контекстным окружением, то главному сло­ ву и определяющим его прилагательным назначаются соответствующие число и падеж.

Обычно у именных словосочетаний изменяется только форма главного слова и определяющих его прилагатель­ ных. Но в некоторых случаях имеет место зависимость форм несогласованных определений и относящихся к ним прилагательных от числа главного слова (например, в словосочетаниях, «директор автомобильного завода — директора автомобильных заводов», «начальник цеха — начальники цехов» и т. п.). Возможность такого рода преобразования не может быть обнаружена по синтакси­ ческой структуре словосочетания. Поэтому для правиль­ ного синтеза различных форм словосочетаний необходи­ мо в словаре понятий указывать признак зависимости форм несогласованных определений от значения катего­ рии числа главного слова, а также количество существи­ тельных, на которое эта зависимость распространя­ ется.

Наряду со способами декодирования понятий, осно­ ванными на морфологическом синтезе слов, в АИС мо­ гут применяться и другие способы. Можно, например, хра­ нить в памяти машины таблицы соответствия между но­ мерами понятий и их буквенными кодами. Можно также представить наименования понятий в виде сочетаний

номеров

словоформ,

входящих

в

их состав,

и хранить

в памяти

машины

два словаря — словарь

пословных

кодов наименований

понятий

и

словарь

словоформ.

В этом

случае декодирование

понятий будет произво­

диться

в два этапа: сначала,

с помощью первого сло­

варя, номера понятий заменяются па их пословные коды, затем, с помощью второго словаря, пословные коды наи­ менований понятий заменяются на их буквенные коды. Последние два способа декодирования понятий очень просты, но их применение связано с необходимостью хранения в памяти машийы дополнительных словарей. Кроме того, здесь можно получать только одну форму наименований понятий.

175

Глава 10 АВТОМАТИЧЕСКОЕ УСТАНОВЛЕНИЕ СМЫСЛОВЫХ СВЯЗЕЙ МЕЖДУ п о н я т и я м и

Классификационный словарь понятий

Под термином « к л а с с и ф и к а ц и я » обычно пони­ мается распределение объектов по классам на основе присущих им признаков. Классификация имеет важное значение, так как она является обобщенным выражением опыта, накопленного человечеством в различных обла­ стях деятельности, и позволяет формулировать законы, правила и практические рекомендации для групп объек­ тов. В ряде случаев решение об использовании какоголибо единичного объекта может быть принято только на основе знаний о его принадлежности к определенному классу и характеристик этого класса.

Классификация широко используется в науке, на про­ изводстве и в быту. Она отражается в системе понятий естественного языка, являющегося универсальным сред­ ством общения людей. Как правило, понятия в языке обозначают не единичные объекты, а классы объектов Даже имена собственные обычно распространяются на группы объектов, из которых единичные элементы выде­ ляются лишь в конкретной речезой ситуации. В клас­ сификации отражаются свойства вещей и явлений. Эти

свойства

столь

же многообразны,

сколь

многообразны

взаимные

связи

между

вещами и

явлениями. Поэтому

в различных науках и

в разных

сферах

практической

деятельности одни и те же вещи и явления могут груп­ пироваться по-разному. Даже в пределах одной науки или одной сферы практической деятельности в зависимо­ сти от поставленной цели применяются различные си­ стемы классификации.

Классы объектов, как и индивидуальные объекты, могут находиться в различных отношениях друг к другу. Выявление отношений между классами объектов являет­

ся задачей специалистов в конкретных

областях знаний

и практической деятельности. В АИС

эти отношения

фиксируются в виде сообщений и используются для по­ иска сведений по запросам.

Наиболее устойчивыми являются отношения включе­ ния по объему (родо-видовые отношения) и отношения типа «целое—часть». Эти и некоторые другие отношения

176

Ме&Лу классами Часто выделяются в специальные мас­

сивы

сообщений, которые носят название

к л а с с и ф и ­

к а ц и о н н ы х

схем, к л а с с и ф и к а ц и о н н ы х т а б ­

лиц

или

к л а с с и ф и к а ц и о н н ы х

с л о в а р е й .

В классификационных схемах фиксируются также отно­ шения эквивалентности между классами, которые можно рассматривать в качестве частного случая родо-видовых отношений (каждый из двух эквивалентных классов включает в свой состав другой класс).

Свойство, принадлежащее некоторому классу объек­ тов, принадлежит и всем более узким классам, входя­ щим в его состав. Поэтому какова бы ни была тема за­

проса при

поиске информации, всегда

можно

наряду

с данными,

в точности

соответствующими сформулиро­

ванной теме, выдавать

потребителю также данные по

более узким темам.

 

 

 

Аналогичное правило может быть распространено и

на отношения типа «целое — часть». Но

здесь

его при­

менение может привести к неверным результатам, так как далеко не всегда свойства объектов являются свой­ ствами и частей этих объектов. Тем не менее, отношения типа «целое — часть» широко используются для поиска информации. При этом в классификационных схемах стремятся фиксировать не все возможные связи между понятиями, а только такие, которые могут быть полезны при выполнении поисковых операций.

Наряду с родо-видовыми отношениями и отношения­ ми типа «целое — часть» в классификационных схемах иногда отображаются и так называемые а с с о ц и а т и в ­ ные с вяз и . В основе ' ассоциативных связей могут лежать самые различные отношения между понятиями. Важно лишь, чтобы эти отношения были устойчивыми и отражали характер мышления человека при поиске ин­ формации. Использование ассоциативных связей расши­ ряет поисковые возможности АИС, но одновременно при­ водит к увеличению доли ненужных сведений в ответах на запросы.

Будем считать понятие В подчиненным понятию А, если первое поня'тие является более узким по объему, чем второе, или если оно обозначает составную часть объекта, соответствующего второму понятию. В памяти машины система отношений подчинения между понятия­ ми обычно представляется в виде таблицы, в которой каждому номеру понятия ставится в соответствие пере­

12— 310'

177

чень

номеров подчиненных ему понятий.

Эта

таблица

получила название к л а с с и ф и к а ц и о н н о г о

с л о в а ­

ря

п о н я т и й .

формой

представления классификацион­

Простейшей

ного

словаря в

памяти

ЭВМ является

последователь­

ность номеров понятий, связанных между собой по смы­ слу. В каждой группе на первое место записывается номер подчиняющего понятия, а после него—номера под­ чиненных понятий. Группы упорядочиваются по возрас­ танию номеров подчиняющих понятий. Номера подчи­ ненных понятий располагаются в пределах группы в про­ извольном порядке.

Последовательность групп номеров понятий записы­ вается в памяти машины в виде непрерывного массива, причем в каждой ячейке размещается по несколько но­ меров. Группы отделяются одна от другой разделитель­ ными признаками, имеющими такую же разрядность, как и номер понятия.

го

Поиск в словаре ведется путем его последовательно­

просмотра и сравнения номера заданного

понятия

с

номерами понятий, стоящими после разделительных

признаков. При совпадении заданного номера

понятия

с соответствующим номером понятия из словаря в каче­ стве результата поиска выдается группа номеров поня­ тий, заключенная между двумя соседними разделитель­ ными признаками.

Описанная форма представления классификационно­ го словаря является достаточно компактной. Но здесь много времени занимает поиск. Существенного ускоре­ ния процесса поиска можно добиться, вводя в словарь дополнительный массив относительных адресов, обеспе­ чивающих непосредственное обращение к началам групп номеров понятий, связанных по смыслу.

С введением относительных адресов отпадает необ­ ходимость в разделительных признаках между группами номеров понятий. Кроме того, если номерам понятий по­ ставить в соответствие адреса групп номеров подчинен­ ных им понятий и упорядочить эти адреса по возраста­ нию номеров подчиняющих понятий, то тогда номера подчиняющихся понятий можно изъять из состава групп и использовать их для обращения к массиву относитель­ ных адресов. Сформированный таким образом массиз относительных адресов может быть записан компактно (по несколько адресов в одной ячейке), а местоположе-

178

ние каждого

адреса

(номер ячейки А и номер

позиции

в ячейке /)

можно

будет

определять согласно

выраже­

ниям

 

 

 

 

 

 

 

Л = А0 + Е

 

t — Res

+

1 .

( 10. 1)

Здесь Л0 — адрес ячейки,

с которой

начинается запись

массива относительных адресов;

п — количество

относи­

тельных адресов в одной ячейке;

х — помер

понятия, по

которому ведется поиск в

словаре;

Е — оператор выде­

ления целой

части

числа;

Res — оператор

определения

остатка от деления.

 

 

 

 

 

 

Поиск в словаре ведется в два этапа. Сначала по

номеру понятия с помощью формул

(10.1) определяется

место хранения относительного адреса соответствующей группы номеров подчиненных понятий. После этого по относительному адресу выбираются элементы группы. Конец группы определяется по относительному адресу группы, следующей за искомой. Если группы номеров понятий хранятся в памяти машины в виде непрерывного массива, то в качестве относительных адресов можно использовать порядковые номера начальных элементов групп в массиве. Местоположение этих элементов можно определить по формулам вида (10.1).

Существенным недостатком рассмотренного способа представления классификационного словаря в памяти машины является необходимость его перестройки при введении новых связей между понятиями. Добавление новых элементов в какие-либо группы подчиненных по­ нятий потребует высвобождения для них места в памяти и перемещения элементов других групп. Последнее, в свою очередь, связано с. необходимостью изменять от­ носительные адреса.

Можно избежать перестройки классификационного словаря при его дополнении, если в группах номеров подчиненных понятий допустить разрозненную запись элементов и указывать связь между ними с помощью адресных отсылок. Тогда каждый элемент в группе бу­ дет представлен номером понятия и адресной отсылкой к следующему за ним элементу той же группы. У по­ следнего элемента будет нулевая адресная отсылка (при­ знак конца группы). Адресные отсылки к первым эле­ ментам групп записываются в виде отдельного массива и обращаются к ним по номерам понятий.

12*

179

Соседние файлы в папке книги из ГПНТБ