Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы

.pdf
Скачиваний:
12
Добавлен:
25.10.2023
Размер:
14.28 Mб
Скачать

Поиск групп подчиненных понятий производится цеп­ ным способом. Этот способ используется также при до­ полнении словаря для отыскания мест записи последних элементов групп подчиненных понятий. Номера новых понятий пишутся в Конце массива номеров подчиненных понятий, а адресные отсылки к ним заносятся вместо нулевых отсылочных адресов у последних элементов групп. Если какие-либо понятия ранее не имели подчи­ ненных им понятий, то адресные отсылки к новым поня­ тиям записываются на место адресных отсылок к пер­ вым элементам групп.

Целью поиска по классификационному словарю является получение для каждого заданного понятия пе­ речня всех подчиненных ему понятий. Эта цель может быть достигнута в наибольшей степени, если обращаться к словарю многократно, так чтобы номера подчиненных понятий, полученные на предыдущем этапе поиска, слу­ жили исходными данными для последующего этапа. Повторение процедуры поиска в словаре должно про­ должаться до тех пор, пока на каждом из этапов нахо­ дится хотя бы один номер подчиненного понятия или пока не будет выполнено заданное число повторений. Результаты отдельных этапов поиска объединяются, но исключается дублирование одинаковых элементов.

При независимом установлении связей между поня­ тиями одни связи иногда являются следствием других. Например, если между понятиями А, В и С зафиксиро­ ваны связи А ^ В , В~^С и Л—>-С (->— знак подчинения), то связь А-^~С является следствием двух первых связей. Такая связь может быть исключена из словаря, так как она восстанавливается при объединении результатов, по­ лученных на всех этапах поиска.

Исключить из классификационного словаря избыточ­ ные связи можно автоматически с помощью ЭВМ. При этом из каждой группы подчиненных понятий исключа­ ются понятия, которые подчинены другим понятиям груп­ пы. Подчинение понятий устанавливается по классифи­ кационному словарю. Степень сжатия словаря зависит от последовательности обработки групп. Хорошие ре­ зультаты дает обработка групп в порядке убывания чис­ ла элементов, входящих в их состав.

Связи подчинения между понятиями иногда изобра­ жают в виде иерархических деревьев. Такие деревья до­ статочно наглядны и могут являться исходным материа­

180

лом для построения экономичной системы парных связей между понятиями с целью ее ввода в машину и оформ­ ления в виде классификационного словаря. Но при боль­ ших объемах списков наименований понятий (несколько тысяч или несколько десятков тысяч единиц) построение деревьев классификации оказывается чрезвычайно труд­ ным, в особенности если список понятий богат синони­ мами и требуется большая степень полноты отражения смысловых связей. Гораздо легче установить парные от­ ношения между понятиями и ввести их в машину, а за­ тем исключить избыточные связи.

Ассоциативные связи между понятиями целесообраз­ но записывать в классификационном словаре в виде от­ дельного массива. Этот массив имеет структуру, анало­ гичную структуре массива связей подчинения, с тем лишь отличием, что здесь, как правило, нельзя приме­ нять многоэтапный циклический поиск. Его использова­ ние привело бы к установлению слабых ассоциативных связей между понятиями и к резкому увеличению выда­ чи лишней информации.

В поисковых системах иногда требуется по заданно­ му понятию найти понятия, его подчиняющие. Эта зада­ ча может быть выполнена путем просмотра словаря и выборки подчиняющих понятий для таких групп подчи­ ненных понятий, которые включают в свой состав иско­ мое понятие. Поиск подчиняющих понятий можно уско­ рить, если создать специальный массив кодов, в котором каждому понятию словаря ставится в соответствие груп­ па подчиняющих его понятий. Этот массив создается путем автоматической переработки массива групп под­ чиненных понятий.

Таким образом, классификационный словарь включа­ ет в свой состав массивы кодов, отражающие связи под­ чинения между понятиями и ассоциативные связи. Для удобства выполнения поисковых операций связи подчи­

нения

могут

представляться

в виде двух

'массивов:

1)

массива

групп номеров

подчиненных

понятий и

2)

массива групп номеров подчиняющих понятий.

Эти массивы могут быть

совмещены,

если поиск

в классификационном словаре производится цепным спо­ собом.

181

Способы автоматического установления смысловых связей м еж ду понятиями по структуре их наименований

В автоматизированных документальных н фактогра­ фических системах, предназначенных для поиска сведе­ ний по запросам, наряду с точными способами автома­ тического отождествления наименований понятии могут применяться и приближенные. Они просты в реализации, дают сравнительно небольшой уровень поискового «шу­ ма» и обеспечивают большую полноту поиска информа­ ции, чем точные способы.

Можно, например, представлять понятия в памяти машины в виде последовательностей начальных букв пли начальных буквосочетаний слов, входящих в состав их наименований. При этом количество ложных отождест­ влений разных по смыслу наименований понятий будет зависеть от выбранной длины начальных участков слов.

В табл. 10.1 приведены результаты статистического

Т а б л и ц а 10.1

Отождествление наименований понятий по начальным буквам и буквосочетаниям слов, входящих в их состав

Количество слов в словосоче­ тании

1

2

3

4

5

6

Количество словосо­ четаний

122

1006

1054

696

463

250

Количество случаев

ложного

Количество случаев правиль­

отождествления наименований

ного отождествления наиме­

 

 

понятий

 

по сочетаниям ; из 4-х началъ- | ных согласных

 

нований понятий

по сочетаниям ! из 4-х началь­ ных согласных

по начальным буквам слов

по сочетаниям из 2-х букв

по сочетаниям из 3-х букв

по сочетаниям

' из 4-х букв

по начальным ■буквам слов

по сочетаниям из 2-х началь­ ных букв

по сочетаниям из 3-х началь­ ных букв

по сочетаниям из 4-х началь­ ных букв

121

83

55

 

36

14

0

0

0

0

0

882

328

134

 

72

32

6

34

48

71

46

606

154

69

 

38

16

20

46

66

66

50

150

22

13

 

4

0

12

20

20

24

22

37

8

2

 

0

0

10

12

12

12

12

10

0

0

 

0

0

2

2

2

2

2

И т о г о :

3591 1806 595

273

150

62

50

144

148

175

132

обследования 3591 словосочетаний, взятых из рефератов статей по вопросам применения ЭВМ и автоматизации информационных работ. При формировании машинных кодов наименований понятий на первом месте записыва­ лись начальные буквы или буквосочетания главных слов этих наименований, а буквы и буквосочетания остальных

182

слов располагались по алфавиту. Это давало возмож­ ность легко отождествлять различные трансформацион­ ные варианты словосочетаний.

В процессе статистического обследования каждый код списка словосочетаний сравнивался со всеми другими кодами этого списка, а случаи совпадения кодов фикси­ ровались. Если в процессе сравнения совпадали коды одинаковых по смыслу наименований понятий, то его результаты считались правильными, в противном слу­ чае— ложными. Результаты сравнения считались лож­ ными и в тех случаях, когда в группе синонимичных наи­ менований понятий с одинаковыми кодами оказывалось хотя бы одно наименование’ отличающееся по смыслу от анализируемого.

Из табл. 10.1 видно, что с увеличением длины началь­ ных участков слов, включаемых в состав кодов понятий, число случаев ложного отождествления разных по смы­ слу наименований понятий уменьшается, а число случаев правильного отождествления синонимичных понятий увеличивается. При использовании в качестве кодов слов четырех начальных букв доля ложных отождествлений понятий уменьшается до 4,2% от общего числа наимено­ ваний списка. Для сравнения в табл. 10.1 приводятся сведения о количестве случаев правильного и ложного совпадения кодов понятий при условии, что все слова кодируются четырьмя начальными согласными буквами.

Наряду с задачей отождествления одинаковых по смыслу наименований понятий в ЛИС возникает необхо­ димость выборки из словаря всех понятий, подчиненных заданному (всех более узких по объему понятий). Эта задача может быть частично выполнена-путем использо­ вания синтаксической и семантической структуры имен­ ных словосочетаний. Так, понятие В можно считать под­ чиненным понятию А, если совпадают главные слова их наименовании, а словарный состав и дерево фразы, вы­ ражающей понятие А, являются частью словарного со­ става и дерева фразы, выражающей понятие В. Эквива­ лентность двух понятий по смыслу можно считать част­ ным случаем подчинения (понятие В подчинено понятию А, и одновременно понятие А подчинено понятию В).

Указанный критерий установления отношений экви­ валентности и подчинения между понятиями может быть ослаблен, если не требовать обязательного учета схем связей между словами в словосочетаниях, а для опреде­

183

лителей главного слова ограничиться совпадением их на­ чальных букв или семантических эквивалентов (под семантическими эквивалентами здесь, как и ранее, пони­ маются коды, обозначающие классы эквивалентных по смыслу слов). Применение менее строгих критериев дает возможность полнее учесть смысловые связи между по­ нятиями, но при этом увеличивается вероятность уста­ новления ложных связей.

В табл. 10.2 показаны результаты применения раз­ личных способов установления смысловых связей к спи­ ску словосочетаний объемом в 1728 элементов. Данные

Т а б л и ц а 10.2

Сравнение различных способов автоматического установления смысловых связей между наименованиями понятий (связей эквивалентности и подчинения)

 

 

 

 

 

 

Число установленных

 

Способ установления связи

 

 

связей

п/п

По

главному

слову

словосочетания

и

верно

неверно

1

1121

43

 

четырем начальным буквам его опреде­

 

 

 

лителей без учета схемы

связей между

 

 

2

словами

слову

словосочетания

и

1011

20

По

главному

 

 

 

четырем начальным буквам его опреде­

 

 

 

лителей с учетом схемы связей между

 

 

3

словами

слову

словосочетания

и

1100

21

* По

главному

 

 

 

семантическим эквивалентам его опреде­

 

 

 

лителей без учета схемы

связей между

 

 

4

словами

слову

словосочетания

и

1007

 

По

главному

 

 

семантическим

эквивалентам его опреде­

 

 

 

лителей с учетом схемы связей между

981

 

5

словами

слову

словосочетания

и

8

По

главному

 

 

основам его определителей без учета

 

 

6

схемы

связей между словами

'

921

 

По

главному

слову

словосочетания

и

 

 

основам его определителей с учетом схе­

 

 

7

мы связей между словами

 

и

955

7

По

главному

слову

словосочетания

8

словоформам его определителей без уче­

 

 

 

та схемы связей между словами

и

909

 

 

По

главному

слову

словосочетания

 

 

словоформам его определителей с учетом

 

 

 

схемы

связей между словами

 

 

 

184

таблицы подтверждают высказанное выше соображение о характере зависимости между полнотой установления смысловых связей и возможностью появления ложных связей и позволяют обоснованно выбрать тот или иной конкретный способ. Так, например, наибольшая полнота установления смысловых связей между понятиями при полном отсутствии «шумов» достигается способами, ука­ занными в пп. 4, 6 табл. 10.2. 'Неплохие результаты по­ лучаются также, если применять способы, указанные в пп. 3, 5 (те же способы, что и в пп. 4, 6, но без учета схемы связей между словами).

Простейшими в реализации являются способы, упо­ мянутые в пп. 1, 7. Но первый способ дает большое ко­ личество ложных связей между понятиями, а при ис­ пользовании второго способа требуется накладывать ограничения на форму представления наименований по­ нятий (требуется, например, записывать главное слово словосочетания и определяющие его прилагательные в форме именительного падежа единственного числа).

Кроме того, по полноте установления связей второй

спо­

соб уступает всем способам, указанным

в пп.

1—-5

табл. 10.2.

подчинения

Наряду со связями эквивалентности и

в ряде случаев по словесным формулировкам легко вы­ являются ассоциативные отношения между понятиями. Например, ассоциированными можно считать следующие

пары понятий:

«информационный

п о и с к — м е т о д ы

информационного

поиска»,

«производственные п р о ц е с ­

сы— м е т о д и к а

моделирования производственных про­

цессов»,

«информационные

с и с т е м ы — п р о е к т и р о ­

в а н и е

информационных систем»

и т. п. Для установ­

ления подобных связей достаточно, чтобы словарный со­ став словосочетания, стоящего в левой части каждой па­ ры, содержался в словарном составе словосочетания, стоящего справа, а схемы связей между одинаковыми словами в обоих словосочетаниях совпадали. Совпаде­ ния главных слов наименований понятий не требуется. Указанный критерий установления ассоциативных связей можно ослабить, если потребовать только совпадения в наименованиях понятий соответствующих основ слов или смысловых эквивалентов слов без учета схем связей между ними. Как показывает опыт эксплуатации поис­ ковых систем, такой метод установления ассоциативных сеязей дает малый уровень «шумов».

!95

Автоматический тезаурус дескрипторных понятий

Из предыдущего рассмотрения следует, что смысловые связи между понятиями могут устанавливаться различ­ ными способами:

1)с помощью словаря наименовании понятий (по словарному составу и грамматической структуре слово­ сочетаний) ;

2)по классификационным -схемам или таблицам, оформленным в виде классификационного словаря по­ нятий;

3)путем совместного применения способов, указан­

ных в пп. 1,2.

-

При установлении смысловых связей с помощью сло­

варя наименований понятий

пословные коды терминов

сопоставляются и проверяются на вхождение друг в дру­ га. Два термина считаются связанными по смыслу, если совпадают коды их главных слов и все коды слов одного из терминов содержатся среди кодов слов другого тер­ мина. Если количество слов в обоих терминах одинако­ вое, то такие термины считаются эквивалентными по смыслу; если разное, то более узким по смыслу считает­ ся термин, состоящий из большего количества слов.

Классификационный словарь понятий может быть использован для установления смысловых связей между терминами как путем однократного обращения к нему, так и путем организации циклического поиска. В -послед­ нем случае полученные после первого обращения к сло­ варю номера терминов, эквивалентных и подчиненных исходному термину, используются для повторного обра­ щения к нему. Новые номера терминов, полученные при повторном обращении к словарю, снова используются в качестве исходных данных для поиска в нем и т. д. Процесс циклического поиска продолжается до тех пор, пока не перестанут находиться новые номера тер­ минов.

Для поиска терминов эквивалентных и более широ­ ких по смыслу, чем исходные, удобно использовать обра­ щенный классификационный словарь понятий. В таком словаре для каждого номера термина указываются но­ мера подчиняющих (более широких по объему) терми­ нов. Как и «прямой» словарь, обращенный классифика­ ционный словарь можно использовать в режиме одно­ кратного и циклического поиска.

186

Словарь наименований понятий и классификацион­ ный словарь можно совместно использовать в двух ре­ жимах: 1) в режиме однократного обращения к слова­ рям; 2) в режиме циклического поиска. В первом случае сначала производится поиск по словарю наименова­ ний понятий, а его результаты служат исходными дан­ ными для поиска в классификационном словаре. Во вто­ ром случае после однократного обращения к словарям из общего массива результатов поиска выделяются но­ мера терминов, полученные при поиске в классификаци­ онном словаре и отличающиеся от номеров терминов, найденных в словаре наименований понятий. Выделен­ ные номера терминов с помощью словаря наименований понятий заменяют их пословными кодами и обращаются повторно сначала к словарю наименований понятий, за­ тем к классификационному словарю. Далее среди ре­ зультатов поиска по классификационному словарю сно­ ва выделяют такие номера терминов, которые не были найдены на предыдущих этапах. Эти номера заменяются на пословные коды терминов и снова обращаются к сло­ варям и т. д. Процесс циклического поиска продолжает­ ся до тех пор, пока не перестанут находиться новые но­ мера терминов.

Для оценки эффективности различных способов авто­ матического установления смысловых связей между тер­ минами автором совместно с Е. А. Загика и В. А. Чир­ киным был поставлен эксперимент на ЭВМ. Для этого был использован ряд алгоритмов: алгоритм «точного» морфологического анализа, алгоритм приближенного морфологического анализа, алгоритм поиска по словарю наименований понятий, алгоритм поиска по классифика­ ционному словарю понятий, алгоритм циклического поиска в классификационном словаре, алгоритм сов­ местного циклического поиска в словаре наименований понятий и в классификационном словаре, алгоритм де­ кодирования и оформления результатов поиска в слова­ рях и др.

Исследования проводились на основе тезауруса дескрипторных понятий, включавшего в свой состав око­ ло 11 700 терминов. Между терминами тезауруса были зафиксированы родо-видовые отношения и отношения эквивалентности. Тезаурус послужил исходным материа­ лом для формирования ряда машинных словарей. Пере­ чень машинных словарей приведен в табл. 10.3.

187

п/п

1

2

3

4

5

6

f а б л и ц а 1Ö.3

ІІеречень машинных словарей.

Наименование

 

 

Количество

 

 

элементов

Словарь побуквенных кодов наименований по­

в словаре

11691

нятий

(для „точного“

4000

Основной словарь основ слов

морфологического анализа)

 

 

2047

Дополнительный словарь основ слов (для

приближенного морфологического

анализа)

11691

Словарь наименований понятий

(СНП)

Классификационный словарь

понятий (КСП)

55503

Обращенный классификационный словарь по­

57412

нятий

 

 

 

Основной словарь основ слов (табл. 10.3) был со­ ставлен по неформализованным текстам и включал 4000 наиболее часто встречающихся основ. Дополнительный словарь составлялся по тезаурусу. Он содержал только такие основы слов, которые отсутствовали в основном словаре. Словарь наименований понятий (словарь по­ словных кодов терминов) формировался на основе сло­ варя их побуквенных кодов. Последний использовался также для декодирования результатов поиска в слова­ рях.

Эффективность различных способов автоматического установления смысловых связей между терминами оце­ нивалась при двух вариантах пословного кодирования словосочетаний. По первому варианту слова, основы ко­ торых содержались в основном словаре, были представ­ лены номерами смысловых эквивалентов, а слова из до­ полнительного словаря — номерами основ. По второму варианту все слова были представлены номерами их основ, а словосочетания кодировались только с по­ мощью приближенного морфологического анализа. Основной словарь основ слов отсутствовал, а дополни­ тельный словарь имел объем 3675 элементов.

Были опробованы восемь способов установления смы­ словых связей между терминами: 1) автономный поиск по словарю наименований понятий, построенному на ос­ нове приближенного морфологического анализа; 2) авто­ номный поиск по словарю наименований понятий, по­

188

строенному на основе совместного Использования «foHного» и приближенного морфологического анализа; 3) автономный однократный поиск по классификацион­ ному словарю; 4) автономный циклический поиск по классификационному словарю; 5) однократный совмест­ ный поиск по словарю наименований понятий и класси­ фикационному словарю согласно пп. 1, 3; 6) однократ­ ный совместный поиск по словарю наименований поня­

тий

и классификационному словарю согласно пп. 2, 3;

7)

совместный поиск по словарю наименований понятий

■и классификационному словарю с многократным исполь­ зованием словарей согласно пп. 1, 3; 8) совместный по­ иск по словарю наименований понятий и классификаци­ онному словарю с многократным использованием слова­ рей согласно пп. 2, 3. Все восемь способов применялись как для поиска терминов, эквивалентных и подчиненных заданным, так и для поиска подчиняющих терминов. В качестве исходных данных были взяты 503 термина из тезауруса, выбранные случайным образом, а исследова­ ние различных способов поиска производилось на пол­ ном объеме словарей тезауруса.

Результаты экспериментов еветены в табл. 10.4. По одному входу этой таблицы перечислены различные спо­ собы установления смысловых связей между терминами, по другому входу — наименования количественных пока­ зателей, характеризующих эффективность этих способов. В клетках таблицы указаны числовые значения показа­ телей эффективности (среднее количество релевантных связей, приходящихся на один термин тезауруса, сред­ нее значение коэффициента полноты установления смы­ словых связей между терминами, среднее значение коэф­ фициента «шума» при установлении смысловых связей). Полнота установления смысловых связей между терми­ нами определялась по отношению к наиболее эффектив­ ному в данном эксперименте способу поиска в тезауру­ се— циклическому поиску с использованием процедур «точного» и приближенного морфологического анализа. Коэффициент «шума» определялся как отношение коли­ чества нерелевантных (неправильных) ’связей к общему количеству связей, установленных в процессе автомати­

ческого поиска.

позволяет

установить следующее:

Анализ табл. 10.4

1. Автоматический

поиск по словарю понятий дает

возможность выявить

только

10—14% общего числа

189

Соседние файлы в папке книги из ГПНТБ