Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы

.pdf
Скачиваний:
9
Добавлен:
25.10.2023
Размер:
14.28 Mб
Скачать

Т а б л и ц а 1 0 .4

Сравнительная оценка полноты и точности установления

смысловых

связей

между

терминами

при различных способах

 

 

 

 

поиска по тезаурусу

 

 

 

 

 

 

 

 

 

Характеристики различных видов поиска

 

 

 

 

 

 

Поиск эквивалентных

Поиск подчиняющих

 

 

 

 

 

 

по смыслу и подчи­

 

 

 

 

 

 

ненных понятий

 

понятий

 

 

Вид поиска

 

 

Среднее коли­ чество реле­ вантных связей

Коэффициент полноты, %

Коэффициент „шума“, %

Среднее коли­ чество реле­ вантных связей

Коэффициент полноты, %

Коэффициент „шума“, %

 

 

 

 

 

 

1.

Поиск

в СГІП по номе­

!

10,2

!

0,88

9,4

0,9

1,65

0,24

рам основ слов

 

по номе­

2,22

13,8

0,85

1,21

12,9

1,25

2.

Поиск

в СИП

 

рам

смысловых эквивален­

 

 

 

 

 

 

тов основ слов и номерам

 

 

 

 

 

 

основ слов

 

 

поиск

в

7,06

43,0

0,00

4,18

44,6

0,00

3.

Однократный

КСП

Циклический

 

поиск

в

10,37

64,1

11,6

7,15

75,0

24,1

4.

 

К С П

Совместный

поиск по

0,35

58,1

0,1

5,47

58,1

0,8

5.

СНГ]

и К С П ,

 

согласно

 

 

 

 

 

 

пп. 1 ,3

 

поиск

по

9,80

60,8

0,7

5,95

63,2

0,8

6.

Совместный

СИ П

и

КСП

 

согласно

 

 

 

 

 

 

пп.2, 3

7.Циклический поиск с 15,45 96,5 11,9 8,80 94,0 26,6 многократным использова­ нием СНП и КСП , согласно

пп.1, 3

8.

Циклический

поиск с 16,35

100 12,5

9,40

100 26,1

многократным использова­

 

 

 

нием СН П и КСП

согласно

 

 

 

пп.

2, 3

 

 

 

 

смысловых связей между терминами (см. строки 1, 2 табл. 10.4).

2. Применение для пословного кодирования терминов наряду с номерами основ слов также номеров их смы­ словых эквивалентов приводит к некоторому увеличению полноты установления связей (на 3, 5%).

3. Путем однократного поиска в классификационном словаре можно выявить 44—45% смысловых связей меж­ ду терминами (см. строку 3 табл. 10.4), тогда как при циклическом поиске в этом словаре количество выявлен­

і е

пых связей увеличивается на 20—30% (на 20% при по­ иске эквивалентных по смыслу и подчиненных понятий, па 30% при поиске подчиняющих понятий).

4. Количество смысловых связей, выявленных при раздельном поиске в словаре наименований понятий и в классификационном словаре, меньше количества свя­ зей, выявленных при совместном однократном поиске

вэтих словарях (па 3—6%).

5.Совместный циклический поиск по словарю наи­ менований понятий и классификационному словарю обеспечивает наиболее полное выявление смысловых связей между терминами. По сравнению с совместным однократным поиском в этих словарях он позволяет вы­ явить примерно на 40% связей больше (см. строки 5—8 табл. 10.4).

Циклический поиск в словарях во всех случаях при­ водит к существенному увеличению количества устанав­ ливаемых между терминами смысловых связей. Но при этом увеличивается и уровень поискового шума (до 12% при поиске эквивалентных тіо смыслу и подчиненных терминов и до 24—27% при поиске подчиняющих тер­ минов). Происходит это потому, что наряду с отноше­

ниями строгой эквивалентности и строгого подчинения в классификационном словаре учитываются отношения между терминами, которые не в полной мере являются отношениями эквивалентности и подчинения. При одно­ кратном поиске в словарях такой подход позволяет бо­ лее полно выявлять связи между терминами и, как пра-

Та б л и ц а 10.5

Ра с п ред ел е нас количест ва циклов п р и совмест ном

поиске в С Н П и К С П (поиск экви вал ен т н ы х по іочислу и подчиненны х

терм инов согласно п . 8

та б л . 10.4)

Количество

Часто­

Количество

Часто­

циклов

та

циклов

та

поиска

поиска

1

433

5

4

2

36

6

---3

3

16

12

1

4

10

 

 

 

 

 

Т а б л и ц а

 

10.6

Р а сп р ед ел ен и е количест ва

циклов

п р и

совмест ном

поиске

в С Н П

и

К С П

(поиск

 

 

подчиняющ их

п онят и й

согласно

 

п .

8 т а б л .

10.4)

 

 

 

Количество

Часто­ Количество

Часто­

циклов

 

та

циклов

 

 

та

• поиска

 

поиска

 

 

1

251

 

7

 

 

8

2

 

79

 

8

 

 

5

3

 

70

 

9

 

 

2

4

 

43

 

10

 

4

5

 

18

 

11

 

 

3

6

 

20

 

----

 

 

 

 

 

 

 

 

191

 

 

 

Т а б л и ц а

10.7

Зависим ост ь

коэф ф ициент а полнот ы и

„ш ум а“ от

ном ера

цикла

поиска (поиск в классиф икационном

сл овар е понят ий)

 

Номер

Поиск эквивалентных по смыслу

Поиск подчиняющих понятий

и подчиненных понятий

 

 

 

цикла

 

 

 

 

 

поиска

Коэффициент

Коэффициент

Коэффициент

* Коэффициент

 

полноты, %

„шума*, %

полноты, %

„шума", %

1

43,6

0,00

44,6

0,00

2

55,0

7,5

68,3

8,2

3

60,0

8,2

72,8

17,7

4

63,7

10,3

74,2

20,8

5

64,0

10,9

74,6

22,3

6

64,1

11,4

74,8

23,3

7

64,1

11,6

75,0

23,5

8

75,0

23,7

9

75,0

23,9

10

75,0

24,0

11

75,0

24,1

12

 

75,0

24,1

вило, не приводит к установлению ложных связей. При циклическом поиске неточности в связях между терми­ нами накапливаются и уровень «шумов» возрастает.

Как показали эксперименты,

циклический поиск

в словарях — быстро сходящийся

процесс. В среднем

поиск подчиненных и эквивалентных по смыслу терми­

нов заканчивается за

1,3 цикла, поиск подчиняющих тер­

минов заканчивается

за 2,2 н-2,4 цикла (за 2,2 цикла

при поиске в КОП и за 2,4 цикла при совместном поиске в СНП и КСП), а максимальное число циклов поиска не превосходит 12. В табл. 10.5 и 10.6 приведено рас­ пределение числа циклов при совместном поиске в СНП и КСП, а в таблицах 10.7 и 10.8 указаны .значения ко­ эффициентов полноты поиска и «шума» в зависимости от номера цикла.

Полнота установления смысловых связей при поиске в словаре наименований понятий может быть сущест­ венно увеличена, если наряду с отношениями эквива­ лентности слов использовать родо-видовые отношения между ними. Если, например, известно, что понятия «сортировка» и «кодирование» являются видовыми по отношению к родовому понятию «обработка», а понятие «сообщение» — видовым по отношению к понятию «ин-

192

 

 

 

 

 

Т а б л и ц а

10.8

Зависим ост ь

коэф ф ициент а полнот ы и

„ш ум а“

от

ном ера

цикла

поиска

(совместный,

поиск в

С Н П

и К С П

согласно п .

8

 

 

т а б л .

10.4)

 

 

 

 

Поиск эквивалентных по смыслу

Поиск подчиняющих понятий

Номер

и подчиненных понятий

 

 

 

 

 

цикла

Коэффициент

Коэффициент

Коэффициент

Коэффициент

поиска

 

полноты, %

„піума“, %

полноты, %

*піума“, %

г

00,8

0,7

63,2

0,8

2

76,9

6,4

91,5

10,6

3

82,8

11,3

97.0

19,5

4

91,0

12,8

99,4

23,0

5

93,0

13,3

99,5

24,4

6

94,6

13,3

99,6

25,3

7

96,7

13,0

99,7

25,5

8

97, 1

12,8

100

25,8

9

98,9

12,8

100

25,9

10

99,4

12,5

100

26,0

11

99,9

12,5

100

26,1

12

100

12,5

 

формация», то, заменяя в словосочетании «обработка информации» исходные слова на слова, выражающие соответствующие видовые понятия, получим ряд новых более узких по смыслу словосочетаний: сортировка ин­ формации; кодирование информации; обработка сооб­

щений;

сортировка сообщений; кодирование сооб­

щений.

Автоматическое установление смысловых связей меж­ ду наименованиями понятий здесь можно реализовать следующим образом. Исходное словосочетание сначала кодируется пословно и для каждого слова по таблице родо-видовых отношений выбираются номера смысловых эквивалентов «подчиненных» ему слов, затем произво­ дится поиск по словарю наименований понятий. В про­ цессе поиска отбираются номера словосочетаний, экви­ валентных по смыслу исходному или подчиненных ему. При этом требуется выполнение двух условий:

1) каждое слово исходного словосочетания должно быть представлено в коде анализируемого словарного словосочетания либо номером своего смыслового экви­ валента, либо номером смыслового эквивалента подчи­ ненного ему слова;

13— 3 1 0

193

2) номер смыслового эквивалента главного слова анализируемого словарного словосочетания должен сов­ падать с номером смыслового эквивалента главного слова исходного словосочетания или с номером смысло­ вого эквивалента одного из подчиненных ему слов.

Поиск п о словарю наименований понятий и в этом случае целесообразно применять в комплексе с поиском по классификационному словарю. Сначала производится поиск по первому словарю, затем по второму. Новые номера понятий, найденные при поиске по классифика­ ционному словарю, заменяются на пословные «оды сло­ восочетаний, и эти коды используются для повторного поиска по словарю наименований понятий. Далее про­ цесс поиска по обоим словарям повторяется до тех пор, пока не перестанут находиться номера новых понятий или пока не будет выполнено заданное число повторе­ ний. В заключение результаты, полученные на всех эта­ пах, объединяются.

Поиск наименований понятий, более широких по объ­ ему, чем исходные словосочетания, производится анало­ гичным образом, но перед обращением к словарю наи­ менований понятий для каждого слова исходного слово­ сочетания по таблице родо-видовых отношений выбира­ ется перечень номеров смысловых эквивалентов подчи­ няющих слов.

Эксперименты, проведенные автором совместно с Е. А. Зигика и В. А. Чиркиным, показали, что поиск по словарю наименований понятий с использованием смысловых связей слов в три раза эффективнее, чем поиск без использования этих связей. Уровень шумов при поиске понятий, эквивалентных по смыслу и подчи­ ненных исходным, в среднем составляет 2%, а при поиске подчиняющих понятий— 10%. Совместный циклический поиск по словарю наименований понятий п классифика­ ционному словарю с использованием смысловых связей слов позволяет выявить больше связей между словосо­ четаниями, чем применение аналогичных процедур без

использования связей слов. При этом

эквивалентных

по смыслу

и подчиненных

понятий находится

на 17%

больше, а

подчиняющих

понятий — на

12%

больше.

Уровень шумов при поиске эквивалентных по смыслу и подчиненных понятий возрастает до 20%, при поиске подчиняющих понятий — до 46%.

Процедуры циклического поиска в тезаурусе целесо-

194

образно применять прежде всего для улучшения каче­ ства классификационного словаря понятий. При этом результаты работы машины должны корректироваться человеком. В документальных поисковых системах иног­ да допустимо использование этих процедур и без конт­ роля со стороны человека-.

Г л а в а 11

АВТОМАТИЗАЦИЯ РАБОТ

ПО СОСТАВЛЕНИЮ СЛОВАРЕЙ

При работе автоматизированных ИПС широко ис­ пользуются словари различного назначения (словари словоформ, словари основ, слов, словари наименований понятий). Составление словарей — задача весьма трудо­ емкая. Естественным поэтому является стремление авто­ матизировать этот процесс. Но если процесс составле­ ния словарей словоформ легко автоматизируется, то сложнее дело обстоит со словарями основ слов и слово­ сочетаний.

Задача составления словарей формулируется следую­ щим образом: по заданной совокупности текстов вы­ брать попарно-различные элементы (словоформы, осно­ вы слов, словосочетания), определить их грамматиче­ ские характеристики и расположить эти элементы в за­ ранее обусловленном порядке. При необходимости (если составляется частотный словарь) подсчитать количест­ во повторений одинаковых элементов. Полученный та­ ким образом перечень элементов и их грамматических характеристик далее может подвергаться дополнитель­ ной обработке (например, он может редактироваться человеком). Не всякая работа по составлению словарей может быть автоматизирована (нельзя, например, пока еще точно определять с помощью машины все грамма­ тические и семантические признаки слов). Но большая часть работ по выявлению, отбору и упорядочению эле­ ментов текстов, включаемых в словарь, может быть вы­ полнена автоматически.

Составление словарей словоформ и словарей основ слов с помощью счетно-перфорационных машин

Счетно-перфорационные машины (СПМ) могут слу­ жить эффективным средством автоматизации работ по составлению словарей.' Наиболее удобны для этой цели

13*

195

алфавитно-цифровые СПМ. В случае использования цифровых машин приходится кодировать каждую букву ее порядковым номером но алфавиту (двумя десятичны­ ми цифрами), а составленный словарь расшифровывать.

Исходным материалом для составления словаря сло­ воформ должна быть некоторая совокупность текстов определенной тематики. Сдова текста перфорируются одно за другим в порядке их следования в текстах. При

этом каждая

словоформа

исходного текста

наносится

на отдельную

перфокарту.

Полученный в

результате

перфорации массив перфокарт сортируется таким обра­ зом, чтобы слова располагались в алфавитном порядке или, при цифровом кодировании букв, в порядке возра­ стания численных значений кодов. После сортировки одинаковые словоформы располагаются рядом и пере­ считываются на табуляторе (если составляется частот­ ный словарь). Из каждой пачки одинаковых перфокарт отбирается по одной перфокарте, на которую наносится частота встречаемости словоформы. Образовавшийся массив перфокарт табулируется и при необходимости расшифровывается. Если цель составления словарей — только получение списков различных словоформ, то под­ счет количества карт не делается.

Частотный словарь основ составляется по частотному словарю словоформ. При этом для каждой словоформы на табуляграмме отмечается граница между основой и окончанием. Далее основы слов перфорируются вместе с частотами соответствующих словоформ и сортируются по алфавиту. Затем суммируются частоты по группам перфокарт с одинаковыми основами и перфорируются итоги суммирования на одну из перфокарт в каждой группе. Итоговые перфокарты выделяются из общего массива и с них частотный словарь основ печатается на рулонную бумагу.

Полученные с помощью СПМ словари служат исход­ ным материалом для составления машинных словарей словоформ и основ слов. Дальнейшая работа выполня­ ется человеком, который назначает соответствующие Грамматические и семантические признаки каждой сло­ воформе и каждой основе слова. Если в машинном сло­ варе словоформ или основ слов применяется порядок следования элементов, отличный о^ алфавитного, то не­ обходимая перестройка исходного материала произво­ дится также с помощью СПМ.

196

Составление словарей словоформ и словарей основ слов на ЭВМ с большой оперативной памятью

Процедуры автоматического составления словарей словоформ и словарей основ слов имеют много общих черт. Поэтому в дальнейшем изложении мы сосредото­ чим основное внимание на способах .составления слова­ рей словоформ.

Под большой оперативной памятью мы будем пони­ мать оперативную намять такого объема, который по­ зволяет разместить в ней весь словарь. Составление сло­ варя в машине с большой оперативной памятью проис­ ходит следующим образом. Элементы текста один за другим ищутся среди элементов словаря. Если они там находятся, то словарь оставляется без изменений. Если нет, то в него включаются новые элементы. Исходным состоянием словаря является такое, когда он не содер­ жит ни одного элемента, конечным состоянием — когда все элементы текста оказываются включенными в сло­ варь.

При составлении словаря основ слов используются алгоритмы точного и приближенного морфологического анализа (см. гл. 7, 8). Если словарь составляется зано­ во, «с нуля», то выделение основ слов и назначение им грамматической информации осуществляется с помощью процедуры приближенного морфологического анализа. Если он составляется на базе ранее составленного сло­ варя, то поиск в исходном словаре производится с по­

мощью

процедуры точного

морфологического

анализа,

а поиск

в дополнительной

части словаря — с

помощью

процедуры приближенного

анализа. Обращение к до­

полнительной части словаря происходит после того, как очередное слово не было найдено в исходном словаре.

Конкретный вид алгоритма составления словаря за­ висит от принятого порядка расположения его элемен­ тов и от способа поиска в нем. Можно, например, упо­ рядочить элементы словаря по их длине, а в пределах группы элементов одинаковой длины — по возрастанию кодов. Тогда нужный участок словаря можно искать по таблице разделителей, а поиск на участке — способом «деления пополам».

Таблица разделителей составляется заранее, исходя из предполагаемого объема словаря и данных о распре­ делении длин его элементов. Объем словаря и распреде­

197

ление длин его элементов, могут быть приближенно определены по формулам, приведенным в гл. 16. В таб­ лице разделителей для каждого участка словаря с за­ данной длиной элементов указывается начальный ад­ рес, размер участка и объем заполненной части участ­ ка. Участки словаря могут быть укрупнены таким обра­ зом, 'что в один массив попадут все элементы, занимаю­ щие не более одной ячейки, в другой — двухъячеечные элементы, в третий — трехъячеечные и т. д.

Группировка элементов словаря по длине удобна при организации поиска в нем и включении в него новых элементов, так как порядок выполнения обеих, процедур зависит от «ячеечности» словоформ и основ слов. Перед включением в словарь нового элемента для него подго­ тавливается место: все коды, превосходящие по величи­ не код нового элемента, перемещаются в сторону резер­ ва. Одновременно в таблице разделителей корректирует­ ся объем заполненной части обрабатываемого участка словаря.

Процесс составления словаря продолжается до тех пор, пока не будет просмотрен весь исходный текст или пока не переполнится один из участков словаря. В по­ следнем случае участки словаря перемещаются, а таб­ лица разделителей корректируется, чтобы образовать резервы памяти, необходимые для обработки всего тек­ ста.

При включении новых элементов в словарь, упорядо­ ченный по длине и численным значениям кодов слово­ форм, необходимо перемещать значительные по объему массивы. Этого можно избежать, если для составления словаря использовать способ свертывания кодов в соче­ тании с цепным способом поиска и соответствующим образом организовать распределение памяти (см. гл. 5).

Поле оперативной памяти машины, предназначенное для словаря, делится на две части. Одна из них отво­ дится под буквенные коды слов, другая — под отсылоч­ ные адреса и коды связи между ними. Отсылочные адре­ са указывают места хранения буквенных кодов слово­ форм или основ слов, а коды связи устанавливают связь между отсылочными адресами, соответствующими одно­ му и тому же коду свертки. Вторая часть словаря назы­ вается его адресной частью. Массив ячеек адресной ча­ сти словаря делится, в свою очередь, на два участка, имеющих одинаковую структуру. Обращение к первому

198

участку производится по кодам сверток слов, а ко вто­ рому— по кодам связи. В каждой ячейке адресной чаети словаря обычно записывается один отсылочный адрес и один код связи. Код связи может отсутствовать, если отсылочный адрес является последним в ряду отсылоч­ ных адресов, соответствующих одному и тому же коду свертки.

Некоторые ячейки первого участка адресной части могут оказаться пустыми и после составления словаря. Это необходимо учитывать при распределении памяти машины. Количество пустых ячеек может быть сокраще­ но до минимума уменьшением разрядности кода свертки. Ниже приводится алгоритм составления словаря слово­ форм, в котором используется цепной способ поиска в со­ четании со свертыванием кодов. Применяются следую­ щие условные обозначения:

Ей

Е2, . . . ,

Ет— номера ячеек, в которых хранится ис­

 

 

 

ходный текст (каждое слово начина­

Ru

Rz,

•••

ется с новой ячейки);

 

 

Rn — номера ячеек для записи буквенных ко­

Си

Сг,

. . .,

дов словаря;

части словаря;

Cq— номера ячеек адресной

 

 

 

Si — номер первой свободной ячейки второ­

 

 

 

го участка адресной части словаря;

 

 

 

А — адресная отсылка к буквенному

коду

 

 

 

словоформы;

адресной

части

 

 

 

В — код связи (в ячейке

 

 

 

словаря записывается

один код А и

 

 

 

один код В ) ;

 

 

 

 

D, F — номера рабочих ячеек;

 

 

выражение вида Fi-i-Fh обозначает последовательность ячеек, начинающуюся с ячейки Fi и оканчивающуюся ячейкой Fk\ выражения вида (С*), (D), (F{-i-Fh) обозна­ чают коды, записанные по адресам С;, D, F\-i-Fk.

Алгоритм автоматического составления словаря словоформ

1.Положить Ei = Eh.Ri = Ru Si = Si.

2.Проверить ( Е і ) на наличие признака конца текста. При поло­ жительном результате проверки — конец работы алгоритма, при от­ рицательном — перейти к п. 3.

3.Подсчитать количество ячеек к, занимаемых очередной слово­

формой текста, и

занести

( Е і - и Е і+к -

t) в ячейки

F x+ - F h.

Перейти

 

 

к п . 4.

 

 

 

 

199

Соседние файлы в папке книги из ГПНТБ