книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы
.pdfТ а б л и ц а 1 0 .4
Сравнительная оценка полноты и точности установления
смысловых |
связей |
между |
терминами |
при различных способах |
|||||||
|
|
|
|
поиска по тезаурусу |
|
|
|
||||
|
|
|
|
|
|
Характеристики различных видов поиска |
|||||
|
|
|
|
|
|
Поиск эквивалентных |
Поиск подчиняющих |
||||
|
|
|
|
|
|
по смыслу и подчи |
|||||
|
|
|
|
|
|
ненных понятий |
|
понятий |
|
||
|
Вид поиска |
|
|
Среднее коли чество реле вантных связей |
Коэффициент полноты, % |
Коэффициент „шума“, % |
Среднее коли чество реле вантных связей |
Коэффициент полноты, % |
Коэффициент „шума“, % |
||
|
|
|
|
|
|
||||||
1. |
Поиск |
в СГІП по номе |
! |
10,2 |
! |
0,88 |
9,4 |
0,9 |
|||
1,65 |
0,24 |
||||||||||
рам основ слов |
|
по номе |
2,22 |
13,8 |
0,85 |
1,21 |
12,9 |
1,25 |
|||
2. |
Поиск |
в СИП |
|
||||||||
рам |
смысловых эквивален |
|
|
|
|
|
|
||||
тов основ слов и номерам |
|
|
|
|
|
|
|||||
основ слов |
|
|
поиск |
в |
7,06 |
43,0 |
0,00 |
4,18 |
44,6 |
0,00 |
|
3. |
Однократный |
||||||||||
КСП |
Циклический |
|
поиск |
в |
10,37 |
64,1 |
11,6 |
7,15 |
75,0 |
24,1 |
|
4. |
|
||||||||||
К С П |
Совместный |
поиск по |
0,35 |
58,1 |
0,1 |
5,47 |
58,1 |
0,8 |
|||
5. |
|||||||||||
СНГ] |
и К С П , |
|
согласно |
|
|
|
|
|
|
||
пп. 1 ,3 |
|
поиск |
по |
9,80 |
60,8 |
0,7 |
5,95 |
63,2 |
0,8 |
||
6. |
Совместный |
||||||||||
СИ П |
и |
КСП |
|
согласно |
|
|
|
|
|
|
пп.2, 3
7.Циклический поиск с 15,45 96,5 11,9 8,80 94,0 26,6 многократным использова нием СНП и КСП , согласно
пп.1, 3
8. |
Циклический |
поиск с 16,35 |
100 12,5 |
9,40 |
100 26,1 |
многократным использова |
|
|
|
||
нием СН П и КСП |
согласно |
|
|
|
|
пп. |
2, 3 |
|
|
|
|
смысловых связей между терминами (см. строки 1, 2 табл. 10.4).
2. Применение для пословного кодирования терминов наряду с номерами основ слов также номеров их смы словых эквивалентов приводит к некоторому увеличению полноты установления связей (на 3, 5%).
3. Путем однократного поиска в классификационном словаре можно выявить 44—45% смысловых связей меж ду терминами (см. строку 3 табл. 10.4), тогда как при циклическом поиске в этом словаре количество выявлен
і е
пых связей увеличивается на 20—30% (на 20% при по иске эквивалентных по смыслу и подчиненных понятий, па 30% при поиске подчиняющих понятий).
4. Количество смысловых связей, выявленных при раздельном поиске в словаре наименований понятий и в классификационном словаре, меньше количества свя зей, выявленных при совместном однократном поиске
вэтих словарях (па 3—6%).
5.Совместный циклический поиск по словарю наи менований понятий и классификационному словарю обеспечивает наиболее полное выявление смысловых связей между терминами. По сравнению с совместным однократным поиском в этих словарях он позволяет вы явить примерно на 40% связей больше (см. строки 5—8 табл. 10.4).
Циклический поиск в словарях во всех случаях при водит к существенному увеличению количества устанав ливаемых между терминами смысловых связей. Но при этом увеличивается и уровень поискового шума (до 12% при поиске эквивалентных тіо смыслу и подчиненных терминов и до 24—27% при поиске подчиняющих тер минов). Происходит это потому, что наряду с отноше
ниями строгой эквивалентности и строгого подчинения в классификационном словаре учитываются отношения между терминами, которые не в полной мере являются отношениями эквивалентности и подчинения. При одно кратном поиске в словарях такой подход позволяет бо лее полно выявлять связи между терминами и, как пра-
Та б л и ц а 10.5
Ра с п ред ел е нас количест ва циклов п р и совмест ном
поиске в С Н П и К С П (поиск экви вал ен т н ы х по іочислу и подчиненны х
терм инов согласно п . 8
та б л . 10.4)
Количество |
Часто |
Количество |
Часто |
циклов |
та |
циклов |
та |
поиска |
поиска |
||
1 |
433 |
5 |
4 |
2 |
36 |
—6 |
---3 |
3 |
16 |
12 |
1 |
4 |
10 |
|
|
|
|
|
Т а б л и ц а |
|
10.6 |
||
Р а сп р ед ел ен и е количест ва |
|||||||
циклов |
п р и |
совмест ном |
поиске |
||||
в С Н П |
и |
К С П |
(поиск |
|
|
||
подчиняю• щ их |
п онят и й |
согласно |
|||||
|
п . |
8 т а б л . |
10.4) |
|
|
|
|
Количество |
Часто Количество |
Часто |
|||||
циклов |
|
та |
циклов |
|
|
та |
|
• поиска |
|
поиска |
|
|
|||
1 |
251 |
|
7 |
|
|
8 |
|
2 |
|
79 |
|
8 |
|
|
5 |
3 |
|
70 |
|
9 |
|
|
2 |
4 |
|
43 |
|
10 |
|
— |
4 |
5 |
|
18 |
|
11 |
|
|
3 |
6 |
|
20 |
|
---- |
|
|
|
|
|
|
|
|
|
191
|
|
|
Т а б л и ц а |
10.7 |
||
Зависим ост ь |
коэф ф ициент а полнот ы и |
„ш ум а“ от |
ном ера |
цикла |
||
поиска (поиск в классиф икационном |
сл овар е понят ий) |
|
||||
Номер |
Поиск эквивалентных по смыслу |
Поиск подчиняющих понятий |
||||
и подчиненных понятий |
|
|
|
|||
цикла |
|
|
|
|
|
|
поиска |
Коэффициент |
Коэффициент |
Коэффициент |
* Коэффициент |
||
|
полноты, % |
„шума*, % |
полноты, % |
„шума", % |
||
1 |
43,6 |
0,00 |
44,6 |
0,00 |
||
2 |
55,0 |
7,5 |
68,3 |
8,2 |
||
3 |
60,0 |
8,2 |
72,8 |
17,7 |
||
4 |
63,7 |
10,3 |
74,2 |
20,8 |
||
5 |
64,0 |
10,9 |
74,6 |
22,3 |
||
6 |
64,1 |
11,4 |
74,8 |
23,3 |
||
7 |
64,1 |
11,6 |
75,0 |
23,5 |
||
8 |
— |
— |
75,0 |
23,7 |
||
9 |
— |
— |
75,0 |
23,9 |
||
10 |
— |
— |
75,0 |
24,0 |
||
11 |
75,0 |
24,1 |
||||
— |
— |
|||||
12 |
|
— |
75,0 |
24,1 |
вило, не приводит к установлению ложных связей. При циклическом поиске неточности в связях между терми нами накапливаются и уровень «шумов» возрастает.
Как показали эксперименты, |
циклический поиск |
в словарях — быстро сходящийся |
процесс. В среднем |
поиск подчиненных и эквивалентных по смыслу терми
нов заканчивается за |
1,3 цикла, поиск подчиняющих тер |
минов заканчивается |
за 2,2 н-2,4 цикла (за 2,2 цикла |
при поиске в КОП и за 2,4 цикла при совместном поиске в СНП и КСП), а максимальное число циклов поиска не превосходит 12. В табл. 10.5 и 10.6 приведено рас пределение числа циклов при совместном поиске в СНП и КСП, а в таблицах 10.7 и 10.8 указаны .значения ко эффициентов полноты поиска и «шума» в зависимости от номера цикла.
Полнота установления смысловых связей при поиске в словаре наименований понятий может быть сущест венно увеличена, если наряду с отношениями эквива лентности слов использовать родо-видовые отношения между ними. Если, например, известно, что понятия «сортировка» и «кодирование» являются видовыми по отношению к родовому понятию «обработка», а понятие «сообщение» — видовым по отношению к понятию «ин-
192
|
|
|
|
|
Т а б л и ц а |
10.8 |
|
Зависим ост ь |
коэф ф ициент а полнот ы и |
„ш ум а“ |
от |
ном ера |
цикла |
||
поиска |
(совместный, |
поиск в |
С Н П |
и К С П |
согласно п . |
8 |
|
|
|
т а б л . |
10.4) |
|
|
|
|
Поиск эквивалентных по смыслу |
Поиск подчиняющих понятий |
||||||
Номер |
и подчиненных понятий |
|
|
|
|
|
|
цикла |
Коэффициент |
Коэффициент |
Коэффициент |
Коэффициент |
|||
поиска |
|||||||
|
полноты, % |
„піума“, % |
полноты, % |
*піума“, % |
|||
г |
00,8 |
0,7 |
63,2 |
0,8 |
|||
2 |
76,9 |
6,4 |
91,5 |
10,6 |
|||
3 |
82,8 |
11,3 |
97.0 |
19,5 |
|||
4 |
91,0 |
12,8 |
99,4 |
23,0 |
|||
5 |
93,0 |
13,3 |
99,5 |
24,4 |
|||
6 |
94,6 |
13,3 |
99,6 |
25,3 |
|||
7 |
96,7 |
13,0 |
99,7 |
25,5 |
|||
8 |
97, 1 |
12,8 |
100 |
25,8 |
|||
9 |
98,9 |
12,8 |
100 |
25,9 |
|||
10 |
99,4 |
12,5 |
100 |
26,0 |
|||
11 |
99,9 |
12,5 |
100 |
26,1 |
|||
12 |
100 |
12,5 |
— |
|
— |
формация», то, заменяя в словосочетании «обработка информации» исходные слова на слова, выражающие соответствующие видовые понятия, получим ряд новых более узких по смыслу словосочетаний: сортировка ин формации; кодирование информации; обработка сооб
щений; |
сортировка сообщений; кодирование сооб |
щений. |
■ |
Автоматическое установление смысловых связей меж ду наименованиями понятий здесь можно реализовать следующим образом. Исходное словосочетание сначала кодируется пословно и для каждого слова по таблице родо-видовых отношений выбираются номера смысловых эквивалентов «подчиненных» ему слов, затем произво дится поиск по словарю наименований понятий. В про цессе поиска отбираются номера словосочетаний, экви валентных по смыслу исходному или подчиненных ему. При этом требуется выполнение двух условий:
1) каждое слово исходного словосочетания должно быть представлено в коде анализируемого словарного словосочетания либо номером своего смыслового экви валента, либо номером смыслового эквивалента подчи ненного ему слова;
13— 3 1 0 |
193 |
2) номер смыслового эквивалента главного слова анализируемого словарного словосочетания должен сов падать с номером смыслового эквивалента главного слова исходного словосочетания или с номером смысло вого эквивалента одного из подчиненных ему слов.
Поиск п о словарю наименований понятий и в этом случае целесообразно применять в комплексе с поиском по классификационному словарю. Сначала производится поиск по первому словарю, затем по второму. Новые номера понятий, найденные при поиске по классифика ционному словарю, заменяются на пословные «оды сло восочетаний, и эти коды используются для повторного поиска по словарю наименований понятий. Далее про цесс поиска по обоим словарям повторяется до тех пор, пока не перестанут находиться номера новых понятий или пока не будет выполнено заданное число повторе ний. В заключение результаты, полученные на всех эта пах, объединяются.
Поиск наименований понятий, более широких по объ ему, чем исходные словосочетания, производится анало гичным образом, но перед обращением к словарю наи менований понятий для каждого слова исходного слово сочетания по таблице родо-видовых отношений выбира ется перечень номеров смысловых эквивалентов подчи няющих слов.
Эксперименты, проведенные автором совместно с Е. А. Зигика и В. А. Чиркиным, показали, что поиск по словарю наименований понятий с использованием смысловых связей слов в три раза эффективнее, чем поиск без использования этих связей. Уровень шумов при поиске понятий, эквивалентных по смыслу и подчи ненных исходным, в среднем составляет 2%, а при поиске подчиняющих понятий— 10%. Совместный циклический поиск по словарю наименований понятий п классифика ционному словарю с использованием смысловых связей слов позволяет выявить больше связей между словосо четаниями, чем применение аналогичных процедур без
использования связей слов. При этом |
эквивалентных |
|||
по смыслу |
и подчиненных |
понятий находится |
на 17% |
|
больше, а |
подчиняющих |
понятий — на |
12% |
больше. |
Уровень шумов при поиске эквивалентных по смыслу и подчиненных понятий возрастает до 20%, при поиске подчиняющих понятий — до 46%.
Процедуры циклического поиска в тезаурусе целесо-
194
образно применять прежде всего для улучшения каче ства классификационного словаря понятий. При этом результаты работы машины должны корректироваться человеком. В документальных поисковых системах иног да допустимо использование этих процедур и без конт роля со стороны человека-.
Г л а в а 11 |
АВТОМАТИЗАЦИЯ РАБОТ |
ПО СОСТАВЛЕНИЮ СЛОВАРЕЙ
При работе автоматизированных ИПС широко ис пользуются словари различного назначения (словари словоформ, словари основ, слов, словари наименований понятий). Составление словарей — задача весьма трудо емкая. Естественным поэтому является стремление авто матизировать этот процесс. Но если процесс составле ния словарей словоформ легко автоматизируется, то сложнее дело обстоит со словарями основ слов и слово сочетаний.
Задача составления словарей формулируется следую щим образом: по заданной совокупности текстов вы брать попарно-различные элементы (словоформы, осно вы слов, словосочетания), определить их грамматиче ские характеристики и расположить эти элементы в за ранее обусловленном порядке. При необходимости (если составляется частотный словарь) подсчитать количест во повторений одинаковых элементов. Полученный та ким образом перечень элементов и их грамматических характеристик далее может подвергаться дополнитель ной обработке (например, он может редактироваться человеком). Не всякая работа по составлению словарей может быть автоматизирована (нельзя, например, пока еще точно определять с помощью машины все грамма тические и семантические признаки слов). Но большая часть работ по выявлению, отбору и упорядочению эле ментов текстов, включаемых в словарь, может быть вы полнена автоматически.
Составление словарей словоформ и словарей основ слов с помощью счетно-перфорационных машин
Счетно-перфорационные машины (СПМ) могут слу жить эффективным средством автоматизации работ по составлению словарей.' Наиболее удобны для этой цели
13* |
195 |
алфавитно-цифровые СПМ. В случае использования цифровых машин приходится кодировать каждую букву ее порядковым номером но алфавиту (двумя десятичны ми цифрами), а составленный словарь расшифровывать.
Исходным материалом для составления словаря сло воформ должна быть некоторая совокупность текстов определенной тематики. Сдова текста перфорируются одно за другим в порядке их следования в текстах. При
этом каждая |
словоформа |
исходного текста |
наносится |
на отдельную |
перфокарту. |
Полученный в |
результате |
перфорации массив перфокарт сортируется таким обра зом, чтобы слова располагались в алфавитном порядке или, при цифровом кодировании букв, в порядке возра стания численных значений кодов. После сортировки одинаковые словоформы располагаются рядом и пере считываются на табуляторе (если составляется частот ный словарь). Из каждой пачки одинаковых перфокарт отбирается по одной перфокарте, на которую наносится частота встречаемости словоформы. Образовавшийся массив перфокарт табулируется и при необходимости расшифровывается. Если цель составления словарей — только получение списков различных словоформ, то под счет количества карт не делается.
Частотный словарь основ составляется по частотному словарю словоформ. При этом для каждой словоформы на табуляграмме отмечается граница между основой и окончанием. Далее основы слов перфорируются вместе с частотами соответствующих словоформ и сортируются по алфавиту. Затем суммируются частоты по группам перфокарт с одинаковыми основами и перфорируются итоги суммирования на одну из перфокарт в каждой группе. Итоговые перфокарты выделяются из общего массива и с них частотный словарь основ печатается на рулонную бумагу.
Полученные с помощью СПМ словари служат исход ным материалом для составления машинных словарей словоформ и основ слов. Дальнейшая работа выполня ется человеком, который назначает соответствующие Грамматические и семантические признаки каждой сло воформе и каждой основе слова. Если в машинном сло варе словоформ или основ слов применяется порядок следования элементов, отличный о^ алфавитного, то не обходимая перестройка исходного материала произво дится также с помощью СПМ.
196
Составление словарей словоформ и словарей основ слов на ЭВМ с большой оперативной памятью
Процедуры автоматического составления словарей словоформ и словарей основ слов имеют много общих черт. Поэтому в дальнейшем изложении мы сосредото чим основное внимание на способах .составления слова рей словоформ.
Под большой оперативной памятью мы будем пони мать оперативную намять такого объема, который по зволяет разместить в ней весь словарь. Составление сло варя в машине с большой оперативной памятью проис ходит следующим образом. Элементы текста один за другим ищутся среди элементов словаря. Если они там находятся, то словарь оставляется без изменений. Если нет, то в него включаются новые элементы. Исходным состоянием словаря является такое, когда он не содер жит ни одного элемента, конечным состоянием — когда все элементы текста оказываются включенными в сло варь.
При составлении словаря основ слов используются алгоритмы точного и приближенного морфологического анализа (см. гл. 7, 8). Если словарь составляется зано во, «с нуля», то выделение основ слов и назначение им грамматической информации осуществляется с помощью процедуры приближенного морфологического анализа. Если он составляется на базе ранее составленного сло варя, то поиск в исходном словаре производится с по
мощью |
процедуры точного |
морфологического |
анализа, |
а поиск |
в дополнительной |
части словаря — с |
помощью |
процедуры приближенного |
анализа. Обращение к до |
полнительной части словаря происходит после того, как очередное слово не было найдено в исходном словаре.
Конкретный вид алгоритма составления словаря за висит от принятого порядка расположения его элемен тов и от способа поиска в нем. Можно, например, упо рядочить элементы словаря по их длине, а в пределах группы элементов одинаковой длины — по возрастанию кодов. Тогда нужный участок словаря можно искать по таблице разделителей, а поиск на участке — способом «деления пополам».
Таблица разделителей составляется заранее, исходя из предполагаемого объема словаря и данных о распре делении длин его элементов. Объем словаря и распреде
197
ление длин его элементов, могут быть приближенно определены по формулам, приведенным в гл. 16. В таб лице разделителей для каждого участка словаря с за данной длиной элементов указывается начальный ад рес, размер участка и объем заполненной части участ ка. Участки словаря могут быть укрупнены таким обра зом, 'что в один массив попадут все элементы, занимаю щие не более одной ячейки, в другой — двухъячеечные элементы, в третий — трехъячеечные и т. д.
Группировка элементов словаря по длине удобна при организации поиска в нем и включении в него новых элементов, так как порядок выполнения обеих, процедур зависит от «ячеечности» словоформ и основ слов. Перед включением в словарь нового элемента для него подго тавливается место: все коды, превосходящие по величи не код нового элемента, перемещаются в сторону резер ва. Одновременно в таблице разделителей корректирует ся объем заполненной части обрабатываемого участка словаря.
Процесс составления словаря продолжается до тех пор, пока не будет просмотрен весь исходный текст или пока не переполнится один из участков словаря. В по следнем случае участки словаря перемещаются, а таб лица разделителей корректируется, чтобы образовать резервы памяти, необходимые для обработки всего тек ста.
При включении новых элементов в словарь, упорядо ченный по длине и численным значениям кодов слово форм, необходимо перемещать значительные по объему массивы. Этого можно избежать, если для составления словаря использовать способ свертывания кодов в соче тании с цепным способом поиска и соответствующим образом организовать распределение памяти (см. гл. 5).
Поле оперативной памяти машины, предназначенное для словаря, делится на две части. Одна из них отво дится под буквенные коды слов, другая — под отсылоч ные адреса и коды связи между ними. Отсылочные адре са указывают места хранения буквенных кодов слово форм или основ слов, а коды связи устанавливают связь между отсылочными адресами, соответствующими одно му и тому же коду свертки. Вторая часть словаря назы вается его адресной частью. Массив ячеек адресной ча сти словаря делится, в свою очередь, на два участка, имеющих одинаковую структуру. Обращение к первому
198
участку производится по кодам сверток слов, а ко вто рому— по кодам связи. В каждой ячейке адресной чаети словаря обычно записывается один отсылочный адрес и один код связи. Код связи может отсутствовать, если отсылочный адрес является последним в ряду отсылоч ных адресов, соответствующих одному и тому же коду свертки.
Некоторые ячейки первого участка адресной части могут оказаться пустыми и после составления словаря. Это необходимо учитывать при распределении памяти машины. Количество пустых ячеек может быть сокраще но до минимума уменьшением разрядности кода свертки. Ниже приводится алгоритм составления словаря слово форм, в котором используется цепной способ поиска в со четании со свертыванием кодов. Применяются следую щие условные обозначения:
Ей |
Е2, . . . , |
Ет— номера ячеек, в которых хранится ис |
|||
|
|
|
ходный текст (каждое слово начина |
||
Ru |
Rz, |
••• |
ется с новой ячейки); |
|
|
Rn — номера ячеек для записи буквенных ко |
|||||
Си |
Сг, |
. . ., |
дов словаря; |
части словаря; |
|
Cq— номера ячеек адресной |
|||||
|
|
|
Si — номер первой свободной ячейки второ |
||
|
|
|
го участка адресной части словаря; |
||
|
|
|
А — адресная отсылка к буквенному |
коду |
|
|
|
|
словоформы; |
адресной |
части |
|
|
|
В — код связи (в ячейке |
||
|
|
|
словаря записывается |
один код А и |
|
|
|
|
один код В ) ; |
|
|
|
|
D, F — номера рабочих ячеек; |
|
|
выражение вида Fi-i-Fh обозначает последовательность ячеек, начинающуюся с ячейки Fi и оканчивающуюся ячейкой Fk\ выражения вида (С*), (D), (F{-i-Fh) обозна чают коды, записанные по адресам С;, D, F\-i-Fk.
Алгоритм автоматического составления словаря словоформ
1.Положить Ei = Eh.Ri = Ru Si = Si.
2.Проверить ( Е і ) на наличие признака конца текста. При поло жительном результате проверки — конец работы алгоритма, при от рицательном — перейти к п. 3.
3.Подсчитать количество ячеек к, занимаемых очередной слово
формой текста, и |
занести |
( Е і - и Е і+к - |
t) в ячейки |
F x+ - F h. |
Перейти |
|
|
||||
к п . 4. |
|
|
■ |
|
|
199