Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы

.pdf
Скачиваний:
22
Добавлен:
25.10.2023
Размер:
14.28 Mб
Скачать

признаком разрыва цепочки связей в предложении, если слева от них не стоит прилагательное. Анализ предложе­ ния слева от места разрыва связей продолжается по тем же правилам, что и справа от него. При этом место раз­ рыва связей считается концом предложения. Прилага­ тельное слева от союза или запятой проверяется на воз­ можность установления связи со словами, расположен­ ными справа от них.

В т о р о й п р о х о д совершается слева направо (от начала предложения к его концу). При этом последова­ тельно устанавливаются связи для тех слов в предложе­ нии, для которых при первом проходе не были найдены подчиняющие слова (исключение составляют глаголы, которые могут не иметь подчиняющих слов).

Если слово без «хозяина» не является глаголом, при­ частием, сочинительным союзом или запятой, то сначала управляющее слово (глагол) ищется справа от него, а затем (при отрицательном результате поиска) — слева. Поиск управляющего слова прекращается на границах предложения. Если слово без «хозяина» является при­ частием, то справа и слева от него ищется существитель­ ное, согласованное е ним в роде, числе и падеже, а на­ правление связи между существительным и причастием устанавливается согласно табл. 14.1

В случае сочинительного союза сначала проверяется, не является ли слово, стоящее слева, прилагательным. Если да, то переходят к следующему слову без «хозя­ ина»; если нет, то справа от сочинительного союза ищет­ ся слово, не являющееся прилагательным, а слева — слово, однородное по грамматическому классу с найден­ ным правым элементом. Для существительных, кроме того, требуется, чтобы признаки числа и падежа совпа­ дали. Далее обоим элементам, соединенным сочинитель­ ным союзом, назначаются одни и те же связи с другими словами предложения (т. е. связи одного элемента рас­ пространяются и на другой элемент).

Если слово без «хозяина» является запятой, то обра­ ботке подвергается слово, стоящее справа от нее. При этом для существительного ищется слева от запятой дру­ гое существительное с такими же признаками числа и падежа и «правому» существительному назначается то же управляющее слово, что и «левому». Для причастия ищется слева от запятой существительное, согласующе­ еся с ним в роде, числе и падеже, а для деепричастия

250

управляющий им глагол ищется в левой и правой частях предложения. Второй проход при анализе предложения заканчивается, когда оказываются просмотренными все слова без «хозяина».

Т р е т и й проход, как и второй, совершается слева направо и служит для выявления дополнительных свя­ зей глаголов и отглагольных форм с предлогами, не вы­ явленных за первый и второй проходы. Работа алгорит­ ма на третьем этапе заключается в последовательном поиске (в направлении от начала предложения к его концу) глаголов, причастий и деепричастий и установ­ ления связей этих слов с предлогами, расположенными слева и справа от них. Новые связи глаголов и глаголь­ ных форм с предлогами устанавливаются в пределах фрагментов предложений, ограниченных слева и справа другими глаголами и глагольными формами, а также предлогами, подчиненными другим глаголам и глаголь­ ным формам.

Алгоритм автоматического построения дерева предло­ жения был запрограммирован А. К. Родионовой для ма­ шины БЭСМ-ЗМ и опробован совместно с программами точного и приближенного морфологического анализа. Программа точного морфологического анализа работала со словарем, включающим 4000 наиболее часто встре­ чающихся основ слов. В словаре кроме номеров морфо­ логических классов основам слов назначались следую­ щие дополнительные грамматические признаки: 1) при­ знак глагольного происхождения (отглагольные сущест­ вительные, причастия, деепричастия); 2) признак мо­ дальности (для модальных глаголов); 3) признак место­ именное™; 4) признак субстантивированного прилага­

тельного

(для прилагательных,

способных выступать

в роли

существительного); 5)

признак числительного.

Программа построения дерева предложения имела объ­ ем 1244 команды.

Кроме перечисленных выше программ в состав экспе­ риментальной модели синтаксического анализа предло­ жений входила программа ввода текстов с телеграфного аппарата и программа распечатки результатов анализа на АЦПУ. На АЦПУ выдавался текст исходного пред­ ложения вместе с присвоенными машиной порядковыми номерами слов, перечень новых слов (слов, не содержа­ щихся в словаре) с их грамматическими признаками и структура дерева предложения. Структура дерева пред­

251

ложения описывалась путем указания для каждого но­ мера слова перечня номеров слов, непосредственно ему подчиненных и его подчиняющих.

Всего было проанализировано более тысячи предло­ жений и именных словосочетаний. В табл. 14.2—14.4 приведены количественные данные, характеризующие результаты анализа 100 предложений.

Р езул ьт а т ы

авт омат ического синт

Т а б л и д а

14.2

 

 

 

 

 

аксического

ан ал иза

 

 

 

 

100

п р ед л о ж ен и й

 

 

 

 

 

 

 

Абсолютное

Относитель­

Наименование признака

 

ное

при­

 

значение при­

значение

Общее количество автоматически уста­

знака

знака, %

1808

100

 

новленных связей между словами

283

15,6

 

Количество

неправильно установленных

 

связей

потерянных связей

293

16

 

Количество

 

Общее количество слов в предложе­

2075

100

 

ниях

 

 

 

 

246

12

 

Количество новых слов

с

неправильно

 

Количество

новых слов

29

1,4

 

определенными грамматическими класса­

 

 

 

ми

новых

слов

с

неправильно

11

0,5

 

Количество

 

выделенной основой

Табл. 14.2 иллюстрирует качество работы алгоритма синтаксического анализа и алгоритма приближенного морфологического анализа. Из этой таблицы видно, что уровень «шумов» и «потерь» связей при синтаксическом анализе не превосходит 16%. Если учесть, что анализ предложений проводился только по формальным прави­ лам и без учета семантики слов и словосочетаний, го та­ кое качество работы алгоритма можно признать удов­ летворительным.

В табл. 14.3, 14.4 приведены статистические данные о причинах «шумов» и' «потерь» при синтаксическом ана­ лизе. При этом следует иметь в виду, что одно и то же явление (потеря связи или появления ложной связи) мо­ жет быть результатом одновременного действия ряда причин, а неправильное определение грамматического

252

 

Т а б л и ц а 14.3

П р а ч и н ы неправильного

уст ановления синт аксических

с в я з е й м еж ду словами

п р и авт омат ическом

ан ал изе

п редл ож ен и й

 

Причины появления ложных связей между словами

Количество ло ж-

пых связей

Новые слова

 

57

Местоименные слова

 

37

Омонимия словоформ

 

27

Предлоги

 

70

Границы между предложениями в составе слож-

3

ного предложения

 

122

Прочие причины

 

П р и чи н ы пот ерь синт аксических

св я з е й

Тма б

л

и ц а 14.4

 

 

еж ду

словами п р и автоматическом анализе п р едл ож ен и й

Причины потерь связей между словами

 

Количество по­

 

терянных связей

Новые слова

 

 

 

66

Омонимия словоформ

 

 

 

34

Местоименные слова

 

 

 

46

Предлоги

слож-

 

 

9

Границы между предложениями в составе

 

 

18

ного предложения

 

 

 

163

Прочие причины

 

 

 

класса одного нового слова может привести к искаже­ нию схемы синтаксических связей нескольких слов.

Г л а в а 15 АВТОМАТИЧЕСКОЕ ИНДЕКСИРОВАНИЕ ДОКУМЕНТОВ

Предварительные замечания

Сущность процесса индексирования документов со­ стоит в переводе их содержания на язык Индексов — информационный язык, предназначенный для накопле­ ния, хранения, поиска и выдачи по запросам сведений

253

о документах. Объектом индексирования может служить текст документа или текст его реферата. В некоторых случаях в качестве исходного материала для индекси­ рования берутся заглавия документов (если они доста­ точно информативны). При индексировании первичных документов приходится одновременно решать две зада­ чи: 1) выделение основного содержания документов (об­ общение информации); 2) перевод содержания докумен­ тов на язык индексов.

Автоматизация решения этих задач связана с боль­ шими трудностями как принципиального, так и техниче­ ского порядка. К числу первых относится трудность мо­ делирования процессов понимания смысла. К числу вторых — отсутствие читающих автоматов, способных воспринимать различные типографские и машинописные шрифты, а также относительно высокая стоимость пер­ форационных работ. Высокая стоимость перфорацион­ ных работ можетявиться причиной малой эффективно­ сти автоматизированных документальных систем, опери­ рующих с полными текстами документов. Поэтому на первых порах (до создания эффективных читающих автоматов) целесообразно использовать ЭВМ только для хранения формализованных описаний документов и тек­ стов рефератов, а запись, хранение, поиск и воспроизве­ дение полных текстов документов производить с по­ мощью средств микрофотографии. Индексировать доку­ менты целесообразно по текстам их рефератов или по заглавиям.

Вопросам автоматического индексирования докумен­ тов посвящен ряд исследований в нашей стране и за ру­ бежом (см., например, работы [29, 65, 119]). В большин­ стве из них речь идет об автоматическом переводе со­ держания документов на дескрипторные языки, причем в качестве дескрипторов используются преимущественно однословные термины. Процесс индексирования здесь сводится к замене буквенных кодов информативных слов текста на их машинные индексы. Информативные слова выделяются из текста либо с помощью заранее состав­ ляемого словаря, либо статистическими методами. Груп­ пы близких по смыслу слов объединяются в классы экви­ валентности, и словам, принадлежащим к одному клас­ су, назначаются одинаковые индексы. При этом возни­

кает необходимость распознавания различных

форм

слов и разрешения их омонимии. Последняя задача

ока­

2 5 4

зывается более трудной. Она выполняется путем анализа контекстного окружения омонимичных слов.

Системы автоматического индексирования докумен­ тов, ориентированные на использование преимуществен­ но однословных терминов, проще в реализации, чем си­ стемы, .в которых основными единицами речи считаются словосочетания. В этих системах словарь дескрипторов занимает меньший объем, чем в системах второго типа, в них легко выделяются из текста единицы речи (по про­ белам между словами) и, как правило, не применяется синтаксический анализ. Но системы второго типа обес­ печивают большую полноту'" поиска информации при меньшем уровне шумов. Полнота поиска увеличивается за счет использования парадигматических связей между словосочетаниями, а точность поиска — за счет синтаг­ матических связей внутри словосочетаний. Хроме того. в системах второго типа в 2—3 раза сокращается объем

массива поисковых образов документов по

сравнению

с объемом этого массива в системах первого

типа (см.

гл. 16). В дальнейшем мы будем рассматривать только такие способы автоматического индексирования, при которых в качестве основных единиц речи используют преимущественно именные словосочетания, а документы индексируют по текстам их рефератов.

Автоматическое индексирование формализованных описаний документов

Формализованное описание документа составляется в виде перечня информативных словосочетаний и слов, встречающихся в тексте реферата этого документа. Элементы перечня отделяются друг от друга запятыми, а описанию в целом присваивается порядковый номер документа. Далее описание документа переносится на перфоноситель, вводится в ЭВМ и переводится на язык машинных индексов. Перевод выполняется с помощью автоматического тезауруса дескрипторных понятий. В ка­ честве машинных индексов используются номера наиме­ нований понятий по словарю.

Различают с в о б о д н о е и н д е к с и р о в а н и е фор­ мализованных описаний документов и и н д е к с и р о в а ­ ние с к о н т р о л е м по т е з а у р у с у . В первом слу­ чае никаких ограничений на ввод в систему новых де­ скрипторных понятий не накладывается и тезаурус по-

255

полняется по мере необходимости. Во втором случае состав тезауруса фиксируется, а словосочетания и слова, встречающиеся в формализованных описаниях докумен­ тов, заменяются на номера эквивалентных или близких им по смыслу дескрипторных понятий. Первый вариант организации процесса индексирования описан в гл. 13. Поэтому здесь мы рассмотрим второй вариант.

Для автоматического индексирования с контролем по тезаурусу необходимо иметь систему іиз трех словарей: 1) словарь основ слов; 2) словарь наименований поня­ тий; 3) словарь родо-видовых связей слов. Словарь основ слов представляется в побуквенном коде и каждой основе ставится в соответствие номер ее смыслового эквивалента. В словаре наименований понятий большая часть понятий выражена именными словосочетаниями и значительно меньшая — отдельными словами. В качестве однословных терминов используются наиболее информа­ тивные слова из числа представленных в словаре основ. Словосочетания и однословные термины кодируются но­ мерами смысловых эквивалентов слов. Каждому наиме­ нованию понятия ставится в соответствие его номер.

В словаре родо-видовых связей слов фиксируются смысловые связи между словами, включенными в сло­ варь основ. Для каждого слова указывается (если это возможно) перечень слов, выражающих более широкие понятия. .Слова кодируются номерами смысловых экви­ валентов их основ.

Процесс индексирования формализованных описаний документов состоит в замене словосочетаний и слов, вхо­ дящих в их состав, на номера понятий из тезауруса. Слова и словосочетания заменяются на эквивалентные им по смыслу понятия, на понятия более широкие по объему и на понятия, ассоциированные с исходными. До­ пускается также разложение исходных словосочетаний на более короткие словосочетания и на отдельные слова.

Исходные понятия могут быть заменены на понятия тезауруса путем поиска всех вхождений словарных наи­ менований понятий в наименования понятий из форма­ лизованных описаний документов. Наименование поня­ тия А считается входящим в наименование понятия В, если все смысловые эквиваленты слов, выражающих по­ нятие А, содержатся среди смысловых эквивалентов слов, выражающих понятие В, а схемы связей между соответствующими словами в обоих наименованиях по-

256

нятнй совпадают. В результате будут найдены понятия, эквивалентные по смыслу исходным, более широкие по объему и ассоциированные с исходными. В первом и вто­ ром случае требуется, чтобы совпадали смысловые экви­ валенты главных слов сопоставляемых наименовании понятий.

Присутствие в поисковых образах документов наряду с понятиями, эквивалентными исходным, также более широких по объему понятий не оказывает отрицательно­ го влияния на результаты поиска информации, но и не является необходимым. Дело в том, что поиск сведений по более широким понятиям обеспечивается системой установления смысловых связей в тезаурусе. Поэтому такие понятия желательно исключить из состава поиско­ вых образов.

Идеальным случаем замены исходных понятий на по­ нятия тезауруса является эквивалентная замена. Если она невозможна, то необходимо стремиться к замене исходных понятий на наиболее конкретные из числа ро­ довых или ассоциированных понятий. При замене исход­ ных понятий на более широкие по объему, информация

обобщается, что нежелательно, так

как

это приводит

к потерям документов при поиске.

 

 

Полнота установления смысловых связей между по­

нятиями при индексировании может

быть

существенно

увеличена, если наряду со словарем'основ слов я слова­ рем наименований понятий использовать словарь родо­ видовых связей слов. При этом понятие А тезауруса мо­

жет

быть использовано для

замены исходного понятия

В,

если для каждого слова

наименования понятия А

в наименовании понятия В находится либо эквивалент­ ное ему по смыслу слово, либо слово, выражающее более узкое по объему понятие. В обоих наименованиях поня­ тий схемы связей соответствующих слов должны совпа­ дать.

Таким образом, процесс индексирования может быть расчленен на следующие основные этапы: 1) морфоло­ гический анализ формализованных описаний документов; 2) синтаксический анализ исходных словосочетаний; 3) поиск в тезаурусе наименований понятий, связанных по смыслу с исходными (эквивалентных исходным, родеъ вых я ассоциированных); 4) отбор из числа найденных наименований понятий наиболее узких по смыслу и за­ мена последних на их словарные номера. ....................■■

17— 3 1 0

2 5 7

Для выявления среди найденных понятий наиболее узких по смыслу может быть использован тезаурус. Но можно для этой цели применить и более простую про­ цедуру. Например, заменять каждое исходное наимено­ вание понятия только такими наименованиями понятий из тезауруса, которые содержат максимальное количе­ ство слов (словосочетания, имеющие большую длину, выражают, как правило, более узкие по объему понятия). Эксперименты показывают, что при замене исходных по­ нятий на эквивалентные им по смыслу и родовые поня­ тия можно добиться сокращения количества заменяю­ щих понятий в 2,5 раза.

При формировании поисковых образов документов важно не только сократить количество широких по объ­ ему понятий, но и обеспечить полный охват смыслового содержания исходных словосочетаний. Это требование можно конкретизировать как требование отражения смыслового содержания всех или большей части слов, входящих в состав исходных словосочетаний. Оно может быть выполнено, если трансформировать порядок отбора словосочетаний при индексировании следующим обра­ зом:

1)для каждого слова исходного словосочетания строится перечень наименований понятий тезауруса, являющихся вхождениями в это словосочетание и вклю­ чающих рассматриваемое слово или любое другое слово, выражающее более широкое по объему понятие;

2)в каждом перечне оставляются только словосоче­ тания максимальной длины, остальные исключаются;

3)перечни словосочетаний объединяются в один об­ щий перечень с исключением повторений одинаковых эле­ ментов.

Процедуру автоматического индексирования можно существенно упростить, если отказаться от синтаксиче­ ского анализа словосочетаний и производить поиск в те­ заурусе без учета функциональной роли и порядка сле­ дования слов. Это приведет к некоторому увеличению шумов при поиске, но одновременно увеличит и полноту

установления смысловых связей между понятиями. По­ следнее обстоятельство объясняется тем, что при транс­ формациях некоторых словосочетаний происходит изме­ нение схем синтаксических связей между словами (на­ пример, у таких словосочетаний, как «документальные поисковые системы» и «системы поиска документов»).

2 5 8

В случае применения упрощенной процедуры индексиро­ вания подобные изменения не будут отрицательно влиять на полноту установления связей между поня­ тиями.

Поиск документов по текстам рефератов

Документы можно искать по текстам их рефератов. При этом запросы следует формулировать в виде имен­ ных словосочетаний или последовательностей именных словосочетаний, соединенных знаками дизъюнкции или конъюнкции. Документ считается отвечающим на запрос, сформулированный в виде одного словосочетания, если это словосочетание встречается в тексте его реферата. Если в запросе указывается несколько словосочетаний, соединенных знаком дизъюнкции, то достаточно, чтобы в тексте реферата встретилось хотя бы одно из них. При конъюнктивной связи между словосочетаниями необхо­ димо, чтобы в .тексте реферата встретились все перечис­ ленные в запросе словосочетания. При смешанной логи­ ческой связи между словосочетаниями, оформленной в виде конъюнкции дизъюнкций (в конъюнктивной нор­ мальной форме), требуется, чтобы в тексте реферата; встретилось хотя бы по одному словосочетанию из каж­ дой дизъюнкции. Таким образом, основной операцией, при установлении смысловых связей между запросами и документами здесь является поиск вхождений словосо­ четаний запросов в тексты рефератов документов.

Будем считать, что словосочетание А входит в текст реферата, если все слова этого словосочетания встреча­ ются среди слов одного из предложений реферата и схе­ мы синтаксических связей слов в словосочетании и в предложении совпадают. При этом не требуется, чтобы порядок следования слов совпадал. Учитывая возмож­ ность трансформаций словосочетаний с изменением схем связей между словами, целесообразно требовать не пол­ ного совпадения схем связей, а только частичного, т. е. считать словосочетание входящим в состав предложе­ ния, если все его слова содержатся среди слов предло­ жения и слова, подчиненные главному слову в именном словосочетании (непосредственно или через другие сло­ ва), подчинены этому слову и в предложении. Подчинен­ ность слов устанавливается с помощью дерева зависи­ мостей.

Для поиска вхождений словосочетаний в состав тек-

17*

2 5 9

Соседние файлы в папке книги из ГПНТБ