
книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы
.pdfпризнаком разрыва цепочки связей в предложении, если слева от них не стоит прилагательное. Анализ предложе ния слева от места разрыва связей продолжается по тем же правилам, что и справа от него. При этом место раз рыва связей считается концом предложения. Прилага тельное слева от союза или запятой проверяется на воз можность установления связи со словами, расположен ными справа от них.
В т о р о й п р о х о д совершается слева направо (от начала предложения к его концу). При этом последова тельно устанавливаются связи для тех слов в предложе нии, для которых при первом проходе не были найдены подчиняющие слова (исключение составляют глаголы, которые могут не иметь подчиняющих слов).
Если слово без «хозяина» не является глаголом, при частием, сочинительным союзом или запятой, то сначала управляющее слово (глагол) ищется справа от него, а затем (при отрицательном результате поиска) — слева. Поиск управляющего слова прекращается на границах предложения. Если слово без «хозяина» является при частием, то справа и слева от него ищется существитель ное, согласованное е ним в роде, числе и падеже, а на правление связи между существительным и причастием устанавливается согласно табл. 14.1
В случае сочинительного союза сначала проверяется, не является ли слово, стоящее слева, прилагательным. Если да, то переходят к следующему слову без «хозя ина»; если нет, то справа от сочинительного союза ищет ся слово, не являющееся прилагательным, а слева — слово, однородное по грамматическому классу с найден ным правым элементом. Для существительных, кроме того, требуется, чтобы признаки числа и падежа совпа дали. Далее обоим элементам, соединенным сочинитель ным союзом, назначаются одни и те же связи с другими словами предложения (т. е. связи одного элемента рас пространяются и на другой элемент).
Если слово без «хозяина» является запятой, то обра ботке подвергается слово, стоящее справа от нее. При этом для существительного ищется слева от запятой дру гое существительное с такими же признаками числа и падежа и «правому» существительному назначается то же управляющее слово, что и «левому». Для причастия ищется слева от запятой существительное, согласующе еся с ним в роде, числе и падеже, а для деепричастия
250
управляющий им глагол ищется в левой и правой частях предложения. Второй проход при анализе предложения заканчивается, когда оказываются просмотренными все слова без «хозяина».
Т р е т и й проход, как и второй, совершается слева направо и служит для выявления дополнительных свя зей глаголов и отглагольных форм с предлогами, не вы явленных за первый и второй проходы. Работа алгорит ма на третьем этапе заключается в последовательном поиске (в направлении от начала предложения к его концу) глаголов, причастий и деепричастий и установ ления связей этих слов с предлогами, расположенными слева и справа от них. Новые связи глаголов и глаголь ных форм с предлогами устанавливаются в пределах фрагментов предложений, ограниченных слева и справа другими глаголами и глагольными формами, а также предлогами, подчиненными другим глаголам и глаголь ным формам.
Алгоритм автоматического построения дерева предло жения был запрограммирован А. К. Родионовой для ма шины БЭСМ-ЗМ и опробован совместно с программами точного и приближенного морфологического анализа. Программа точного морфологического анализа работала со словарем, включающим 4000 наиболее часто встре чающихся основ слов. В словаре кроме номеров морфо логических классов основам слов назначались следую щие дополнительные грамматические признаки: 1) при знак глагольного происхождения (отглагольные сущест вительные, причастия, деепричастия); 2) признак мо дальности (для модальных глаголов); 3) признак место именное™; 4) признак субстантивированного прилага
тельного |
(для прилагательных, |
способных выступать |
в роли |
существительного); 5) |
признак числительного. |
Программа построения дерева предложения имела объ ем 1244 команды.
Кроме перечисленных выше программ в состав экспе риментальной модели синтаксического анализа предло жений входила программа ввода текстов с телеграфного аппарата и программа распечатки результатов анализа на АЦПУ. На АЦПУ выдавался текст исходного пред ложения вместе с присвоенными машиной порядковыми номерами слов, перечень новых слов (слов, не содержа щихся в словаре) с их грамматическими признаками и структура дерева предложения. Структура дерева пред
251
ложения описывалась путем указания для каждого но мера слова перечня номеров слов, непосредственно ему подчиненных и его подчиняющих.
Всего было проанализировано более тысячи предло жений и именных словосочетаний. В табл. 14.2—14.4 приведены количественные данные, характеризующие результаты анализа 100 предложений.
Р езул ьт а т ы |
авт омат ического синт |
Т а б л и д а |
14.2 |
||||
|
|
|
|
|
аксического |
ан ал иза |
|
|
|
|
100 |
п р ед л о ж ен и й |
|
|
|
|
|
|
|
|
Абсолютное |
Относитель |
|
Наименование признака |
|
ное |
при |
||||
|
значение при |
значение |
|||||
Общее количество автоматически уста |
знака |
знака, % |
|||||
1808 |
100 |
|
|||||
новленных связей между словами |
283 |
15,6 |
|
||||
Количество |
неправильно установленных |
|
|||||
связей |
потерянных связей |
293 |
16 |
|
|||
Количество |
|
||||||
Общее количество слов в предложе |
2075 |
100 |
|
||||
ниях |
|
|
|
|
246 |
12 |
|
Количество новых слов |
с |
неправильно |
|
||||
Количество |
новых слов |
29 |
1,4 |
|
|||
определенными грамматическими класса |
|
|
|
||||
ми |
новых |
слов |
с |
неправильно |
11 |
0,5 |
|
Количество |
|
выделенной основой
Табл. 14.2 иллюстрирует качество работы алгоритма синтаксического анализа и алгоритма приближенного морфологического анализа. Из этой таблицы видно, что уровень «шумов» и «потерь» связей при синтаксическом анализе не превосходит 16%. Если учесть, что анализ предложений проводился только по формальным прави лам и без учета семантики слов и словосочетаний, го та кое качество работы алгоритма можно признать удов летворительным.
В табл. 14.3, 14.4 приведены статистические данные о причинах «шумов» и' «потерь» при синтаксическом ана лизе. При этом следует иметь в виду, что одно и то же явление (потеря связи или появления ложной связи) мо жет быть результатом одновременного действия ряда причин, а неправильное определение грамматического
252
|
Т а б л и ц а 14.3 |
|
П р а ч и н ы неправильного |
уст ановления синт аксических |
|
с в я з е й м еж ду словами |
п р и авт омат ическом |
ан ал изе |
п редл ож ен и й |
|
|
Причины появления ложных связей между словами |
Количество ло ж- |
|
пых связей |
||
Новые слова |
|
57 |
Местоименные слова |
|
37 |
Омонимия словоформ |
|
27 |
Предлоги |
|
70 |
Границы между предложениями в составе слож- |
3 |
|
ного предложения |
|
122 |
Прочие причины |
|
П р и чи н ы пот ерь синт аксических |
св я з е й |
Тма б |
л |
и ц а 14.4 |
|
|
еж ду |
||
словами п р и автоматическом анализе п р едл ож ен и й |
||||
Причины потерь связей между словами |
|
Количество по |
||
|
терянных связей |
|||
Новые слова |
|
|
|
66 |
Омонимия словоформ |
|
|
|
34 |
Местоименные слова |
|
|
|
46 |
Предлоги |
слож- |
|
|
9 |
Границы между предложениями в составе |
|
|
18 |
|
ного предложения |
|
|
|
163 |
Прочие причины |
|
|
|
класса одного нового слова может привести к искаже нию схемы синтаксических связей нескольких слов.
Г л а в а 15 АВТОМАТИЧЕСКОЕ ИНДЕКСИРОВАНИЕ ДОКУМЕНТОВ
Предварительные замечания
Сущность процесса индексирования документов со стоит в переводе их содержания на язык Индексов — информационный язык, предназначенный для накопле ния, хранения, поиска и выдачи по запросам сведений
253
о документах. Объектом индексирования может служить текст документа или текст его реферата. В некоторых случаях в качестве исходного материала для индекси рования берутся заглавия документов (если они доста точно информативны). При индексировании первичных документов приходится одновременно решать две зада чи: 1) выделение основного содержания документов (об общение информации); 2) перевод содержания докумен тов на язык индексов.
Автоматизация решения этих задач связана с боль шими трудностями как принципиального, так и техниче ского порядка. К числу первых относится трудность мо делирования процессов понимания смысла. К числу вторых — отсутствие читающих автоматов, способных воспринимать различные типографские и машинописные шрифты, а также относительно высокая стоимость пер форационных работ. Высокая стоимость перфорацион ных работ можетявиться причиной малой эффективно сти автоматизированных документальных систем, опери рующих с полными текстами документов. Поэтому на первых порах (до создания эффективных читающих автоматов) целесообразно использовать ЭВМ только для хранения формализованных описаний документов и тек стов рефератов, а запись, хранение, поиск и воспроизве дение полных текстов документов производить с по мощью средств микрофотографии. Индексировать доку менты целесообразно по текстам их рефератов или по заглавиям.
Вопросам автоматического индексирования докумен тов посвящен ряд исследований в нашей стране и за ру бежом (см., например, работы [29, 65, 119]). В большин стве из них речь идет об автоматическом переводе со держания документов на дескрипторные языки, причем в качестве дескрипторов используются преимущественно однословные термины. Процесс индексирования здесь сводится к замене буквенных кодов информативных слов текста на их машинные индексы. Информативные слова выделяются из текста либо с помощью заранее состав ляемого словаря, либо статистическими методами. Груп пы близких по смыслу слов объединяются в классы экви валентности, и словам, принадлежащим к одному клас су, назначаются одинаковые индексы. При этом возни
кает необходимость распознавания различных |
форм |
слов и разрешения их омонимии. Последняя задача |
ока |
2 5 4
зывается более трудной. Она выполняется путем анализа контекстного окружения омонимичных слов.
Системы автоматического индексирования докумен тов, ориентированные на использование преимуществен но однословных терминов, проще в реализации, чем си стемы, .в которых основными единицами речи считаются словосочетания. В этих системах словарь дескрипторов занимает меньший объем, чем в системах второго типа, в них легко выделяются из текста единицы речи (по про белам между словами) и, как правило, не применяется синтаксический анализ. Но системы второго типа обес печивают большую полноту'" поиска информации при меньшем уровне шумов. Полнота поиска увеличивается за счет использования парадигматических связей между словосочетаниями, а точность поиска — за счет синтаг матических связей внутри словосочетаний. Хроме того. в системах второго типа в 2—3 раза сокращается объем
массива поисковых образов документов по |
сравнению |
с объемом этого массива в системах первого |
типа (см. |
гл. 16). В дальнейшем мы будем рассматривать только такие способы автоматического индексирования, при которых в качестве основных единиц речи используют преимущественно именные словосочетания, а документы индексируют по текстам их рефератов.
Автоматическое индексирование формализованных описаний документов
Формализованное описание документа составляется в виде перечня информативных словосочетаний и слов, встречающихся в тексте реферата этого документа. Элементы перечня отделяются друг от друга запятыми, а описанию в целом присваивается порядковый номер документа. Далее описание документа переносится на перфоноситель, вводится в ЭВМ и переводится на язык машинных индексов. Перевод выполняется с помощью автоматического тезауруса дескрипторных понятий. В ка честве машинных индексов используются номера наиме нований понятий по словарю.
Различают с в о б о д н о е и н д е к с и р о в а н и е фор мализованных описаний документов и и н д е к с и р о в а ние с к о н т р о л е м по т е з а у р у с у . В первом слу чае никаких ограничений на ввод в систему новых де скрипторных понятий не накладывается и тезаурус по-
255
полняется по мере необходимости. Во втором случае состав тезауруса фиксируется, а словосочетания и слова, встречающиеся в формализованных описаниях докумен тов, заменяются на номера эквивалентных или близких им по смыслу дескрипторных понятий. Первый вариант организации процесса индексирования описан в гл. 13. Поэтому здесь мы рассмотрим второй вариант.
Для автоматического индексирования с контролем по тезаурусу необходимо иметь систему іиз трех словарей: 1) словарь основ слов; 2) словарь наименований поня тий; 3) словарь родо-видовых связей слов. Словарь основ слов представляется в побуквенном коде и каждой основе ставится в соответствие номер ее смыслового эквивалента. В словаре наименований понятий большая часть понятий выражена именными словосочетаниями и значительно меньшая — отдельными словами. В качестве однословных терминов используются наиболее информа тивные слова из числа представленных в словаре основ. Словосочетания и однословные термины кодируются но мерами смысловых эквивалентов слов. Каждому наиме нованию понятия ставится в соответствие его номер.
В словаре родо-видовых связей слов фиксируются смысловые связи между словами, включенными в сло варь основ. Для каждого слова указывается (если это возможно) перечень слов, выражающих более широкие понятия. .Слова кодируются номерами смысловых экви валентов их основ.
Процесс индексирования формализованных описаний документов состоит в замене словосочетаний и слов, вхо дящих в их состав, на номера понятий из тезауруса. Слова и словосочетания заменяются на эквивалентные им по смыслу понятия, на понятия более широкие по объему и на понятия, ассоциированные с исходными. До пускается также разложение исходных словосочетаний на более короткие словосочетания и на отдельные слова.
Исходные понятия могут быть заменены на понятия тезауруса путем поиска всех вхождений словарных наи менований понятий в наименования понятий из форма лизованных описаний документов. Наименование поня тия А считается входящим в наименование понятия В, если все смысловые эквиваленты слов, выражающих по нятие А, содержатся среди смысловых эквивалентов слов, выражающих понятие В, а схемы связей между соответствующими словами в обоих наименованиях по-
256
нятнй совпадают. В результате будут найдены понятия, эквивалентные по смыслу исходным, более широкие по объему и ассоциированные с исходными. В первом и вто ром случае требуется, чтобы совпадали смысловые экви валенты главных слов сопоставляемых наименовании понятий.
Присутствие в поисковых образах документов наряду с понятиями, эквивалентными исходным, также более широких по объему понятий не оказывает отрицательно го влияния на результаты поиска информации, но и не является необходимым. Дело в том, что поиск сведений по более широким понятиям обеспечивается системой установления смысловых связей в тезаурусе. Поэтому такие понятия желательно исключить из состава поиско вых образов.
Идеальным случаем замены исходных понятий на по нятия тезауруса является эквивалентная замена. Если она невозможна, то необходимо стремиться к замене исходных понятий на наиболее конкретные из числа ро довых или ассоциированных понятий. При замене исход ных понятий на более широкие по объему, информация
обобщается, что нежелательно, так |
как |
это приводит |
к потерям документов при поиске. |
|
|
Полнота установления смысловых связей между по |
||
нятиями при индексировании может |
быть |
существенно |
увеличена, если наряду со словарем'основ слов я слова рем наименований понятий использовать словарь родо видовых связей слов. При этом понятие А тезауруса мо
жет |
быть использовано для |
замены исходного понятия |
В, |
если для каждого слова |
наименования понятия А |
в наименовании понятия В находится либо эквивалент ное ему по смыслу слово, либо слово, выражающее более узкое по объему понятие. В обоих наименованиях поня тий схемы связей соответствующих слов должны совпа дать.
Таким образом, процесс индексирования может быть расчленен на следующие основные этапы: 1) морфоло гический анализ формализованных описаний документов; 2) синтаксический анализ исходных словосочетаний; 3) поиск в тезаурусе наименований понятий, связанных по смыслу с исходными (эквивалентных исходным, родеъ вых я ассоциированных); 4) отбор из числа найденных наименований понятий наиболее узких по смыслу и за мена последних на их словарные номера. ....................■■
17— 3 1 0 |
2 5 7 |
Для выявления среди найденных понятий наиболее узких по смыслу может быть использован тезаурус. Но можно для этой цели применить и более простую про цедуру. Например, заменять каждое исходное наимено вание понятия только такими наименованиями понятий из тезауруса, которые содержат максимальное количе ство слов (словосочетания, имеющие большую длину, выражают, как правило, более узкие по объему понятия). Эксперименты показывают, что при замене исходных по нятий на эквивалентные им по смыслу и родовые поня тия можно добиться сокращения количества заменяю щих понятий в 2,5 раза.
При формировании поисковых образов документов важно не только сократить количество широких по объ ему понятий, но и обеспечить полный охват смыслового содержания исходных словосочетаний. Это требование можно конкретизировать как требование отражения смыслового содержания всех или большей части слов, входящих в состав исходных словосочетаний. Оно может быть выполнено, если трансформировать порядок отбора словосочетаний при индексировании следующим обра зом:
1)для каждого слова исходного словосочетания строится перечень наименований понятий тезауруса, являющихся вхождениями в это словосочетание и вклю чающих рассматриваемое слово или любое другое слово, выражающее более широкое по объему понятие;
2)в каждом перечне оставляются только словосоче тания максимальной длины, остальные исключаются;
3)перечни словосочетаний объединяются в один об щий перечень с исключением повторений одинаковых эле ментов.
Процедуру автоматического индексирования можно существенно упростить, если отказаться от синтаксиче ского анализа словосочетаний и производить поиск в те заурусе без учета функциональной роли и порядка сле дования слов. Это приведет к некоторому увеличению шумов при поиске, но одновременно увеличит и полноту
установления смысловых связей между понятиями. По следнее обстоятельство объясняется тем, что при транс формациях некоторых словосочетаний происходит изме нение схем синтаксических связей между словами (на пример, у таких словосочетаний, как «документальные поисковые системы» и «системы поиска документов»).
2 5 8
В случае применения упрощенной процедуры индексиро вания подобные изменения не будут отрицательно влиять на полноту установления связей между поня тиями.
Поиск документов по текстам рефератов
Документы можно искать по текстам их рефератов. При этом запросы следует формулировать в виде имен ных словосочетаний или последовательностей именных словосочетаний, соединенных знаками дизъюнкции или конъюнкции. Документ считается отвечающим на запрос, сформулированный в виде одного словосочетания, если это словосочетание встречается в тексте его реферата. Если в запросе указывается несколько словосочетаний, соединенных знаком дизъюнкции, то достаточно, чтобы в тексте реферата встретилось хотя бы одно из них. При конъюнктивной связи между словосочетаниями необхо димо, чтобы в .тексте реферата встретились все перечис ленные в запросе словосочетания. При смешанной логи ческой связи между словосочетаниями, оформленной в виде конъюнкции дизъюнкций (в конъюнктивной нор мальной форме), требуется, чтобы в тексте реферата; встретилось хотя бы по одному словосочетанию из каж дой дизъюнкции. Таким образом, основной операцией, при установлении смысловых связей между запросами и документами здесь является поиск вхождений словосо четаний запросов в тексты рефератов документов.
Будем считать, что словосочетание А входит в текст реферата, если все слова этого словосочетания встреча ются среди слов одного из предложений реферата и схе мы синтаксических связей слов в словосочетании и в предложении совпадают. При этом не требуется, чтобы порядок следования слов совпадал. Учитывая возмож ность трансформаций словосочетаний с изменением схем связей между словами, целесообразно требовать не пол ного совпадения схем связей, а только частичного, т. е. считать словосочетание входящим в состав предложе ния, если все его слова содержатся среди слов предло жения и слова, подчиненные главному слову в именном словосочетании (непосредственно или через другие сло ва), подчинены этому слову и в предложении. Подчинен ность слов устанавливается с помощью дерева зависи мостей.
Для поиска вхождений словосочетаний в состав тек-
17* |
2 5 9 |