![](/user_photo/_userpic.png)
книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы
.pdfслов, классификационный словарь понятий и массив буквенных кодов наименований понятий подготавлива ются заранее в том виде, в каком они будут храниться в памяти машины. Остальные массивы формируются с помощью программ обновления информации на основе перечня наименований понятий и массива сообщений. При этом в случае необходимости производится допол нение словарей (более подробно процессы обновления информации описываются ниже). Возможно также авто матическое формирование всех массивов (за исключе нием классификационного словаря понятий) с «нуля» на основе входных сообщений. Смысловые связи между понятиями в классификационном словаре устанавлива ются вручную. В качестве исходных данных для состав ления классификационного словаря служит перечень но меров и наименований понятий, выдаваемый на печать в процессе ввода входных сообщений.
Сведения по запросам ищутся в следующем порядке (рис. 13.1). Запрос, сформулированный на русском язы ке, переносится на перфоленту и вводится в машину (блок 1). При этом символы алфавита перекодируются из кода МТК-2 в код АЦПУ. Затем запрос переводится
с |
русского языка |
на |
информационный и |
приводится |
|||||
к |
виду, |
удобному |
для |
поиска в |
массивах |
сообщений |
|||
(блоки |
2, |
3, 4, |
5, |
6Н \ |
|
каждое |
слово заме |
||
|
В процессе |
перевода запроса |
няется номером его семантического эквивалента и грам матической информацией, необходимой для синтаксиче ского анализа словосочетаний (блок 3). Далее формиру ются пословные коды словосочетаний (наименований объектов и характеристик). В каждом из них на первое место ставится код главного слова, а коды остальных слов упорядочиваются по возрастанию их численных значений (блок 4). После этого производится поиск по словарю понятий и классификационному словарю поня тий (блоки 5, 6).
При поиске по первому словарю (блок 5) для каж дого понятия запроса выбираются номера эквивалент ных ему по смыслу и подчиненных понятий. Понятие В считается эквивалентным или подчиненным понятию А,
если |
у обоих понятий совпадают |
номера |
смысловых* |
* |
Последовательность работы блоков |
на рис. |
13.1 отражена |
в их нумерации. |
|
|
230
эквивалентов главных слов и все номера смысловых эквивалентов слов, входящих в состав наименования понятия А, содержатся среди номеров смысловых экви валентов слов, входящих в состав наименования поня тия В. Для каждого номера понятия, полученного при поиске по первому словарю, с помощью второго, класси фикационного словаря, в свою очередь, выбираются но-
Р ис. 13.1. П ор ядок работы системы в реж име поиска информации по запросам .
мера эквивалентных ему по смыслу и подчиненных по нятий. Далее результаты поиска по обоим словарям объединяются (раздельно для наименований объектов и для каждого наименования характеристики) и исключа ются повторения одинаковых номеров. При наличии в запросе нескольких наименований объектов, соединен
ных дизъюнктивной связкой |
«или», результаты поиска |
в словарях объединяются |
для группы наименований |
объектов в целом.
По окончании работы блоков 2—6 запрос приводится к виду, удобному для поиска сообщений. В общем слу
231
чае он включает в |
свой состав следующие эле |
||
менты: |
признаки |
массивов; |
|
а) |
|||
б) |
перечень |
номеров |
понятий, поставленный в соот |
ветствие объекту (объектам); |
|||
в) |
перечни номеров понятий, поставленные в соответ |
||
ствие характеристикам; |
|
||
г) |
значения характеристик; |
||
д) |
коды отношений между объектами, характеристи |
||
ками и их значениями; |
|
||
е) |
операторы обработки информации; |
||
ж) |
признак формы выдачи информации. |
Если требуется выдавать данные по всем характери стикам объектов или по всем объектам, имеющим задан ные характеристики, то соответствующие перечни номе ров понятий для характеристик или для объектов в за просе отсутствуют.
Поиск сообщений (блок 7) производится либо путем последовательного просмотра всего массива сведений либо массивов, имеющих заданные в запросе признаки. При этом сообщение считается релевантным (отвечаю щим на запрос), если код его объекта совпадает с одним из номеров понятий, поставленных в соответствие объек там запроса, а код его характеристики совпадает с од ним из номеров понятий, поставленных в соответствие характеристикам запроса. Кроме того, требуется совпа дение значений характеристик и кодов логических отно шений между объектами, характеристиками и их значе ниями.
Если в запросе указываются не все поисковые при знаки (например, нет наименования объекта или наиме нования характеристики или указан нулевой код логи ческого отношения), то сообщения ищутся только по за данным признакам.
В процессе поиска найденные сообщения распреде ляются по участкам оперативной памяти ЭВМ, число ко торых равно количеству характеристик в запросе. Далее выполняются действия, определяемые видом логической связи между характеристиками. Если связь между ха рактеристиками дизъюнктивная, то из соответствующих участков памяти в ответный массив отбираются все по парно-различные сообщения. Если связь между характе ристиками конъюнктивная, то в ответный массив отби раются только сообщения о таких объектах, коды кото
232
рых одновременно представлены на всех участках памя ти. При смешанной связи между характеристиками сна чала выполняются операции, соответствующие дизъюнк тивным связям, затем операции, соответствующие конъ юнктивным связям. Найденные сообщения обрабатыва ются, декодируются и выдаются на печать (блоки 8, 9, 10 па рис. 13.1). При этом номера понятий заменяются их буквенными кодами, а адресные отсылки к значениям характеристик — буквенными кодами значений характе ристик. Коды логических отношений используются для выборки словесных связок, выражающих эти отношения. Словесные связки составлены по табл. 13.2, но имеют более простую структуру, чем приведенные в этой таб лице формулировки.
В процессе перевода запроса с русского языка на информационный могут быть обнаружены слова и слово сочетания, не включенные в словари. Такие слова и сло восочетания выдаются на печать с сопровождающими пояснениями «новое слово», «новый термин» и исключа ются из состава запроса. Далее поиск ведется по запро су с измененной формулировкой. В большей части слу чаев это дает возможность находить нужные сведения несмотря на наличие в запросе «новых» элементов. При отсутствии в машине информации по заданному запросу на печать выдается первоначальная формулировка за проса и ответ «сведения не найдены».
Основные информационные массивы обновляются по мере поступления в систему новых сведений и устарева ния ранее накопленных. При этом наиболее часто изме няются массив сообщений и массивы буквенных кодов значений характеристик. Остальные массивы более ста бильны.
^ Порядок работы информационно-поисковой системы при вводе в нее новых сведений представлен на рис. 13.2. Сообщения, записанные на бланках (см. табл. 13.1), переносятся на перфоленту и вводятся в машину. Далее они перекодируются в код АЦПУ (блок 1 на рис. 13.2), переводятся с русского языка на информационный (бло ки 2—5, 7) и записываются в конец массива сообщений, имеющего те же признаки, что и признаки, указанные в формуляре (блок 6). Предварительно проверяют, сов падают ли вновь поступившие сообщения с ранее накоп ленными. I
233
I
Буквенные коды значений характеристик размещают ся рядом с массивами сообщений, к которым они отно сятся, а массивы сообщений сгруппировываются по при знакам, их характеризующим (географический район, отрасль промышленности и т. п.). Для новых сообщений значения характеристик записываются в конце соответ ствующего массива их буквенных кодов (блок 7).
Перфорация сведений, указанных на бланках, произ водится построчно, и каждый элемент сообщений, за
Рис. 13.2. Порядок работы системы в режиме обновления информа ции (ввод новых сообщений).
исключением кода логической связи, сопровождается своим буквенным признаком (буквой О обозначается объект, буквой X — характеристика, буквой 3 — значение характеристики). Например, сообщения, приведенные в табл. 13.1, после перфорации будут иметь следующий вид; О — (бетонный завод), X — (рабочие и служащие),
234
3 — (135), 01, О — (—), X — (местоположение), 3 — (г. Бийск), 00.
В процессе перевода сообщений на информационный язык сначала пословно кодируют наименования понятий (блок 3 на рис. 13.2), затем полученные коды заменяют их номерами по словарю понятий (блок 4). В случае необходимости словарь основ слов и словарь понятий дополняются. При появлении новых понятий пополняет ся также массив буквенных кодов их наименований (блок 5). Новые буквенные коды наименований понятий записываются в конец этого массива.
Словарь основ слов состоит из двух частей — основ ного словаря и дополнительного. Основной словарь со ставляется до ввода системы в эксплуатацию и предна значен для «точного» морфологического анализа. Допол нительный словарь формируется в процессе эксплуата ции системы и пополняется за счет «новых» слов. При этом используется процедура приближенного морфоло гического анализа. Основы «новых» слов записываются в словарь в порядке их поступления, а в качестве номе ров смысловых эквивалентов используются их позицион ные номера. Поиск в дополнительном словаре произво дится цепным способом.
Словарь понятий хранится в памяти машины в виде нескольких массивов однородной структуры. При записи в этот словарь новых кодов понятий возникает необхо димость в предварительном перемещении его элементов. Новым наименованиям понятий присваиваются номера в порядке их поступления. Новые слова и новые наиме нования понятий выводятся на печать. Первые — для контроля работы программы приближенного морфологи ческого анализа, вторые — чтобы создать исходные дан ные для пополнения классификационного словаря.
Новые понятия включаются в систему смысловых связей классификационного словаря человеком по мере их накопления. При этом для каждого нового понятия составляются перечни номеров подчиняющих и подчи ненных понятий. На основе этих перечней по специаль ной программе дополняют машинный классификацион ный словарь (программа дополнения классификационно го словаря работает автономно и на рис. 13.2 не обозначена). Устаревшую информацию изымают путем ввода в ЭВМ специальных сообщений, предписывающих выполнение этой операции.
235
Описанная фактографическая поисковая система реа лизована на ЭВМ. Общий объем ее программ составляет около 20 000 команд*.
Автоматизированная документальная информационно поисковая система
Система предназначена для поиска рефератов доку ментов по тематическим запросам, сформулированным на русском языке. Запросы могут быть простыми и сложными. Простой запрос состоит из одного дескрипторного понятия, выраженного отдельным словом или именным словосочетанием. Сложный запрос состоит из нескольких наименований понятий, соединенных конъюнктивной или дизъюнктивной логической связью. В случае конъюнктивной связи наименования понятий отделяются друг от друга запятыми, а при дизъюнктив ной связи — сочинительным союзом «или». В сложных запросах могут одновременно использоваться оба вида логических связей.
Тексты рефератов хранятся на магнитной ленте и вы даются на печать вместе с первоначальной формулиров кой запроса и дополнительными пояснениями. Эти пояс нения служат средством обратной связи между машиной и человеком. В них м’ожет обращаться внимание на на личие в запросе «новых» элементов (слов, словосочета ний) или на излишнюю широту его формулировки (ко гда выдается слишком много сведений).
Новые слова и словосочетания обнаруживаются при анализе запроса и исключаются из его состава. Далее поиск ведется на основе измененной формулировки за проса. Обычно это дает возможность находить нужные сведения, несмотря на наличие в запросе новых эле ментов.
В процессе функционирования документальной по исковой системы наряду с текстами рефератов использу ются следующие основные информационные массивы:
—словарь основ слов (СО);
—словарь понятий (СП);
*Наряду с авторами главы в практической реализации системы
принималибаков и др. участие |
Н . В. Алтухова, В . А . Чиркин, И . И . Быстров, |
Н. Т. Губарь, В. Ф. |
Денисов, 'В. И. Ермолкин, Е. И. Стогов, Б. П . Ры |
236
/•
—классификационный словарь понятий (КСП);
—поисковые образы рефератов (ПОР).
Первые три массива имеют структуру, аналогичную структуре соответствующих массивов в фактографиче ской информационно-поисковой системе. В поисковых образах рефератов перечисляются номера всех инфор мативных понятий, встречающихся в названиях докумен тов или в текстах их рефератов. При этом наименования понятий могут выражаться как отдельными словами, так и сочетаниями из двух, трех и т. д. слов. Наряду с по нятиями, отражающими содержание документов, в по исковые образы могут включаться также некоторые биб лиографические данные (например, сведения о стране, языке и времени издания документов).
Процессы поиска и обновления информации в доку ментальной системе сходны с соответствующими процес сами фактографической системы. Их различие опреде ляется в основном различием в структуре массивов со общений (массивов поисковых образов и текстов рефератов с одной стороны и массивов элементарных сообщений и значений характеристик — с другой).
На рис. 13.3 представлена укрупненная схема процес са поиска рефератов документов по запросам. Сначала (блок 1) с помощью словаря основ пословно кодируют запрос и определяют грамматическую информацию к каждому слову. Затем пословные коды дескрипторных понятий приводятся к виду, удобному для поиска в сло варе понятий, и осуществляется поиск' в этом словаре (блок 2). В результате поиска в словаре понятий каж дому понятию запроса ставится в соответствие перечень номеров понятий эквивалентных, подчиненных и ассоци ированных с ним по смыслу. При э£рм понятие В счи тается эквивалентным или подчиненным понятию А, если наименование первого понятия включает в себя все слова, выражающие содержание второго понятия, а главные слова сравниваемых понятий совпадают. По нятие В считается ассоциированным по смыслу с поня тием А, если наименование первого понятия включает в себя все слова, выражающие содержание второго поня тия, но главные слова не совпадают (например, понятие «применение ЭВМ для поиска информации» является ассоциированным по смыслу с понятием «поиск инфор мации»).
237
На следующем этапе обработки запроса (блок 3) для каждого из исходных понятий и понятий, найденных в процессе работы блока 2, с помощью классификацион ного словаря выбираются номера эквивалентных им по смыслу и подчиненных понятий. Результаты поиска по СП и КСП объединяются таким образом, что для каж дого понятия запроса формируется группа номеров экви валентных и подчиггенных ему понятий, а также группа
Р ис. |
13.3. Схем а процесса |
поиска рефератов |
документов. |
|
ассоциированных понятий |
(в |
последнюю |
входят также |
|
понятия, |
подчиненные и |
эквивалентные |
ассоциирован |
|
ным понятиям, найденным |
в |
результате |
работы бло- |
|
ка 2). |
|
|
|
|
Работой блока«3 заканчивается формирование поис кового образа запроса. Далее (блок 4) ищут номера ре фератов, удовлетворяющих условиям запроса, и форми руют два эшелона выдачи результатов поиска — основ ной и дополнительный.
При конъюнктивной логической связи между поня тиями запроса в основной эшелон выдачи заносятся но мера таких рефератов, в поисковых образах которых содержится хотя бы по одному понятию из каждой группы, включающей понятие запроса и понятия, ему эквивалентные и подчиненные. Второй эшелон выдачи формируется аналогично первому, но при этом для по-
238
иска номеров рефератов привлекаются также понятия, ассоциированные с понятиями запроса, а из результа тов поиска исключаются номера рефератов, вошедшие в первый эшелон выдачи. При дизъюнктивной связи между понятиями запроса перечни соответствующих им эквивалентных, подчиненных и ассоциированных поня тий объединяются. Если в запросе одновременно исполь
зуются конъюнктивные |
и дизъюнктивные связи |
между |
|
понятиями, |
то сначала |
объединяются перечни |
эквива |
лентных, |
подчиненных |
и ассоциированных |
понятий |
в дизъюнктивных группах, затем ищутся номера рефера тов по правилам, предусмотренным для запросов с конъ юнктивной связью между понятиями.
Запросы формулируются заказчиком в произвольном виде. Затем они подвергаются формализации, которая заключается в выделении из текста запроса информа тивных понятий и установлении между ними конъюнк тивной или дизъюнктивной логической связи. Чтобы уве личить полноту выдачи информации, в запрос можно
вносить также наименования |
понятий, отсутствующие |
в его первоначальном тексте. |
Формализация запроса |
обычно производится без обращения к словарю дескрип торов.
Для иллюстрации приведем примеры запросов до их форма лизации и после нее.
Запрос 1: применение методов статистических испытаний для отыскания оптимальных решений в задачах планирования.
Запрос 2: автоматическое регулирование.
Запрос 3: математическая теория информационно-поисковых си стем.
После формализации запросы записывались в следующем виде. Запрос 1: метод статистических испытаний или метод Монте-
Карло, оптимальные решения или оптимизация, планирование. Запрос 2: автоматическое реферирование.
Запрос 3: математическая теория, информационно-поисковые си стемы или информационные системы или поиск информации.
При необходимости в запрос вносятся уточнения, касающиеся страны, языка и времени издания документов.
Формализованный запрос побуквенно набивается на перфоленту в международном телеграфном коде. Далее весь процесс от ввода запроса в Э В М до выдачи ответа на запрос осуществляется авто матически.
Обновление информации в документальной поисковой системе связано с необходимостью ввода в нее сведений о новых документах (текстов рефератов и их поисковых образов). Тексты рефератов переносятся на перфоленту в международном телеграфном коде и вводятся в ЭВМ.
2 3 9