Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы

.pdf
Скачиваний:
9
Добавлен:
25.10.2023
Размер:
14.28 Mб
Скачать

слов, классификационный словарь понятий и массив буквенных кодов наименований понятий подготавлива­ ются заранее в том виде, в каком они будут храниться в памяти машины. Остальные массивы формируются с помощью программ обновления информации на основе перечня наименований понятий и массива сообщений. При этом в случае необходимости производится допол­ нение словарей (более подробно процессы обновления информации описываются ниже). Возможно также авто­ матическое формирование всех массивов (за исключе­ нием классификационного словаря понятий) с «нуля» на основе входных сообщений. Смысловые связи между понятиями в классификационном словаре устанавлива­ ются вручную. В качестве исходных данных для состав­ ления классификационного словаря служит перечень но­ меров и наименований понятий, выдаваемый на печать в процессе ввода входных сообщений.

Сведения по запросам ищутся в следующем порядке (рис. 13.1). Запрос, сформулированный на русском язы­ ке, переносится на перфоленту и вводится в машину (блок 1). При этом символы алфавита перекодируются из кода МТК-2 в код АЦПУ. Затем запрос переводится

с

русского языка

на

информационный и

приводится

к

виду,

удобному

для

поиска в

массивах

сообщений

(блоки

2,

3, 4,

5,

6Н \

 

каждое

слово заме­

 

В процессе

перевода запроса

няется номером его семантического эквивалента и грам­ матической информацией, необходимой для синтаксиче­ ского анализа словосочетаний (блок 3). Далее формиру­ ются пословные коды словосочетаний (наименований объектов и характеристик). В каждом из них на первое место ставится код главного слова, а коды остальных слов упорядочиваются по возрастанию их численных значений (блок 4). После этого производится поиск по словарю понятий и классификационному словарю поня­ тий (блоки 5, 6).

При поиске по первому словарю (блок 5) для каж­ дого понятия запроса выбираются номера эквивалент­ ных ему по смыслу и подчиненных понятий. Понятие В считается эквивалентным или подчиненным понятию А,

если

у обоих понятий совпадают

номера

смысловых*

*

Последовательность работы блоков

на рис.

13.1 отражена

в их нумерации.

 

 

230

эквивалентов главных слов и все номера смысловых эквивалентов слов, входящих в состав наименования понятия А, содержатся среди номеров смысловых экви­ валентов слов, входящих в состав наименования поня­ тия В. Для каждого номера понятия, полученного при поиске по первому словарю, с помощью второго, класси­ фикационного словаря, в свою очередь, выбираются но-

Р ис. 13.1. П ор ядок работы системы в реж име поиска информации по запросам .

мера эквивалентных ему по смыслу и подчиненных по­ нятий. Далее результаты поиска по обоим словарям объединяются (раздельно для наименований объектов и для каждого наименования характеристики) и исключа­ ются повторения одинаковых номеров. При наличии в запросе нескольких наименований объектов, соединен­

ных дизъюнктивной связкой

«или», результаты поиска

в словарях объединяются

для группы наименований

объектов в целом.

По окончании работы блоков 2—6 запрос приводится к виду, удобному для поиска сообщений. В общем слу­

231

чае он включает в

свой состав следующие эле­

менты:

признаки

массивов;

а)

б)

перечень

номеров

понятий, поставленный в соот­

ветствие объекту (объектам);

в)

перечни номеров понятий, поставленные в соответ­

ствие характеристикам;

 

г)

значения характеристик;

д)

коды отношений между объектами, характеристи­

ками и их значениями;

 

е)

операторы обработки информации;

ж)

признак формы выдачи информации.

Если требуется выдавать данные по всем характери­ стикам объектов или по всем объектам, имеющим задан­ ные характеристики, то соответствующие перечни номе­ ров понятий для характеристик или для объектов в за­ просе отсутствуют.

Поиск сообщений (блок 7) производится либо путем последовательного просмотра всего массива сведений либо массивов, имеющих заданные в запросе признаки. При этом сообщение считается релевантным (отвечаю­ щим на запрос), если код его объекта совпадает с одним из номеров понятий, поставленных в соответствие объек­ там запроса, а код его характеристики совпадает с од­ ним из номеров понятий, поставленных в соответствие характеристикам запроса. Кроме того, требуется совпа­ дение значений характеристик и кодов логических отно­ шений между объектами, характеристиками и их значе­ ниями.

Если в запросе указываются не все поисковые при­ знаки (например, нет наименования объекта или наиме­ нования характеристики или указан нулевой код логи­ ческого отношения), то сообщения ищутся только по за­ данным признакам.

В процессе поиска найденные сообщения распреде­ ляются по участкам оперативной памяти ЭВМ, число ко­ торых равно количеству характеристик в запросе. Далее выполняются действия, определяемые видом логической связи между характеристиками. Если связь между ха­ рактеристиками дизъюнктивная, то из соответствующих участков памяти в ответный массив отбираются все по­ парно-различные сообщения. Если связь между характе­ ристиками конъюнктивная, то в ответный массив отби­ раются только сообщения о таких объектах, коды кото­

232

рых одновременно представлены на всех участках памя­ ти. При смешанной связи между характеристиками сна­ чала выполняются операции, соответствующие дизъюнк­ тивным связям, затем операции, соответствующие конъ­ юнктивным связям. Найденные сообщения обрабатыва­ ются, декодируются и выдаются на печать (блоки 8, 9, 10 па рис. 13.1). При этом номера понятий заменяются их буквенными кодами, а адресные отсылки к значениям характеристик — буквенными кодами значений характе­ ристик. Коды логических отношений используются для выборки словесных связок, выражающих эти отношения. Словесные связки составлены по табл. 13.2, но имеют более простую структуру, чем приведенные в этой таб­ лице формулировки.

В процессе перевода запроса с русского языка на информационный могут быть обнаружены слова и слово­ сочетания, не включенные в словари. Такие слова и сло­ восочетания выдаются на печать с сопровождающими пояснениями «новое слово», «новый термин» и исключа­ ются из состава запроса. Далее поиск ведется по запро­ су с измененной формулировкой. В большей части слу­ чаев это дает возможность находить нужные сведения несмотря на наличие в запросе «новых» элементов. При отсутствии в машине информации по заданному запросу на печать выдается первоначальная формулировка за­ проса и ответ «сведения не найдены».

Основные информационные массивы обновляются по мере поступления в систему новых сведений и устарева­ ния ранее накопленных. При этом наиболее часто изме­ няются массив сообщений и массивы буквенных кодов значений характеристик. Остальные массивы более ста­ бильны.

^ Порядок работы информационно-поисковой системы при вводе в нее новых сведений представлен на рис. 13.2. Сообщения, записанные на бланках (см. табл. 13.1), переносятся на перфоленту и вводятся в машину. Далее они перекодируются в код АЦПУ (блок 1 на рис. 13.2), переводятся с русского языка на информационный (бло­ ки 2—5, 7) и записываются в конец массива сообщений, имеющего те же признаки, что и признаки, указанные в формуляре (блок 6). Предварительно проверяют, сов­ падают ли вновь поступившие сообщения с ранее накоп­ ленными. I

233

I

Буквенные коды значений характеристик размещают­ ся рядом с массивами сообщений, к которым они отно­ сятся, а массивы сообщений сгруппировываются по при­ знакам, их характеризующим (географический район, отрасль промышленности и т. п.). Для новых сообщений значения характеристик записываются в конце соответ­ ствующего массива их буквенных кодов (блок 7).

Перфорация сведений, указанных на бланках, произ­ водится построчно, и каждый элемент сообщений, за

Рис. 13.2. Порядок работы системы в режиме обновления информа­ ции (ввод новых сообщений).

исключением кода логической связи, сопровождается своим буквенным признаком (буквой О обозначается объект, буквой X — характеристика, буквой 3 — значение характеристики). Например, сообщения, приведенные в табл. 13.1, после перфорации будут иметь следующий вид; О — (бетонный завод), X — (рабочие и служащие),

234

3 — (135), 01, О — (—), X — (местоположение), 3 — (г. Бийск), 00.

В процессе перевода сообщений на информационный язык сначала пословно кодируют наименования понятий (блок 3 на рис. 13.2), затем полученные коды заменяют их номерами по словарю понятий (блок 4). В случае необходимости словарь основ слов и словарь понятий дополняются. При появлении новых понятий пополняет­ ся также массив буквенных кодов их наименований (блок 5). Новые буквенные коды наименований понятий записываются в конец этого массива.

Словарь основ слов состоит из двух частей — основ­ ного словаря и дополнительного. Основной словарь со­ ставляется до ввода системы в эксплуатацию и предна­ значен для «точного» морфологического анализа. Допол­ нительный словарь формируется в процессе эксплуата­ ции системы и пополняется за счет «новых» слов. При этом используется процедура приближенного морфоло­ гического анализа. Основы «новых» слов записываются в словарь в порядке их поступления, а в качестве номе­ ров смысловых эквивалентов используются их позицион­ ные номера. Поиск в дополнительном словаре произво­ дится цепным способом.

Словарь понятий хранится в памяти машины в виде нескольких массивов однородной структуры. При записи в этот словарь новых кодов понятий возникает необхо­ димость в предварительном перемещении его элементов. Новым наименованиям понятий присваиваются номера в порядке их поступления. Новые слова и новые наиме­ нования понятий выводятся на печать. Первые — для контроля работы программы приближенного морфологи­ ческого анализа, вторые — чтобы создать исходные дан­ ные для пополнения классификационного словаря.

Новые понятия включаются в систему смысловых связей классификационного словаря человеком по мере их накопления. При этом для каждого нового понятия составляются перечни номеров подчиняющих и подчи­ ненных понятий. На основе этих перечней по специаль­ ной программе дополняют машинный классификацион­ ный словарь (программа дополнения классификационно­ го словаря работает автономно и на рис. 13.2 не обозначена). Устаревшую информацию изымают путем ввода в ЭВМ специальных сообщений, предписывающих выполнение этой операции.

235

Описанная фактографическая поисковая система реа­ лизована на ЭВМ. Общий объем ее программ составляет около 20 000 команд*.

Автоматизированная документальная информационно­ поисковая система

Система предназначена для поиска рефератов доку­ ментов по тематическим запросам, сформулированным на русском языке. Запросы могут быть простыми и сложными. Простой запрос состоит из одного дескрипторного понятия, выраженного отдельным словом или именным словосочетанием. Сложный запрос состоит из нескольких наименований понятий, соединенных конъюнктивной или дизъюнктивной логической связью. В случае конъюнктивной связи наименования понятий отделяются друг от друга запятыми, а при дизъюнктив­ ной связи — сочинительным союзом «или». В сложных запросах могут одновременно использоваться оба вида логических связей.

Тексты рефератов хранятся на магнитной ленте и вы­ даются на печать вместе с первоначальной формулиров­ кой запроса и дополнительными пояснениями. Эти пояс­ нения служат средством обратной связи между машиной и человеком. В них м’ожет обращаться внимание на на­ личие в запросе «новых» элементов (слов, словосочета­ ний) или на излишнюю широту его формулировки (ко­ гда выдается слишком много сведений).

Новые слова и словосочетания обнаруживаются при анализе запроса и исключаются из его состава. Далее поиск ведется на основе измененной формулировки за­ проса. Обычно это дает возможность находить нужные сведения, несмотря на наличие в запросе новых эле­ ментов.

В процессе функционирования документальной по­ исковой системы наряду с текстами рефератов использу­ ются следующие основные информационные массивы:

словарь основ слов (СО);

словарь понятий (СП);

*Наряду с авторами главы в практической реализации системы

принималибаков и др. участие

Н . В. Алтухова, В . А . Чиркин, И . И . Быстров,

Н. Т. Губарь, В. Ф.

Денисов, 'В. И. Ермолкин, Е. И. Стогов, Б. П . Ры­

236

/•

классификационный словарь понятий (КСП);

поисковые образы рефератов (ПОР).

Первые три массива имеют структуру, аналогичную структуре соответствующих массивов в фактографиче­ ской информационно-поисковой системе. В поисковых образах рефератов перечисляются номера всех инфор­ мативных понятий, встречающихся в названиях докумен­ тов или в текстах их рефератов. При этом наименования понятий могут выражаться как отдельными словами, так и сочетаниями из двух, трех и т. д. слов. Наряду с по­ нятиями, отражающими содержание документов, в по­ исковые образы могут включаться также некоторые биб­ лиографические данные (например, сведения о стране, языке и времени издания документов).

Процессы поиска и обновления информации в доку­ ментальной системе сходны с соответствующими процес­ сами фактографической системы. Их различие опреде­ ляется в основном различием в структуре массивов со­ общений (массивов поисковых образов и текстов рефератов с одной стороны и массивов элементарных сообщений и значений характеристик — с другой).

На рис. 13.3 представлена укрупненная схема процес­ са поиска рефератов документов по запросам. Сначала (блок 1) с помощью словаря основ пословно кодируют запрос и определяют грамматическую информацию к каждому слову. Затем пословные коды дескрипторных понятий приводятся к виду, удобному для поиска в сло­ варе понятий, и осуществляется поиск' в этом словаре (блок 2). В результате поиска в словаре понятий каж­ дому понятию запроса ставится в соответствие перечень номеров понятий эквивалентных, подчиненных и ассоци­ ированных с ним по смыслу. При э£рм понятие В счи­ тается эквивалентным или подчиненным понятию А, если наименование первого понятия включает в себя все слова, выражающие содержание второго понятия, а главные слова сравниваемых понятий совпадают. По­ нятие В считается ассоциированным по смыслу с поня­ тием А, если наименование первого понятия включает в себя все слова, выражающие содержание второго поня­ тия, но главные слова не совпадают (например, понятие «применение ЭВМ для поиска информации» является ассоциированным по смыслу с понятием «поиск инфор­ мации»).

237

На следующем этапе обработки запроса (блок 3) для каждого из исходных понятий и понятий, найденных в процессе работы блока 2, с помощью классификацион­ ного словаря выбираются номера эквивалентных им по смыслу и подчиненных понятий. Результаты поиска по СП и КСП объединяются таким образом, что для каж­ дого понятия запроса формируется группа номеров экви­ валентных и подчиггенных ему понятий, а также группа

Р ис.

13.3. Схем а процесса

поиска рефератов

документов.

ассоциированных понятий

последнюю

входят также

понятия,

подчиненные и

эквивалентные

ассоциирован­

ным понятиям, найденным

в

результате

работы бло-

ка 2).

 

 

 

 

Работой блока«3 заканчивается формирование поис­ кового образа запроса. Далее (блок 4) ищут номера ре­ фератов, удовлетворяющих условиям запроса, и форми­ руют два эшелона выдачи результатов поиска — основ­ ной и дополнительный.

При конъюнктивной логической связи между поня­ тиями запроса в основной эшелон выдачи заносятся но­ мера таких рефератов, в поисковых образах которых содержится хотя бы по одному понятию из каждой группы, включающей понятие запроса и понятия, ему эквивалентные и подчиненные. Второй эшелон выдачи формируется аналогично первому, но при этом для по-

238

иска номеров рефератов привлекаются также понятия, ассоциированные с понятиями запроса, а из результа­ тов поиска исключаются номера рефератов, вошедшие в первый эшелон выдачи. При дизъюнктивной связи между понятиями запроса перечни соответствующих им эквивалентных, подчиненных и ассоциированных поня­ тий объединяются. Если в запросе одновременно исполь­

зуются конъюнктивные

и дизъюнктивные связи

между

понятиями,

то сначала

объединяются перечни

эквива­

лентных,

подчиненных

и ассоциированных

понятий

в дизъюнктивных группах, затем ищутся номера рефера­ тов по правилам, предусмотренным для запросов с конъ­ юнктивной связью между понятиями.

Запросы формулируются заказчиком в произвольном виде. Затем они подвергаются формализации, которая заключается в выделении из текста запроса информа­ тивных понятий и установлении между ними конъюнк­ тивной или дизъюнктивной логической связи. Чтобы уве­ личить полноту выдачи информации, в запрос можно

вносить также наименования

понятий, отсутствующие

в его первоначальном тексте.

Формализация запроса

обычно производится без обращения к словарю дескрип­ торов.

Для иллюстрации приведем примеры запросов до их форма­ лизации и после нее.

Запрос 1: применение методов статистических испытаний для отыскания оптимальных решений в задачах планирования.

Запрос 2: автоматическое регулирование.

Запрос 3: математическая теория информационно-поисковых си­ стем.

После формализации запросы записывались в следующем виде. Запрос 1: метод статистических испытаний или метод Монте-

Карло, оптимальные решения или оптимизация, планирование. Запрос 2: автоматическое реферирование.

Запрос 3: математическая теория, информационно-поисковые си­ стемы или информационные системы или поиск информации.

При необходимости в запрос вносятся уточнения, касающиеся страны, языка и времени издания документов.

Формализованный запрос побуквенно набивается на перфоленту в международном телеграфном коде. Далее весь процесс от ввода запроса в Э В М до выдачи ответа на запрос осуществляется авто­ матически.

Обновление информации в документальной поисковой системе связано с необходимостью ввода в нее сведений о новых документах (текстов рефератов и их поисковых образов). Тексты рефератов переносятся на перфоленту в международном телеграфном коде и вводятся в ЭВМ.

2 3 9

Соседние файлы в папке книги из ГПНТБ