Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Белоногов Г.Г. Автоматизированные информационные системы

.pdf
Скачиваний:
9
Добавлен:
25.10.2023
Размер:
14.28 Mб
Скачать

 

і

 

4.М .

Положить

E i =

E i+ h , перейти к п. 5.

М

и наложить

С

 

=

5.

Сформировать

по коду (Е.-ьЕУ) код свертки

 

 

 

 

 

Перейти

к п.

6.

 

 

6.Перенести (С,) в ячейку D . Перейти к п. 7.

7.Проверить для (D ) выполнение условия А = 0. Если условие

выполнено, перейти к п. 8,

если не

выполнено

— к от. 10.

буквенный

8. Записать

в ячейку С,- величину

A = R t

и

перенести

код словоформы

из ячеек

/д н - Е й в

 

ячейки

Еі-ьЕг + й -ь

Перейти

кп. 9.

9.Положить R i = R i + k. Перейти к п. 2.

10. Проверить коды (Ej-bEj,) и (A -^ -A + k — 1) на совпадение. При положительном результате прсіверки перейти к п. 2, при отри­

цательном— к п.

11.

D

)

выполнение

условия

В =

0.

Если

условие

11.

Проверить

для

(

 

выполнено, перейти к

п.

12,

если не выполнено — к

от. 14.

С,- — ве­

F i^ - F12.k

Записать вR iячейку+ R i + k -Si -;

величину

A = R it

а в

ячейку

личину

B = S i

и

перенестиS i

буквенный

код

словоформы из ячеек

13.

в ячейку

С і =

В ,

 

 

Перейти

к п. 13.

 

 

 

 

Увеличить

на единицу. Перейти к п. 9.

 

 

 

 

Составленный14. Положить

словарьперейти к(переченьп. 6.

буквенных

кодов

словоформ) выдается на печать. При необходимости он предварительно упорядочивается по алфавиту. Для этого используются известные методы сортировки информации [16], которые могут применяться также и для составления словарей, если после окончания процесса сортировки в результирующем массиве устранить дублирование оди­ наковых словоформ.

При составлении частотных словарей для каждого элемента словаря в памяти ЭВМ предусматривается от­ дельный счетчик, в котором фиксируются случаи появ­ ления этого элемента в тексте.

Составление словарей словоформ и словарей основ слов на ЭВМ с ограниченной емкостью оперативной памяти

Если объем словаря превосходит емкость оператив­ ной памяти машины, то при его составлении приходится прибегать к специальным приемам. Существо этих прие­ мов заключается в том, что в памяти машины в оконча­ тельном виде формируется не весь словарь, а лишь от­ дельные его участки, которые по мере готовности выда­ ются на печать. Рассмотрим три таких приема: 1) состав­ ление словаря по участкам; 2) двухступенчатое состав­ ление словаря; 3) составление словаря способом «пере­ полнения».

20«

Идея составления словаря по участкам заключается

вследующем. По объему исходного -текста приближенно определяется объем будущего словаря. Далее по неко­ торым признакам (например, по длине словоформ или основ слов или по их начальной букве) словарь разби­ вается на такие участки, которые заведомо вписываются

вобъем оперативной памяти машины. Текст записывает­ ся на магнитную ленту и просматривается несколько раз. При каждом его просмотре формируется только один участок словаря и отбираются только те элементы, кото­

рые удовлетворяют заданным условиям (например, име­ ют заданную длину или начинаются с определенной бук­ вы алфавита). Процедура формирования участка слова­ ря аналогична процедуре составления всего словаря в оперативной памяти большого объема.

Способ двухступенчатого составления словаря заклю­ чается в том, что сначала по исходному тексту формиру­ ется серия частных словарей, которые затем объединя­ ются в один общий словарь. Объем частных словарей ограничивается емкостью оперативной памяти, а общий словарь составляется по участкам. При формировании каждого участка словаря из всех частных словарей от­ бираются только такие элементы, которые удовлетворя­ ют определенным для этого участка условиям. В про­ цессе двухступенчатого составления словаря исходный текст просматривается только один раз на первом этапе этого процесса, а на втором этапе в качестве исходных данных используются частные словари, суммарный объ­ ем которых значительно меньше объема исходного тек­ ста.

При составлении словаря способом «переполнения» исходный текст также просматривается только 'один раз. Словарь формируется в виде непрерывного массива, ко­ торый по мере появления новых элементов увеличивается в объеме и постепенно заполняет все отведенное для не­ го поле оперативной памяти. В дальнейшем часть эле­ ментов словаря постоянно вытесняется за границы этого поля и переписывается на магнитную ленту, так что объем словаря сохраняется постоянным. По окончании просмотра текста содержимое оперативной памяти выда­ ется на печать в качестве первого участка словаря, а на магнитной ленте оказывается массив элементов словаря, не вошедших в этот участок. Каждый последующий уча­ сток словаря формируется аналогично первому, но при

201 *

этом в качестве исходных данных используется не текст, а массив элементов, вытесненный из оперативной памяти в процессе формирования предыдущего участка.

Составление словарей наименований понятий на ЭВМ

Задача ставится следующим образом. Даны перечни наименований понятий (именных словосочетаний) в раз­ личной форме с повторениями одних и тех же элементов. Требуется отобрать из этих перечней разные по смыслу наименования понятий и представить их в форме, приня­ той для записи машинного словаря. Для решения этой задачи необходим машинный словарь основ слов, вклю­ чающий все основы, которые могут встретиться в имен­ ных словосочетаниях. Такой словарь составляется зара­ нее по описанной выше методике или формируется в процессе составления словаря именных словосочета­ ний.

Составление словаря наименований понятий начина­ ется с пословного кодирования исходного списка имен­ ных словосочетаний. Затем производится синтаксический анализ, в результате которого каждое наименование по­ нятия представляется в виде сочетания номеров основ и сопровождается номером грамматической структуры. При этом в сочетании номеров основ на первом месте ставится номер главного слова наименования понятия, а в структурной формуле главному слову и определяю­ щим его прилагательным назначается информация «име­ нительный падеж единственного числа». Заключитель­ ным этапом составления словаря является сортировка кодов наименований понятий с исключением повторений одинаковых элементов.

Принципы упорядочения кодов понятий могут быть разными и определяются конкретными условиями при­ менения словаря. Удобно располагать коды понятий в по­ рядке возрастания числа номеров слов, входящих в их состав, а в пределах группы кодов с одинаковым коли­ чеством слов — в порядке возрастания численных значе­ ний этих кодов. Дублирующие элементы исключаются из словаря путем проверки кодов понятий на совпадение и применения трансформаций, связанных с перестановка­ ми слов (перестановка прилагательных, определяющих одно и то же существительное, перестановка слов и групп слов, соединенных союзом «и» и т. п. ,[25]). Возможность

2 0 2

применения подобных трансформаций определяется по структурной формуле наименования понятия.

Как уже было указано в гл. 9, наряду с перестанов­ ками слов в русских именных словосочетаниях возможны также трансформации с изменением основ слов. Такие трансформации могут служить дополнительным средст­ вом для исключения из словаря дублирующих элементов. Но здесь необходимо участие человека, так как возмож­ ность применения этих трансформаций к словосочетани­ ям не может быть автоматически выявлена по их грам­ матической структуре.

Участие человека можно исключить, если применять приближенные методы кодирования наименований поня­ тий, рассмотренные в гл. 9. Эти методы редко приводят к ложному отождествлению разных по смыслу понятий и они весьма просты в реализации. Резко упрощается н процедура автоматического составления словарей на­ именований понятий. Например, можно составлять сло­ варь следующим образом. После пословного кодирования словосочетаний в их кодах на первое место ставится но­ мер главного слова, а все другие номера слов упорядочи­ ваются по возрастанию их величины. Далее полученные коды сортируются с исключением повторений одинако­ вых элементов. При таком подходе автоматически учиты­

ваются трансформации

с перестановками слов,

а если

в процессе пословного

кодирования заменить

номера

основ слов на номера их смысловых эквивалентов, то будут учтены и трансформации с изменением основ слов.

Описанные процедуры автоматического составления словаря наименований понятий основаны на серийной обработке всего исходного списка словосочетаний. Они неудобны для пополнения словарей и для внесения в них изменений. Более удобными в этом отношении являются ассоциативно-адресные- методы, и в частности узловой способ, описанный в гл. 5 и 6. Этот способ позволяет составлять словарь наименований понятий «с нуля» и вносить в него любые изменения.

Требования, предъявляемые к словарю наименований понятий в процессе кодирования и декодирования ин­ формации, противоречивы. В процессе кодирования ре­ шается задача распознавания терминов-,' и здесь требу­ ется приводить трансформационные варианты словосо­ четаний к канонической форме. При этом может теряться информация о порядке следования Ң 9 формах слов

§ 0 3

висходном словосочетании. С другой стороны, для деко­ дирования словосочетаний нужны точные сведения о по­ рядке следования и о формах слов, входящих в их со­ став. Учет указанных требований в одном словаре при­ водит к усложнению процесса декодирования. Поэтому

вряде случаев целесообразно иметь в АИС два словаря наименований понятий: один — для кодирования инфор­ мации, другой — для ее декодирования. Коды номеров понятий в обоих словарях должны быть одинаковыми.

Всловаре наименований понятий, предназначенном для декодирования информации, в словосочетаниях со­ храняется естественный порядок слов. Слова здесь могут быть представлены номерами их основ, номерами слово­ форм или буквенными кодами словоформ. В первом и

втором случае наряду со словарем словосочетаний необ­ ходимо иметь словарь слов (словарь основ слов или сло­ варь словоформ соответственно). Словарь наименований понятий для декодирования информации составляется одновременно со словарем для ее кодирования. Он по­ полняется по мере появления новых терминов. Распозна­ вание новых терминов производится с помощью словаря для кодирования информации, а в словарь для декоди­ рования заносится по одному трансформационному ва­ рианту - каждого термина. При составлении словарей наименований понятий на ЭВМ с ограниченной емкостью оперативной памяти могут использоваться методы, рас­ смотренные ранее.

Г л а в а 12 ПРЕДСТАВЛЕНИЕ ФОРМАЛИЗОВАННЫХ СООБЩЕНИЙ В МАШИНАХ

Общие замечания

В гл. 4 было указано, что в информационных систе­ мах основными единицами смысла являются высказыва­

ния (сообщения)

типа

х2, ..

хп).

 

Коды ПОНЯТИЙ Х і ,

F(x 1 ,

(12.1)

х2, ...,

хп в

сообщениях

соотносятся

с некоторыми конкретными или абстрактными объектами (предметами, явлениями, свойствами предметов и явле­ ний и т. п.), а коды понятий F выражают отношения между объектами. Таким образом, отношения между

204

объектами в высказываниях отображаются как отноше­ ния между понятиями. Обычно отношения между поня­ тиями в высказываниях зависят от конкретной ситуации. Но бывают и такие отношения, которые от ситуации не зависят или зависят от нее в слабой степени. Отношения первого типа мы будем называть с и т у а ц и о н н ы м и или с и н т а г м а т и ч е с к и м и , а отношения второго ти­ па — б а з и с н ы м и или п а р а д и г м а т и ч е с к и м и .

Примером парадигматических отношений между по­ нятиями являются родо-видовые отношения между ними. Парадигматические отношения обычно фиксируются в специальных массивах сообщений, оформляемых в ви­ де тезаурусов, классификационных словарей, классифи­ кационных схем и т. п. Способы представления в памяти ЭВМ сообщений, выражающих парадигматические отно­ шения между понятиями, были описаны в гл. 10. В на­ стоящей главе мы рассмотрим способы представления сообщений, выражающих синтагматические отношения.

Для записи сведений- в памяти ЭВМ имеются две крайние возможности: позиционное и комбинаторное ко­ дирование сообщений. При позиционном кодировании каждому элементу множества возможных сообщений ставится во взаимно-однозначное соответствие один раз­ ряд памяти машины. Наличие сообщения в ИПС отмеча­ ется в соответствующем разряде символом 1, а его отсут­ ствие— символом 0. В результате получается матрица или логическая шкала, состоящая из единиц и нулей. При комбинаторном кодировании разные сообщения обо­ значаются различными комбинациями символов 0 и -1, место записи кодов сообщений не играет роли. На прак­ тике чаще всего одновременно используются оба способа, причем часть признаков и элементов сообщений кодиру­ ется позиционно, выбором места записи, другая их часть — путем использования различных кодовых комби-^ наций. В процессе обработки информации многократно совершаются переходы от позиционных кодов к комби­ наторным и наоборот. При этом кодовые комбинации интерпретируются как адреса участков памяти, а поряд­ ковые номера мест записи сообщений или элементов со­ общений— как их обозначающие кодовые комбинации.

Сообщения, как и входящие в их состав понятия, мо­ гут быть объектами классификации. В качестве класси­ фикационных признаков используются свойства сообще­ ний в целом (например, их принадлежность к определен-

205

ной тематической области) или свойства их составных элементов. Классификацию сообщений целесообразно учитывать при размещении информации в памяти маши­ ны. Это позволяет выразить некоторые признаки сооб­ щений позиционно и ускорить процесс поиска.

Сообщения могут представляться в памяти ЭВМ в ви­ де последовательностей кодов понятий, входящих в их состав (кодов F, х\, х2, ..., хп)- В пределах одного сооб­ щения за каждым кодом понятия закрепляется опреде­ ленная позиция, обозначающая его функциональную роль. Сообщения могут располагаться в произвольном порядке или упорядочиваться по какому-либо признаку (например, по численным значениям кодов). Обычно

водной ячейке памяти целесообразно записывать не бо­ лее одного сообщения. Длинные сообщения размещаются

вгруппах ячеек памяти. Если сообщения имеют разную длину, то на границах между ними проставляются разде­ лительные знаки. Коды разделительных знаков должны отличаться от кодов понятий. Для записи разделитель­ ных знаков могут также выделяться заранее обусловлен­ ные участки ячеек памяти (например, один разряд или группа разрядов в каждой ячейке). Удобно в начале каждого сообщения на строго фиксированной позиции

указывать его длину в ячейках.

Коды понятий F, Х \ , Хъ ■ ■ ■ , % п могут представлять со­ бой порядковые номера их наименований по одному об­ щему словарю. Но возможно и такое представление со­ общений, когда для наименований понятий, выступаю­ щих в различной функциональной роли, составляются разные словари. Это дает возможность сократить длину кодов понятий. Коды понятий, записываемые на разных позициях, могут иметь различную длину, если ввести для сообщений жесткий формат. При этом в одном массиве сообщений могут одновременно использоваться несколь­ ко форматов.

На практике в информационных системах часто име­ ет место взаимно-однозначное соответствие между фор­ матами сообщений и кодами отношений между понятия­ ми в сообщениях. В подобных случаях порядковые номе­ ра форматов сообщений могут интерпретироваться как коды отношений. Если в некотором массиве используется только один тип формата сообщений, то нет необходимо­ сти в явном виде указывать код отношения. Он будет представлен позиционно — участком памяти, отведенным

для записи массива сообщений. Диалогичным образок, (позиционно) могут быть представлены и некоторые дру­ гие элементы сообщений; если они оказываются одинако­ выми для всего массива или для некоторого участка мас­ сива.

Сообщения можно представлять в памяти ЭВМ и в виде логических шкал. При этом поле памяти, отведен­ ное для записи одного сообщения, разбивается на участ­ ки (группы двоичных разрядов) по числу функциональ­ ных элементов в сообщении. В пределах участка за каж­ дым. возможным значением функционального элемента закрепляется один двоичный разряд. Наличие в конкрет­ ном сообщении того или иного значения функционально­ го элемента отмечается символом «1», а отсутствие — символом «О». Сообщения подобной структуры исполь­ зуются в системах автоматического перевода текстов с одного естественного языка на другой для записи грам­ матической информации к словам, а также в докумен­ тальных поисковых системах.

В рассмотренных способах представления информа­ ции связи между элементами сообщений и их функцио­ нальная роль выражались в основном : позиционными средствами. Связь между элементами отображалась путем их контактного расположения, а функциональная роль элементов — путем фиксации порядка их следова­ ния. В массивах, содержащих сообщения разной длины, для отображения связей между элементами наряду с по­ зиционными средствами использовались и разделитель­ ные знаки.

Связи между элементами сообщений и функциональ­ ная роль элементов могут выражаться и комбинаторны­ ми средствами. В этом случае необходимо сопровождать отдельные элементы или группы элементов сообщений специальными кодовыми комбинациями — у к а з а т е л я ­ ми с в я з и и у к а з а т е л я м и роли . Введение указа­ телей связи и указателей роли дает возможность снять жесткие ограничения на порядок следования элементов в сообщениях, но приводит к увеличению общей длины массива кодов сообщений.

Поиск в неупорядоченных массивах сообщений свя­ зан с большими затратами времени. Упорядочение сооб­ щений (например, расположение их по возрастанию чис­ ленных значений кодов) сокращает время поиска, но усложняет процессы обновления информации в связи

207

с необходимостью перемещения массивов при включении новых элементов или изъятии устаревших. Усложняется также задача резервирования памяти. Указанные труд­ ности сравнительно легко преодолеть, используя ассо­ циативные методы представления и поиска информации. Здесь благодаря введению ассоциативных групп для сво­ бодных ячеек отпадает необходимость в частой раздвиж­ ке или уплотнении массивов при включении новых эле­ ментов или изъятии устаревших, а резерв свободных яче­ ек оказывается распределенным по всему полю памяти, выделенному для записи массива.

Для представления в памяти ЭВМ сообщений, ото­ бражающих синтагматические отношения между поня­ тиями, целесообразно применять узловой ассоциативно­ адресный способ (см. гл. 5). По этому способу сообще­ ния, содержащие одинаковые коды понятий, объединя­ ются адресными отсылками в ассоциативные группы. Каждое сообщение одновременно входит в несколько

ассоциативных групп (по числу кодов понятий в нем),

а группы адресных отсылок,

представляющие элементы

одного сообщения, образуют

ассоциативные узлы. При­

мерная структура

массива сообщений, построенного

с применением

узлового ассоциативно-адресного спосо­

ба, показана в

гл. 5

(рис. 5.2).

Представление сообщений в памяти ЭВМ в виде узлов адресных отсылок достаточно экономно. Но в процессе поиска здесь приходится прослеживать одновременно несколько ассоциативных цепочек (по числу поисковых признаков в запросе). Этого можно избежать, если ря­ дом с каждым узлом записывать последовательность ко­ дов понятий, образующих сообщение. Тогда при поиске можно прослеживать только одну ассоциативную це­ почку, соответствующую одному из признаков запроса, а другие признаки запроса сравнивать с признаками (кодами понятий) сообщений.

Далее мы рассмотрим на примере документальной и фактографической сиетем способы представления в ма­ шинах сообщений более частного вида.

Представление информации в документальных системах дескрипторного типа

Первые экспериментальные системы поиска докумен­ тов с помощью ЭВМ были построены в начале 50-х го­ дов. В них использовались два способа записи сведений:

208

по первому способу для каждого документа указывался перечень номеров предметных рубрик, характеризующих его содержание; по второму — каждой предметной руб­ рике ставился в соответствие перечень номеров докумен­ тов, включенных в эту рубрику.

Оба способа в логическом отношении равноценны, и их можно рассматривать как два вида линейной разверт­ ки матрицы, приведенной в табл. 12.1. Здесь номерам

Т а б л и ц а 12.1

документов (аь «2 , • » ат) соответствуют строки матри­ цы, а номерам предметных рубрик (Ьь Ь2, ..., Ьп) — ее столбцы. На пересечении строк и столбцов записывается символ 1, если документ и предметная рубрика совме­ стимы, и символ 0, если документ и предметная рубрика несовместимы. Таким образом, логическая матрица, изо­ браженная в табл. 12.1, эквивалентна некоторой совокуп­ ности элементарных сообщений, отражающих распреде­ ление документов по предметным рубрикам. Элементар­ ное сообщение включает в себя номер документа и номер предметной рубрики, к которой этот документ относит­ ся. В каждом элементарном сообщении содержится ут­ верждение о принадлежности документа к определенной предметной рубрике. Системы, основанные на подобном

представлении сведений, получили название

«сист ем

к о о р д и н а т н о г о

и н д е к с и р о в а н и я

или де-

скрипторных систем.

 

 

14— 310

209

Соседние файлы в папке книги из ГПНТБ