Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Крулькевич, М. И. Основы систем производственно-экономической информации учеб. пособие

.pdf
Скачиваний:
7
Добавлен:
19.10.2023
Размер:
6.82 Mб
Скачать

чает его от других методов, так как сжатие информации можно проводить без длительной работы по набору статис­ тического материала.

Применение сжатия информации с использованием дан­ ного метода целесообразно для интенсификации процессов передачи информации и для повышения эффективности ис­ пользования емкости запоминающих устройств ЭВМ.

Основополагающим для формирования идеи сжатия ин­ формации без использования ее статистических свойств явился алгоритмический подход к понятию «количество ин­ формации», высказанный А. Н. Колмогоровым.

Задача сжатия информации математически формулиру­

ется таким образом.

 

 

Для исходного

массива информации

Н = { 1, 2, ..., t}

найти такое преобразование F, которое переводит этот мас­

сив в новый массив

Н' —• меньшей длины

и с сохранением

содержательности исходной информации, то есть при суще­ ствовании обратного преобразования F ^ 1

H = F - 1(H').

На практике мощность множества исходных массивов обычно представляется довольно 'значительной. Учитывая это, можно присваивать каждому исходному массиву номер не посредством перечисления всех массивов, что невозможно, а посредством вырабатывания этого номера с помощью спе­ циального алгоритма. Прежде чем рассмотреть алгоритм ну­ мерации массива, введем необходимые определения.

Конкретный набор г элементов, взятых из множества Н, • называют кортежем над множеством, а конкретный неупо­

рядоченный набор

S

элементов,

взятых

из множества

Н '={1,

2, . . . .

к},

— квазикортежем

над

множеством Н'.

Любой кортеж

а *=<>!,

а2..... аг >

и квазикортеж • р —(Ь,,

Ь„

Ь6) состоит

из компонентов

aj

(Ь,- ). Каждый компо­

нент может быть любым

элементом

i6H (i6FF). То количе­

ство мест, которое занимает в комбинаторной совокупности данный элемент, называют кратностью щ элемента i. Коли­ чество компонентов в комбинаторной совокупности называ­ ют длиной совокупности.

Для формального подсчета общего количества комбина­ торных совокупностей данного вида с данными парамет­

100

рами могут быть использованы алгоритмы, основывающиеся на понятиях «сочетание» и «перестановки». В указанные по­ нятия при этом вкладывается смысл обозначения процесса, а не конкретного набора элементов.

Порядок вычисления номеракортежа следующий.

Вначале путем анализа, исходного массива — кортежа аь представляющего собой фактически подмассив какого-то значительных размеров массива, устанавливаем наименьшие по числовой величине элементы кортежа и их количество. После этого рассчитываем Qi — число сочетаний из общего количества элементов кортежа !а по количеству наименьших элементов и расчетный коэффициент Ь, равный сумме соче­ таний порядковых мест наименьших элементов по порядко­ вым номерам данной совокупности. Значения Qi и Ь направ­ ляются в блок вычисления номера кортежей. Заканчивается процесс анализа стягиванием исходного кортежа, то есть ис­ ключением из совокупности его элементов тех, которые яви­ лись наименьшими.

В результате получаем новый кортеж аь который ана­ лизируется аналогичным образом.

Расчеты значений Q и 1 прекращаются, когда после оче­ редного стягивания кортежа число разновидностей элемен­ тов в нем окажется меньше двух. После этого в блок номера кортежа подается команда для вычисления номера кортежа.

Рассмотрим числовой пример.

Пусть имеется числовой массив <6, 7, 8, 4, 3, 3, 2, 8, 6, 6, 5> , представляющий собой кортеж а длиной соответствен­ но 1а =11 над множеством Н = { 1, 2, ..., 11]. Требуется пре­ образовать указанную информацию к виду, удобному для хранения в памяти ЭВМ и для передачи другим потребите­ лям.

 

Используя

расчетный

алгоритм,

вычисления

начинаем

с определения

наименьшего элемента

исходного

кортежа

«2»,

который встречается

всего

один

раз;

следовательно,

г к =

1, его порядковый номер равен ni=7,

так как

он стоит

на 7-м месте

 

 

 

 

 

 

 

 

Qi == GJj =

11,

l j - C J - 6 .

 

101

ИПС имеется возможность осуществить непрерывный конт­ роль за реализацией продукции предприятия, движением материальных ресурсов, денежных средств и т. д.

Основными элементами ИПС являются:

а) информационные работники, обслуживающие, систе­ му, или операторы системы;

б) потребители системы; в) предметные указатели;.

г) предметное индексирование; д) контролируемый словарь; е) поисковый массив;

ж) поисковые указатели и механизм поиска.

В круг обязанностей информационных работников вхо­ дит описание документов (индексирование), поступающих в систему, поддержание и обслуживание систематизированного массива описаний документов (указателя) и поиск в этом массиве.

Потребители системы — это люди, направляющие в си­ стему запросы. Иногда операторы могут выступать в роли потребителей, а последние — в роли операторов, если они производят поиск без посредничества информационного ра­ ботника.

Предметный указатель характеризует ИПС прежде все­ го как систему, способную отыскивать документы в ответ на запросы по определенному «предмету».

Предметное индексирование представляет собой метод списания документов для предметного указателя. Его можно рассматривать как операцию, состоящую из двух этапов:

а) анализа предметного содержания документа, то есть определения, о чем идет речь в документе;

б) перевода понятий на язык индексирования. Контролируемый словарь представляет собой норматив­

ный список принятых терминов индексирования,

из которых

в процессе индексирования выбираются нужные

термины.

В списке имеются кроме того некоторые необщепринятые термины, отсылающие к соответствующим узаконенным тер­ минам.

Для облегчения поиска групп сходных документов тер­ мины, близкие между собой по смыслу, объединяются в группы.

106

В процессе индексации документов в соответствии с их предметным содержанием с помощью контролируемого сло­ варя терминов создаются поисковые образы, или краткое описание источников фонда.

Поисковый массив представляет собой упорядоченное описание документов так, чтобы их можно было легко отыс­ кивать.-* В основу характеристики поискового массива поло­ жены два признака:

а ). физический носитель, на котором реализован массив (книга, каталог, суперпозиционные карты, перфокарты, кар­ ты с щелевой или краевой информацией, магнитная лента, кинопленка и т. д.);

е) метод

организации массива, или способ упорядоче­

ния описаний

(произвольный, алфавитный, систематизиро­

ванный и т. д.).

Обработка запроса в ИПС принципиально не отличает­ ся от обработки поступающих в нее документов. Вначале он анализируется по своему предметному содержанию, описы­ вается в терминах, отобранных из контролируемого слова­ ря. Далее по запросу, выраженному на контролируемом языке, производится поиск в предметном указателе. Доку­ мент считается найденным, если между формализованным кратким его описанием или поисковым образом и запросом, представляющим собой поисковое предписание, имеется пол­ ное или частичное совпадение.

Общий вид структурной схемы функционирования ин­ формационно-поисковой системы представлен на рис. 5. Как видно из схемы, информационный поиск охватывает все опе­ рации, выполняемые при хранении и поиске, начиная от ин­ дексирования документа для ввода его в систему и до того момента, когда документ найден и выдан потребителю в со­ ответствии с его запросом.

Наиболее сложной проблемой индексирования в любой системе является определение числа терминов, которые долж­ ны приписываться документу. В одних случаях количество терминов свидетельствует о том, что Индексирование в дан­ ный момент недостаточно полно в отношении большинства поступающих запросов, а в других — это даже трудно заме­ тить.

107

Предметное индексирование по своему характеру пред­ ставляет собой частный случай классификации. Объединяя на основе предметного содержания документы, тем самым каким-то образом обозначаем классы родственных докумен­ тов. Установив наименования всем классам документов, по­ лучим полный перечень терминов индексирования. После этого можно составить в определенной последовательности список'терминов индексирования, и в результате будем иметь контролируемый словарь. Далее процесс предметного индек­ сирования превращается в отнесение документов к заранее, установленным классам или обозначение его одним (и бо­ лее) термином индексирования (наименованием классов).

Для того, чтобы контролируемый словарь мог непрерыв­ но выполнять свои функции без потери эффективности, он должен постоянно пополняться и обновляться с учетом до­ кументов, появляющихся в данной предметной отрасли и по­ ступающих в фонд запросов ИПС.

Формальные отношения классов и возможные операции над ними определяются в общем алгеброй структур или од­ ной из ее частных форм — булевой алгеброй.

Рассмотрим математическую сторону проблемы разде­ ления на классы подробнее.

Пусть имеется массив документов М, некоторым из ко­ торых после просмотра присвоен термин индексирования х, а остальным — у. Тогда будем иметь соответственно два клас­ са документов.

Один — это класс документов, которые принадлежат или к х-или к у, или одновременно к х и у. Такой класс обо­ значается через ХиУ и называется логической суммой (дизъ­ юнкцией).

Использование такого вида суммы двух или более клас­ сов позволяет успешно запрашивать документы, заиндексированные термином х или у.

Второй класс документов имеет место, когда документы принадлежат одновременно и к х и к у. Такой.класс обозна­

чается ХПУ. Этот кл'йсс называют пересечением или логи­ ческим произведением классов. Использование пересечения классов позволяет запрашивать документы, принадлежащие более чем к одному простому классу.

108

В терминах суммы и произведения классов свойства до­ полнения записываются следующим образом:

 

ХиУ =1,

ХПУ = 0.

 

Кроме указанных соотношений классов,

известно еще

так называемое

отношение

включения. Оно имеет место,

когда все члены

одного класса являются

также членами

другого класса. Структурная запись его имеет вид: *

 

XUXj = X,

ХПХ, — X,

 

Она означает — объединенное множество есть множе­ ство большего класса; их совместное множество есть множе­ ство меньшего класса. Например, класс «Подшипники каче­ ния» включается в более общий класс — «Подшипники».

Все возможные отношения между заранее определенны­ ми классами могут быть выражены в терминах суммы клас­ сов, их пересечения и дополнения.

Основное отношение классов в иерархической класси­ фикации — отношение включения.. Например, классы «Сое­ динение», «Сварка», «Дуговая сварка», «Сварка в защитном слое» представляют собой иерархическую цепь, ведущую вниз от родового термина «Соединение» к видовому — «Сварка в защитном слое».

Класс «Дуговая сварка» целиком включен в класс «Сварка», который в свою очередь включен в класс «Соеди­ нение».

Любые два класса в иерархической классификации либо дизъюнктивны, либо один класс включает другой. Построен­ ная на таком принципе классификация состоит из серии це­ почек, ведущих от самого широкого, родового термина к са­ мому узкому — специфическому. Новые цепи в ней могут быть порождены на любом уровне, в результате чего возни­ кают ветвления, которые совместно с цепями образуют «де­ рево».

Характерной

особенностью

«дерева»

является

отсут­

ствие замкнутых

цепей или

циклов. Обычно в нем

либо

нет ни одного пути, соединяющего два класса

(узла),

либо

есть только один такой путь — класс включает класс.

 

Указатель, основанный на

иерархической

классифика­

ции,, весьма удобен для учета отношения

включения классов

109

при поиске. Например, легко можно следовать по иерархи­ ческой структуре при поиске всех видов родовых понятий или же можно начать поиск со специфических классов и от них двигаться вверх по иерархическому «дереву», чтобы до­ полнительно выявить документы из более широкого класса.

При построении «дерева» необходимо проводить упоря­ дочение расположения классов таким образом, чтобы при поиске использовать булеву операцию альтернации, в соот­ ветствии с которой естественно предположить, что альтерна­ тивные классы (взаимозамещаемые) должны располагаться в тесном физическом соседстве друг с другом в классифи­ кационных таблицах или будут связаны посредством отсы­ лок в списке предметных рубрик, по которым осуществля­ ется поиск.

Недостатком приведенной классификации является то, что в ней нет возможности перечислить и определить более сложные и специфические многомерные пересечения классов, так как это приводит к чрезмерному возрастанию объема указателя. Чтобы избежать указанного явления, потребуется введение сложных правил пользования указателем. Поэтому рассмотренный метод индексирования не во всех случаях удовлетворяет потребности специалистов.

В настоящее время созданы многомерные системы, спо­ собные обеспечить доступ к любому предмету с любой воз­ можной точки зрения. В этом значительную роль сыграли вычислительная техника для обработки данных и такие тех­ нические средства, как карты Баттена, карты с краевой пер­ форацией, карты унитермов.

На смену традиционным методам пришли поисковые си­ стемы экономически рентабельного многоаспектного поиска документов с многоаспектным содержанием.

§ 2. Организация поиска

Поисковый массив по существу обеспечивает механизм, посредством которого можно сравнивать описание докумен­ тов с описаниями запросов.

Отношение между документами и терминами индексиро­ вания удобно представляется в форме матрицы. Общий вид такой матрицы представлен на рис. 6.

110

На рисунке буквы представляют словарь терминов ин­ дексирования, а цифры — документы, заиндексированные в поисковой системе.

Для ввода документа в систему необходимо на основе его предметного содержания, сопоставив с классами, обозна­ чить документ соответствующими терминами индексирова­ ния. Отметкой X на матрице указывается принадлежность документа к соответствующим классам. Например, доку­ мент 1 отнесен к классам Г, Ж и И, документ 2 — к клас­ сам А и В и т. д. Обратно, можно заметить, что термин А присвоен документам 2, 6, 8 и 10 и что класс А включает документы 2, 6, 8 и 10.

Таким образом, вертикальные столбы представляют со­ бой поисковые образы документов, а горизонтальные ряды— описания классов. Построение самого указателя, как нетруд­ но заметить, может быть организовано двумя путями. Либо он должен перечислять все непустые классы (классы с от­ меткой X), указывая для каждого из них принадлежащие им документы, либо он должен перечислять все документы фонда, указывая для каждого из них классы, к которым со­ ответствующий документ был отнесен.

Указатели, организованные с использованием первого пути, называют указателями типа источник-термин, а с ис­ пользованием второго — типа термин-источник. Последний

тип часто называют

инвертированным указателем, а пер­

вый — прямым или подокументным.

Предметный запрос,

переведенный на. язык системы для

выполнения поиска в указателе, называют поисковым пред­ писанием. Например, поисковое предписание «а» представ­ ляет собой простой двухаспектный запрос для поиска доку­ ментов, которые принадлежат к классу Г и одновременно к

классу И* Процесс поиска заключается

в

сопоставлении

поискового предписания с матрицей,

термин-документ для

выявления терминов, поисковые образы

которых соответству­

ют поисковому предписанию. По рисунку

легко установить,

что на основании предписания «а» в данном

случае будет

найден только один документ 1, который отнесен одновре­ менно к классам Г и И. Осуществляя поиск, нетрудно заме­ тить, что поисковое предписание содержит только требова­ ние принадлежности документов одновременно классам Г и

111

И, но не ограничивает возможность их вхождения в другие классы. Так, документ 1 входит кроме того в класс Ж-

Способ поиска в указателе Tiiifa источник-термин суще­ ственно отличен от поиска в указателе термин-источник. Для этого рассмотрим предписание «б». При проведении поиска в системе термин-источник необходимо последовательно про­ смотреть все столбцы матрицы (поисковые образы докумен­ тов) и выявить те столбы (документы), у которых множество присвоенных им,терминов включает множество терминов, со­ держащихся в поисковом предписании. Из всех документов в данном случае только поисковый образ документа 9 вклю­ чает все термины поискового предписания «б». Проведя тот же поиск в указателе типа источник-термин, необходимо про­ сматривать матрицу строка за строкой, а не столбец , за столбцом. При этом поочередно анализируется содержание каждого из рядов, соответствующих терминам или классам, представленным в запросе.

С целью экономии времени на поиск просмотр удобно начинать с наименее заполненных' строк.

Просмотрев, например, вначале класс Б, можно устано­ вить, что он содержит три документа — 4, 7 и 9. Зафикси­

ровав эту информацию, переходим

к

следующему классу,

в данном случае Д, который менее

заполнен,

чем Г. Все

ячейки этой строки просматривать

не

нужно,

обращаемся

только к ячейкам Д4. Д7 и Д9. Ячейки Д4 и Д7 пусты, из чего можно заключить, что ни документ 4, ни документ 7 не соответствуют поисковому предписанию. Когда осуществляем переход к последней строке Г, нас интересует только ячейка ГД, так как соответствие документов поисковому предписа­ нию определяется содержанием этой оставшейся ячейки. Б данном случае она заполнена. Следовательно, документ 9 является единственным источником в фонде, который соот­ ветствует поисковому предписанию.

Пример показывает, что для выполнения поиска в- ука­ зателе термин-источник необходимо просматривать поиско­ вые образы всех документов (все столбцы матрицы), отве­ чающие условиям запроса. В отдельных случаях, когда не­ обходима только какая-то часть источников, соответствую­ щих запросу, поиск можно прекратить в любой момент. В то же время, если производить поиск по указателю источник-

112

термин, следовало бы просматривать все ряды матрицы, не­ зависимо от того, какую часть источников необходимо найти.

Для механизации поиска имеются три принципиально отличных механизированных поисковых системы:

1)системы, использующие оборудование для обработки данных на перфокартах;

2)системы, использующие ЭВМ;

3)системы, использующие микрофильмы.

Поисковые системы на перфокартах могут быть либо системами источник-термин, либо системами термин-источ­ ник.

В последних системах отдельная карта является поиско­ вым описанием документа, а термины индексирования, при­ своенные документам, кодируются на карте. Роль ^ сортиро­ вальной машины заключается в последовательной сорти­ ровке всего массива перфокарт и отделении карт, соответ­ ствующих поисковому предписанию.

В системе источник-термин каждый класс документов образует свой подмассив карт, определяющий номера отне­ сенных к классу документов.- Для выявления общих номеров в документах классы сравниваются с использованием карто­ подборочной машины.

Машинный поиск с помощью ЭВМ может быть органи­ зован по принципу источник-термин либо термин-источник. При этом указатель записывается на магнитную ленту. При­ мерная скорость поиска самых сложных предписаний с мас­ сивами в сотни тысяч поисковых образов составляет около 10 часов.

Микрофильмирование позволяет использовать объеди­ нение точных копий документов с их поисковыми образами на едином носителе информации. Перед вводом в поисковую систему документ фотографируется на микропленку или дискретные микрофиши. Одновременно термины индексиро­ вания кодируются в двоичной системе в виде прозрачных и затемненных отметок и помещаются рядом -с изображением документа. При поиске микрофильм или микрофиши про­ ходят через читающее устройство, содержащее фотоэлектри­ ческий элемент, распознающий документы, кодовые обозна­

8

834

ИЗ

 

Соседние файлы в папке книги из ГПНТБ