
книги из ГПНТБ / Крулькевич, М. И. Основы систем производственно-экономической информации учеб. пособие
.pdfчает его от других методов, так как сжатие информации можно проводить без длительной работы по набору статис тического материала.
Применение сжатия информации с использованием дан ного метода целесообразно для интенсификации процессов передачи информации и для повышения эффективности ис пользования емкости запоминающих устройств ЭВМ.
Основополагающим для формирования идеи сжатия ин формации без использования ее статистических свойств явился алгоритмический подход к понятию «количество ин формации», высказанный А. Н. Колмогоровым.
Задача сжатия информации математически формулиру
ется таким образом. |
|
|
Для исходного |
массива информации |
Н = { 1, 2, ..., t} |
найти такое преобразование F, которое переводит этот мас |
||
сив в новый массив |
Н' —• меньшей длины |
и с сохранением |
содержательности исходной информации, то есть при суще ствовании обратного преобразования F ^ 1
H = F - 1(H').
На практике мощность множества исходных массивов обычно представляется довольно 'значительной. Учитывая это, можно присваивать каждому исходному массиву номер не посредством перечисления всех массивов, что невозможно, а посредством вырабатывания этого номера с помощью спе циального алгоритма. Прежде чем рассмотреть алгоритм ну мерации массива, введем необходимые определения.
Конкретный набор г элементов, взятых из множества Н, • называют кортежем над множеством, а конкретный неупо
рядоченный набор |
S |
элементов, |
взятых |
из множества |
|||
Н '={1, |
2, . . . . |
к}, |
— квазикортежем |
над |
множеством Н'. |
||
Любой кортеж |
а *=<>!, |
а2..... аг > |
и квазикортеж • р —(Ь,, |
||||
Ь„ |
Ь6) состоит |
из компонентов |
aj |
(Ь,- ). Каждый компо |
|||
нент может быть любым |
элементом |
i6H (i6FF). То количе |
ство мест, которое занимает в комбинаторной совокупности данный элемент, называют кратностью щ элемента i. Коли чество компонентов в комбинаторной совокупности называ ют длиной совокупности.
Для формального подсчета общего количества комбина торных совокупностей данного вида с данными парамет
100
рами могут быть использованы алгоритмы, основывающиеся на понятиях «сочетание» и «перестановки». В указанные по нятия при этом вкладывается смысл обозначения процесса, а не конкретного набора элементов.
Порядок вычисления номеракортежа следующий.
Вначале путем анализа, исходного массива — кортежа аь представляющего собой фактически подмассив какого-то значительных размеров массива, устанавливаем наименьшие по числовой величине элементы кортежа и их количество. После этого рассчитываем Qi — число сочетаний из общего количества элементов кортежа !а по количеству наименьших элементов и расчетный коэффициент Ь, равный сумме соче таний порядковых мест наименьших элементов по порядко вым номерам данной совокупности. Значения Qi и Ь направ ляются в блок вычисления номера кортежей. Заканчивается процесс анализа стягиванием исходного кортежа, то есть ис ключением из совокупности его элементов тех, которые яви лись наименьшими.
В результате получаем новый кортеж аь который ана лизируется аналогичным образом.
Расчеты значений Q и 1 прекращаются, когда после оче редного стягивания кортежа число разновидностей элемен тов в нем окажется меньше двух. После этого в блок номера кортежа подается команда для вычисления номера кортежа.
Рассмотрим числовой пример.
Пусть имеется числовой массив <6, 7, 8, 4, 3, 3, 2, 8, 6, 6, 5> , представляющий собой кортеж а длиной соответствен но 1а =11 над множеством Н = { 1, 2, ..., 11]. Требуется пре образовать указанную информацию к виду, удобному для хранения в памяти ЭВМ и для передачи другим потребите лям.
|
Используя |
расчетный |
алгоритм, |
вычисления |
начинаем |
||
с определения |
наименьшего элемента |
исходного |
кортежа |
||||
«2», |
который встречается |
всего |
один |
раз; |
следовательно, |
||
г к = |
1, его порядковый номер равен ni=7, |
так как |
он стоит |
||||
на 7-м месте |
|
|
|
|
|
|
|
|
|
Qi == GJj = |
11, |
l j - C J - 6 . |
|
101
ИПС имеется возможность осуществить непрерывный конт роль за реализацией продукции предприятия, движением материальных ресурсов, денежных средств и т. д.
Основными элементами ИПС являются:
а) информационные работники, обслуживающие, систе му, или операторы системы;
б) потребители системы; в) предметные указатели;.
г) предметное индексирование; д) контролируемый словарь; е) поисковый массив;
ж) поисковые указатели и механизм поиска.
В круг обязанностей информационных работников вхо дит описание документов (индексирование), поступающих в систему, поддержание и обслуживание систематизированного массива описаний документов (указателя) и поиск в этом массиве.
Потребители системы — это люди, направляющие в си стему запросы. Иногда операторы могут выступать в роли потребителей, а последние — в роли операторов, если они производят поиск без посредничества информационного ра ботника.
Предметный указатель характеризует ИПС прежде все го как систему, способную отыскивать документы в ответ на запросы по определенному «предмету».
Предметное индексирование представляет собой метод списания документов для предметного указателя. Его можно рассматривать как операцию, состоящую из двух этапов:
а) анализа предметного содержания документа, то есть определения, о чем идет речь в документе;
б) перевода понятий на язык индексирования. Контролируемый словарь представляет собой норматив
ный список принятых терминов индексирования, |
из которых |
в процессе индексирования выбираются нужные |
термины. |
В списке имеются кроме того некоторые необщепринятые термины, отсылающие к соответствующим узаконенным тер минам.
Для облегчения поиска групп сходных документов тер мины, близкие между собой по смыслу, объединяются в группы.
106
В процессе индексации документов в соответствии с их предметным содержанием с помощью контролируемого сло варя терминов создаются поисковые образы, или краткое описание источников фонда.
Поисковый массив представляет собой упорядоченное описание документов так, чтобы их можно было легко отыс кивать.-* В основу характеристики поискового массива поло жены два признака:
а ). физический носитель, на котором реализован массив (книга, каталог, суперпозиционные карты, перфокарты, кар ты с щелевой или краевой информацией, магнитная лента, кинопленка и т. д.);
е) метод |
организации массива, или способ упорядоче |
ния описаний |
(произвольный, алфавитный, систематизиро |
ванный и т. д.).
Обработка запроса в ИПС принципиально не отличает ся от обработки поступающих в нее документов. Вначале он анализируется по своему предметному содержанию, описы вается в терминах, отобранных из контролируемого слова ря. Далее по запросу, выраженному на контролируемом языке, производится поиск в предметном указателе. Доку мент считается найденным, если между формализованным кратким его описанием или поисковым образом и запросом, представляющим собой поисковое предписание, имеется пол ное или частичное совпадение.
Общий вид структурной схемы функционирования ин формационно-поисковой системы представлен на рис. 5. Как видно из схемы, информационный поиск охватывает все опе рации, выполняемые при хранении и поиске, начиная от ин дексирования документа для ввода его в систему и до того момента, когда документ найден и выдан потребителю в со ответствии с его запросом.
Наиболее сложной проблемой индексирования в любой системе является определение числа терминов, которые долж ны приписываться документу. В одних случаях количество терминов свидетельствует о том, что Индексирование в дан ный момент недостаточно полно в отношении большинства поступающих запросов, а в других — это даже трудно заме тить.
107
Предметное индексирование по своему характеру пред ставляет собой частный случай классификации. Объединяя на основе предметного содержания документы, тем самым каким-то образом обозначаем классы родственных докумен тов. Установив наименования всем классам документов, по лучим полный перечень терминов индексирования. После этого можно составить в определенной последовательности список'терминов индексирования, и в результате будем иметь контролируемый словарь. Далее процесс предметного индек сирования превращается в отнесение документов к заранее, установленным классам или обозначение его одним (и бо лее) термином индексирования (наименованием классов).
Для того, чтобы контролируемый словарь мог непрерыв но выполнять свои функции без потери эффективности, он должен постоянно пополняться и обновляться с учетом до кументов, появляющихся в данной предметной отрасли и по ступающих в фонд запросов ИПС.
Формальные отношения классов и возможные операции над ними определяются в общем алгеброй структур или од ной из ее частных форм — булевой алгеброй.
Рассмотрим математическую сторону проблемы разде ления на классы подробнее.
Пусть имеется массив документов М, некоторым из ко торых после просмотра присвоен термин индексирования х, а остальным — у. Тогда будем иметь соответственно два клас са документов.
Один — это класс документов, которые принадлежат или к х-или к у, или одновременно к х и у. Такой класс обо значается через ХиУ и называется логической суммой (дизъ юнкцией).
Использование такого вида суммы двух или более клас сов позволяет успешно запрашивать документы, заиндексированные термином х или у.
Второй класс документов имеет место, когда документы принадлежат одновременно и к х и к у. Такой.класс обозна
чается ХПУ. Этот кл'йсс называют пересечением или логи ческим произведением классов. Использование пересечения классов позволяет запрашивать документы, принадлежащие более чем к одному простому классу.
108
В терминах суммы и произведения классов свойства до полнения записываются следующим образом:
|
ХиУ =1, |
ХПУ = 0. |
|
Кроме указанных соотношений классов, |
известно еще |
||
так называемое |
отношение |
включения. Оно имеет место, |
|
когда все члены |
одного класса являются |
также членами |
|
другого класса. Структурная запись его имеет вид: * |
|||
|
XUXj = X, |
ХПХ, — X, |
|
Она означает — объединенное множество есть множе ство большего класса; их совместное множество есть множе ство меньшего класса. Например, класс «Подшипники каче ния» включается в более общий класс — «Подшипники».
Все возможные отношения между заранее определенны ми классами могут быть выражены в терминах суммы клас сов, их пересечения и дополнения.
Основное отношение классов в иерархической класси фикации — отношение включения.. Например, классы «Сое динение», «Сварка», «Дуговая сварка», «Сварка в защитном слое» представляют собой иерархическую цепь, ведущую вниз от родового термина «Соединение» к видовому — «Сварка в защитном слое».
Класс «Дуговая сварка» целиком включен в класс «Сварка», который в свою очередь включен в класс «Соеди нение».
Любые два класса в иерархической классификации либо дизъюнктивны, либо один класс включает другой. Построен ная на таком принципе классификация состоит из серии це почек, ведущих от самого широкого, родового термина к са мому узкому — специфическому. Новые цепи в ней могут быть порождены на любом уровне, в результате чего возни кают ветвления, которые совместно с цепями образуют «де рево».
Характерной |
особенностью |
«дерева» |
является |
отсут |
|
ствие замкнутых |
цепей или |
циклов. Обычно в нем |
либо |
||
нет ни одного пути, соединяющего два класса |
(узла), |
либо |
|||
есть только один такой путь — класс включает класс. |
|
||||
Указатель, основанный на |
иерархической |
классифика |
|||
ции,, весьма удобен для учета отношения |
включения классов |
109
при поиске. Например, легко можно следовать по иерархи ческой структуре при поиске всех видов родовых понятий или же можно начать поиск со специфических классов и от них двигаться вверх по иерархическому «дереву», чтобы до полнительно выявить документы из более широкого класса.
При построении «дерева» необходимо проводить упоря дочение расположения классов таким образом, чтобы при поиске использовать булеву операцию альтернации, в соот ветствии с которой естественно предположить, что альтерна тивные классы (взаимозамещаемые) должны располагаться в тесном физическом соседстве друг с другом в классифи кационных таблицах или будут связаны посредством отсы лок в списке предметных рубрик, по которым осуществля ется поиск.
Недостатком приведенной классификации является то, что в ней нет возможности перечислить и определить более сложные и специфические многомерные пересечения классов, так как это приводит к чрезмерному возрастанию объема указателя. Чтобы избежать указанного явления, потребуется введение сложных правил пользования указателем. Поэтому рассмотренный метод индексирования не во всех случаях удовлетворяет потребности специалистов.
В настоящее время созданы многомерные системы, спо собные обеспечить доступ к любому предмету с любой воз можной точки зрения. В этом значительную роль сыграли вычислительная техника для обработки данных и такие тех нические средства, как карты Баттена, карты с краевой пер форацией, карты унитермов.
На смену традиционным методам пришли поисковые си стемы экономически рентабельного многоаспектного поиска документов с многоаспектным содержанием.
§ 2. Организация поиска
Поисковый массив по существу обеспечивает механизм, посредством которого можно сравнивать описание докумен тов с описаниями запросов.
Отношение между документами и терминами индексиро вания удобно представляется в форме матрицы. Общий вид такой матрицы представлен на рис. 6.
110
На рисунке буквы представляют словарь терминов ин дексирования, а цифры — документы, заиндексированные в поисковой системе.
Для ввода документа в систему необходимо на основе его предметного содержания, сопоставив с классами, обозна чить документ соответствующими терминами индексирова ния. Отметкой X на матрице указывается принадлежность документа к соответствующим классам. Например, доку мент 1 отнесен к классам Г, Ж и И, документ 2 — к клас сам А и В и т. д. Обратно, можно заметить, что термин А присвоен документам 2, 6, 8 и 10 и что класс А включает документы 2, 6, 8 и 10.
Таким образом, вертикальные столбы представляют со бой поисковые образы документов, а горизонтальные ряды— описания классов. Построение самого указателя, как нетруд но заметить, может быть организовано двумя путями. Либо он должен перечислять все непустые классы (классы с от меткой X), указывая для каждого из них принадлежащие им документы, либо он должен перечислять все документы фонда, указывая для каждого из них классы, к которым со ответствующий документ был отнесен.
Указатели, организованные с использованием первого пути, называют указателями типа источник-термин, а с ис пользованием второго — типа термин-источник. Последний
тип часто называют |
инвертированным указателем, а пер |
вый — прямым или подокументным. |
|
Предметный запрос, |
переведенный на. язык системы для |
выполнения поиска в указателе, называют поисковым пред писанием. Например, поисковое предписание «а» представ ляет собой простой двухаспектный запрос для поиска доку ментов, которые принадлежат к классу Г и одновременно к
классу И* Процесс поиска заключается |
в |
сопоставлении |
|
поискового предписания с матрицей, |
термин-документ для |
||
выявления терминов, поисковые образы |
которых соответству |
||
ют поисковому предписанию. По рисунку |
легко установить, |
||
что на основании предписания «а» в данном |
случае будет |
найден только один документ 1, который отнесен одновре менно к классам Г и И. Осуществляя поиск, нетрудно заме тить, что поисковое предписание содержит только требова ние принадлежности документов одновременно классам Г и
111
И, но не ограничивает возможность их вхождения в другие классы. Так, документ 1 входит кроме того в класс Ж-
Способ поиска в указателе Tiiifa источник-термин суще ственно отличен от поиска в указателе термин-источник. Для этого рассмотрим предписание «б». При проведении поиска в системе термин-источник необходимо последовательно про смотреть все столбцы матрицы (поисковые образы докумен тов) и выявить те столбы (документы), у которых множество присвоенных им,терминов включает множество терминов, со держащихся в поисковом предписании. Из всех документов в данном случае только поисковый образ документа 9 вклю чает все термины поискового предписания «б». Проведя тот же поиск в указателе типа источник-термин, необходимо про сматривать матрицу строка за строкой, а не столбец , за столбцом. При этом поочередно анализируется содержание каждого из рядов, соответствующих терминам или классам, представленным в запросе.
С целью экономии времени на поиск просмотр удобно начинать с наименее заполненных' строк.
Просмотрев, например, вначале класс Б, можно устано вить, что он содержит три документа — 4, 7 и 9. Зафикси
ровав эту информацию, переходим |
к |
следующему классу, |
|
в данном случае Д, который менее |
заполнен, |
чем Г. Все |
|
ячейки этой строки просматривать |
не |
нужно, |
обращаемся |
только к ячейкам Д4. Д7 и Д9. Ячейки Д4 и Д7 пусты, из чего можно заключить, что ни документ 4, ни документ 7 не соответствуют поисковому предписанию. Когда осуществляем переход к последней строке Г, нас интересует только ячейка ГД, так как соответствие документов поисковому предписа нию определяется содержанием этой оставшейся ячейки. Б данном случае она заполнена. Следовательно, документ 9 является единственным источником в фонде, который соот ветствует поисковому предписанию.
Пример показывает, что для выполнения поиска в- ука зателе термин-источник необходимо просматривать поиско вые образы всех документов (все столбцы матрицы), отве чающие условиям запроса. В отдельных случаях, когда не обходима только какая-то часть источников, соответствую щих запросу, поиск можно прекратить в любой момент. В то же время, если производить поиск по указателю источник-
112
термин, следовало бы просматривать все ряды матрицы, не зависимо от того, какую часть источников необходимо найти.
Для механизации поиска имеются три принципиально отличных механизированных поисковых системы:
1)системы, использующие оборудование для обработки данных на перфокартах;
2)системы, использующие ЭВМ;
3)системы, использующие микрофильмы.
Поисковые системы на перфокартах могут быть либо системами источник-термин, либо системами термин-источ ник.
В последних системах отдельная карта является поиско вым описанием документа, а термины индексирования, при своенные документам, кодируются на карте. Роль ^ сортиро вальной машины заключается в последовательной сорти ровке всего массива перфокарт и отделении карт, соответ ствующих поисковому предписанию.
В системе источник-термин каждый класс документов образует свой подмассив карт, определяющий номера отне сенных к классу документов.- Для выявления общих номеров в документах классы сравниваются с использованием карто подборочной машины.
Машинный поиск с помощью ЭВМ может быть органи зован по принципу источник-термин либо термин-источник. При этом указатель записывается на магнитную ленту. При мерная скорость поиска самых сложных предписаний с мас сивами в сотни тысяч поисковых образов составляет около 10 часов.
Микрофильмирование позволяет использовать объеди нение точных копий документов с их поисковыми образами на едином носителе информации. Перед вводом в поисковую систему документ фотографируется на микропленку или дискретные микрофиши. Одновременно термины индексиро вания кодируются в двоичной системе в виде прозрачных и затемненных отметок и помещаются рядом -с изображением документа. При поиске микрофильм или микрофиши про ходят через читающее устройство, содержащее фотоэлектри ческий элемент, распознающий документы, кодовые обозна
8 |
834 |
ИЗ |
|