
книги из ГПНТБ / Крулькевич, М. И. Основы систем производственно-экономической информации учеб. пособие
.pdfчения которых соответствуют указанным в поисковом пред писании.
Использование технических средств в поисковых систе мах позволяет эффективно осуществлять не только поиск до кументов по специфичным предметным запросам, представ ляющим единовременную потребность в информации, но и организовать непрерывное оповещение.
Необходимость в непрерывном оповещении возникает, например, при слежении за текущими новинками техничес кой литературы. В данном случае реализуется идея индиви дуального обслуживания, при которой отдельные потребите ли или группы потребителей оповещаются о наличии потен циально полезной для них текущей литературы.
Принцип реализации предложен Г. Г1. Луном в фирме ИБМ. В соответствии с принципом интересы индивидуумов или групп индивидуумов описываются посредством слов или словосочетаний, создавая таким образом профиль интересов потребителя.
При этом документы при вводе в фонд описываются на стадии индексирования аналогично схеме разовых запросов, а полученные поисковые образы сопоставляются с профилями интересов потребителей. Если профили совпадают в каких-то заранее установленных пределах, потребитель извещается о наличии документа, предположительно соответствующего его интересам.
Таким образом, при разовом запросе индексируются до кументы и запросы и создается механизм, позволяющий со поставлять описания документов и запросов, а при непре рывном оповещении индексируются документы и интересы потребителей и также создается механизм для сравнения их между собой. Принципиальным отличием систем является то, что во втором случае запрос потребителей предшествует поиску в массиве документов.
В подавляющем большинстве случаев для сопоставления профилей документов и профилей интересов потребителей ис пользуются ЭВМ. Это связано со сложностью профилей ин тересов, требованием высокой скорости просмотра и лег костью корректировки на основе обратной связи с потреби телями. *
114
§ 3. Характеристики И ПС и влияющие на них факторы
Кважнейшим характеристикам ИПС относятся полнота
иточность поиска. На них оказывают непосредственное влия ние два фактора:
а) полнота индексирования; б) специфичность языка -индексирования.
Полнота индексирования определяет степень, с какой от дельные предметы, рассматриваемые в документе, распозна ются при индексировании и переводятся на язык системы. Так, если имеется документ, в котором приведены сведения о пяти предметах и на стадии понятийного анализа при индексировании все они распознаются в отдельности и вы ражаются через соответствующие комбинации терминов язы ка индексирования, то можно утверждать, что достигнута исчерпывающая полнота индексирования данного источника информации. В том же случае, когда какое-либо понятие не выделено и специально не учтено при индексировании данного предмета, он никогда не сможет быть найден в указателе в ответ на запрос; кроме, конечно, того положения, когда термины, использованые для описания данного пред мета в запросе, случайно не окажутся связанными иерархи чески или другим путем с терминами, использованными для описания множества понятий предмета.
Высокий уровень полноты индексирования обеспечивает высокую полноту поиска и одновременно снижает его точ ность. Это объясняется тем, что в каждом вводимом доку менте выделяются и учитываются все или по крайней мере существенная часть подлежащих индексированию предметов. При этом оказываются заиндексированными и многие пред меты, которые лишь косвенно затрагиваются в документе. Следовательно, их также будет выдавать ИПС в ответ на запросы, по отношению к которым они содержат очень мало информации.
Второй причиной уменьшения точности поиска при уве личении полноты индексирования является следующее. С увеличением учтенных предметов при индексировании и терминов языка индексирования увеличивается вероятность возникновения ложных координаций терминов при поиске.
115
Так, документ с шестью предметами А, Б, В, Г, Д, Е, в кото ром, например, А связан с Б, В и Г, а Д с Е, может быть ошибочно выдан в ответ на любой из 12 двухаспектны.х за просов (А в связи с В, А в связи с Г, Б в связи с Г и т. д.).
Точность поиска зависит от способности языка индек сирования точно описывать специфичность рассматривае мой проблемы или темы.
Сильно детализированный язык индексирования позво ляет получить высокую точность поиска при одновременном уменьшении полноты поиска. Язык индексирования с невысо кой степенью специфичности обеспечивает высокое значение полноты, но не дает возможности получить высокую точность.
Полнота индексирования и специфичность языка индек-' сирования совместно определяют полноту и точность поиска по указателю. Но при поиске меняются полнота и точность в каждом отдельном поиске в результате применения различ ных стратегий поиска.
Так, например, указателем, основанным на пол ностью неконтролируемом словаре, необходимо просматри
вать единственный |
класс |
документов |
для любого поиска. |
|
В такой |
ситуации для каждого поиска |
достигаются опре |
||
деленные |
значения |
полноты |
и точности, |
но нет возможности |
расширить или сузить просматриваемый класс документов с целью улучшения полноты и точности.
Если же возможность изменять поисковые предписания имеется, чтобы получить большее или меньшее число доку ментов в зависимости от конкретной ситуации путем замены синонимов или другими .способами, тогда поиск можно осу ществлять с различной степенью общности. При этом предо ставляется возможность пожертвовать точностью ради до стижения высокой полноты, пожертвовать полнотой для по лучения высокой точности поиска или выбрать промежуточ ное компромиссное решение. Так, для определенного поиска можно подготовить три отдельных поисковых предписания различной степени специфичности. Наиболее широкий поиск позволяет получить значения 95% полноты и 2% точности, наиболее точный поиск — 10% полноты и 85% точности, а
промежуточный средний — значения полноты и точности около 50%.
116
Несмотря на то, что стратегия поиска позволяет влиять па объем выходной информации и тем самым на полноту и точность поиска, пределы этого влияния ограничены и зави ся от полноты индексирования и степени специфичности языка индексирования.
Например, в указателе к массиву документов металлур гического производства невозможно получить высокой точ ности значение при поиске по запросу «Дуговая сварка в за щитной среде при производстве теплообменников», если спе цифическими терминами языка индексирования являются «Соединение» в аспекте «Производство», «Материалы» и «Технологическое оборудование» в аспекте «Готовая продук ция».
В случае, если есть возможность |
изменить |
стратегию |
|
поиска для увеличения полноты |
или |
точности, |
тогда мож |
но взять любую группу запросов |
и составить для каждого |
||
запроса поисковое предписание, |
состоящее из |
нескольких |
|
предписаний с различными уровнями |
специфичности. |
Другими словами, можно считать, что положение реаль ной кривой характеристик ИПС определяется в первую оче редь двумя факторами-характеристиками языка конкретной тематической области и степенью общности запросов. В этой связи возникает необходимость рассмотреть составные части и характеристики языка индексирования.
Полный язык индексирования состоит из следующих
-частей:
а) словаря индексационных терминов, представляющего собой множество терминов индексирования;
б) кодового словаря; в) словаря входов, включающего множество входных
терминов; г) вспомогательные средства языка, предназначенные
для расширения или сужения определений классов; д) правила использования языка индексирования.
Индексационным термином называется рубрика, одно значно определяющая класс документа.
Например, класс документов «Сверлильные станки» мо жет быть однозначно определен рубрикой алфавитно-пред метногоуказателя «Сверлильные станки». В альтернативном случае он может быть однозначно определен с помощью
117
комбинации двух дескрипторов «Станки» и -«Сверление». В первом случае дескриптор «Сверлильные станки» является одним из рабочих терминов языка индексирования, то есть он является термином, под которым в указателе располага ются записи. Во втором случае под рубрикой «Сверление» в указателе нет ни одной записи. Номера документов по этой теме отнесены к двум рабочим терминам: «Станки» и «Свер ление».
Кодовые термины — это термины, под которыми в ука зателе помещены записи. Например, в нашем случае «Стан
ки» и «Сверление». |
|
|
Словарь |
входов |
— это множество входных терминов, |
состоящих из |
слов |
и словосочетаний, которые используются, |
в документах и запросах для выражения понятий, выделен ных при индексировании и отображении кодовыми терминами системы.
Обширный словарь входов обеспечивает использование индексаторами и производящими поиск того же самого кодо вого термина или терминов для выражения определенных понятий.
Язык индексирования, помимо различных словарей для повышения полноты и точности, должен включать различные дополнительные средства.
Минимальное содержание языка индексирования состав ляет набор унитермов, то есть однословных обозначений классов, извлеченных из текстов документов без всякого кон троля. К множеству унитермов добавляются определенные средства, повышающие точность или полноту поиска.
Средства повышения полноты увеличивают размеры клас сов документов путем группирования терминов и уменьше ния размера словаря индексационных терминов. К таким средствам относятся: контроль синонимии и словоформ, ие рархические связи и группировка терминов по смысловым группам.
Средства повышения точности, наоборот, уменьшают размеры классов документов путем ограничения определе ний терминов и увеличения размеров словаря индексацион ных терминов. Сюда относятся: координация, приписывание весовых коэффициентов, связывание терминов, установле ние роли.
J18
Характеризуя язык индексирования в целом, Можно от метить, что он представляет собой смесь различных средств повышения полноты и точности. Чем больше таких средств расширения или сужения определений классов включено в язык индексирования, тем большую возможность он пред ставляет для изменения стратегии поиска в зависимости от конкретных требований в любом диапазоне характеристик системы, начиная от максимальной полноты и кончая макси мальной точностью.
§ 4. Механизация и автоматизация И ПС
Простейшей формой созданного машиной указателя яв ляется так называемый указатель «Ключевые слова в кон тексте». Используя словарь подлежащих исключению слов, машина отбрасывает все синтаксические слова, такие как мбстоимения, предлоги и т. д., а все оставшиеся слова в за головках представляет в качестве индексационных слов. При такой машинной обработке получается указатель ключевых терминов, отпечатанных в алфавитном порядке вместе с текстом, непосредственно окружающим каждый термин.
Более сложным и интересным представляется использо вание ЭВМ для автоматического индексирования докумен тов на основе особых характеристик текста документов или их рефераторов. Первые исследования данной проблемы были проведены в фирме IBM Луном и Баксендейлом. Ука занные авторы исходили при этом из той основной предпо сылки, что отдельные слова в документе действуют как клю чи, создающие основу для предсказания предметной кате гории, к которой, вероятно, принадлежит документ. Кроме того, ими учитывалось то обстоятельство, что статистичес кие данные о порядке, типе, частоте и положении слов позво ляют достаточно обоснованно предсказать содержание доку ментов, включающих эти слова.
В качестве критериев для отбора слов могут быть ис пользованы:
а) статистический, представляющий собой абсолютну частоту повторения слов в тексте, либо сравнительную час тоту по отношению к некоторой эталонной частоте;
119
б) лингвистический, основанный на семантике или син таксисе;
в) текстуальный позиционный или редакционный.
Автоматическое реферирование с использованием ста тистических критериев осуществляется в следующем поряд ке. После исключения общих слов и различных форм каж дого слова оставшийся лексический состав документа распо лагается в порядке убывания частоты их повторения. Далее устанавливается пороговое значение частоты, которое служит для отделения значащих слов.
После этого производится машинный поиск пересечения значащих слов в предложении. При этом два ключевых сло ва считаются связанными в предложении, если между ними располагаются не более четырех слов.
Предложения с наибольшими коэффициентами значимо*
сти |
выбираются |
и печатаются в порядке |
их встречаемости |
|
в тексте, образуя тем самым реферат. |
|
|
||
|
Ключевыми |
словами документа 'считаются |
те слова, |
|
частота которых выше ожидаемой. |
|
|
||
бо |
Если составить список слов, встречающихся в какой-ли |
|||
тематической |
области, с указанием |
средней |
частоты их |
появления, то получим частотный словарь. Тогда можно сло вари всех поступающих документов сравнивать с общим сло варем и на этой основе определять значащие слова, то есть, редко употребляемые, которые часто встречаются в данном случае. После этого машине остается сопоставить эти зна чащие слова с хранящимися в ее памяти сначала в широком классе, а затем в более специализированных классах. Н а пример, установив, что документ касается материалов, про изводим поиск конкретных материалов и т. д.
Нестатистические критерии призваны дополнять стати стические. Часто они избавляют от необходимости производить статистические подсчеты по полному тексту. Например, можно акцентировать внимание на первых и последних предложе ниях текста или на тех предложениях, которым предшеству ют такие слова, как «резюме», «выводы», «итак» и др. Боль шее количество информации, чем обычный текст, содержат заголовки глав, параграфов, подписи под рисунками, схема ми и диаграммами. В качестве индикаторов содержания мо
120
гут быть использованы такие признаки, как выделение час тей текста прописными буквами, курсивом или разрядкой.
Использование чисто машинного способа создания ука зателя находится пока на стадии исследований. Здесь зна чительная доля затрат, как правило, связана с переводом текста на машинный язык. Метод предполагает наличие предварительной классификации или списка предметных рубрик по основным темам фонда. Машинное индексирова ние включает просмотр текста документа и отнесение доку мента на основе словарного состава к определенному клас су разработанной классификации.
Интересными представляются разработки программ ав томатического синтаксического анализа (грамматического разбора предложений), применяемых к текстам для опреде ления структурных зависимостей между словами и сведения полного текста к множеству минимального размера предло жений. Документы при этом выражаются базовыми скелет ными предложениями с нормативными терминами путем ис ключения придаточных предложений, словосочетаний и дру гих подчиненных элементов.
Синтаксическая структура в указанном виде может хра ниться на магнитной ленте в виде «дерева» или абстракт ного графа, в котором каждое слово является узлом «дере за», а синтаксические зависимости представлены его ветвя ми. Подобные машинные программы для реальных текстов уже имеются.
В Питтсбургском университете разработан машинный метод поиска по полным текстам с использованием цифро вых кодов. Каждому идентифицирующему номеру документа устанавливается соответствие серии номеров, обозначающих группы тезауруса. Против каждого номера стоит число, по казывающее, сколько раз это понятие встретилось в доку менте. В таком массиве, который фактически представляет собой сжатый вариант полных текстов документов, можно проводить поиск с требованием пересечения двух и более групп тезауруса. Можно также потребовать минимальной встречаемости определенных групп тезауруса в документе или установить, что две группы должны встречаться в тексте иа определенном расстоянии друг от друга. Расстояние мо жет быть измерено количеством предложений. С использо
121
ванием данного метода потребитель вводит первоначальные запросы на естественном языке в цифровой форме прямо в машину.
Примером полностью автоматизированной поисковой си стемы является разработанная в Гарвардском университете экспериментальная система SMART. Эта система восприни мает документы и запросы в читаемой машинной форме на естественном языке, осуществляет автоматический анализ со держания и классифицирует документы по степени их соот ветствия запросу. Кроме того, система обладает гибкостью, позволяющей ей обрабатывать запросы различными спосо
бами — от простого |
использования • одних |
основ |
слов |
до |
|
сложного построения |
синтаксических |
словосочетаний. |
Си |
||
стема использует итеративный поиск, |
при |
котором |
потреби |
телю разрешается многократно уточнять суть его запроса или переходить к другому варианту поиска с учетом источ ников, полученных в результате предыдущего поиска.
Основным препятствием широкого распространения ав томатизированных поисковых систем остается большая стои мость формы ввода и автоматизация индексирования.
В нашей стране исследования в области создания
автоматизированных |
поисковых систем |
занимаются |
ученые |
Л. И. Михайлов, А. |
И. Чернов и Р. С. |
Гиляровский. |
ИГ1С |
являются одним из направлений быстроразвивающейся в настоящее время науки, называемой информатикой.
§5. Проблема взаимоотношений И ПС с потребителями
Поиск может быть личный и поручаемый.
Личный поиск считается беспорядочным, так как лицо, осуществляющее поиск, обычно не имеет формализованной стратегии поиска до начала его проведения. По своему ха рактеру такой поиск близок к эвристическому. Как правило, он начинается с наиболее вероятного предметного заголовка и расширяется далее в соответствии с системой перекрестных ссылок или структурой используемых вспомогательных средств. При этом множество документов, оцениваемое по требителем вначале как соответствующее его требованиям, может значительно отличаться от тех документов, которые он представлял полезными в начале поиска.
122
Поручаемые поиски также не могут быть признаны упо рядоченными так как лицо, осуществляющее поиск, делает
в |
процессе его различные предположения относительно то |
го, |
какие документы вероятнее всего представляют интерес. |
Поэтому часть документов, которые хотел бы видеть потре битель, не поступит к нему. Зато он получит множество та
ких документов, которые имеют для |
него |
малую |
ценность |
или вообще не нужны. |
|
|
|
Данный вид поиска легко может |
быть |
усовершенство |
|
ван, если в процессе его предлагать |
потребителям некото |
||
рые документы для ознакомления и |
■изменять |
стратегию |
поиска на основе обратной связи, то есть превращать поиск в итеративный процесс.
Появление технических средств и ЭВМ в сфере меха низации и автоматизации ИПС изменяют характер взаимо отношения поисковой системы с потребителями. В указанных условиях личный поиск стал невозможным. Резко изменяется и процесс поручаемого теперь уже машинного поиска.
Для организации такого поиска необходимо вначале под готовить поисковое предписание для нахождения ссылок на документы, имеющие отношение к запросу. В предписании формулируются требования, которым должен удовлетворять документ для включения в класс приемлемых документов. Сам поиск представляет собой сопоставление списка индексационных терминов запроса с поисковыми образами доку ментов, то есть с аналогичными списками их индексационных терминов. Документ поступает потребителю только в том случае, когда уровень соответствия обоих списков пре восходит заранее установленный порог.
Еще одной особенностью предписания при машинном по
иске является то, |
что в нем |
должны быть совершенно четкие |
и детальные формулировки |
информационных нужд потре |
|
бителя. От этого |
в значительной мере зависят результаты |
поиска.
Основные недостатки во взаимоотношении машинных ИПС с потребителями обусловлены тем, что сформулиро ванный в предписании запрос более специфичен, чем дей ствительные информационные потребности, или он сформу лирован в более общем виде, чем того требуют реальные информационные потребности.
123