Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
2 курс ИТУ Учебные материалы / Informatsionnie-tehnologii-upravleniya-uchebnoe-posobie.pdf
Скачиваний:
112
Добавлен:
07.06.2015
Размер:
18.76 Mб
Скачать

ние слов по написанию или звучанию и несовпадение по смыслу. Синонимия — это совпадение слов по значению и несовпадение по написанию.

Вторая проблема построения фраз ИПЯ связана с определением последовательности выбранных слов. Синтагматические отношения — отношения слов при соединении их в словосочетания и фразы. Для уточнениясмысла документаили запроса,помимо ключевыхслов, ча - сто необходимо указывать, в каких синтагматических отношениях эти слова находятся. Так, фраза «защита окружающей среды от человека» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл, хотя и состоят из одних и тех же ключевых слов.

По способу организации понятий различают следующие ИПЯ: предкоординируемые (классификационные) ИПЯ; посткоординируе - мые (дескрипторные) ИПЯ. Предкоординация — предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Сло - варный состав задается в виде фиксированного списка слов, словосо - четаний и фраз. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов.

К классификационным языкам относят: информационно–поис- ковый язык иерархического типа; информационно–поисковый язык фасетного типа; алфавитно–предметную классификацию.

Основными показателями эффективности функционирования ДИС являются полнота и точность. Полнота информационного по- иска R определяется отношением числа найденных релевантных до- кументов к общему числу релевантных документов, имеющихся в системе. Точность информационного поиска определяется отноше- нием числа найденных релевантных документов к общему числу документов, выданных на запрос пользователя.

Наличие среди отобранных на запрос пользователя нерелевант- ных документов называется информационным шумом системы.

5.3. Информационно-поисковые языки

Информационно–поисковые каталоги, основанные на классифи- кации сведений по определенной предметной области, были первы- ми системами информационного поиска документов.

86

SaveStud.Su

Первоначальные подходы к классификации тематики докумен- тов основывались на формировании списка предметных заголовков, располагаемых в алфавитном порядке. Каждая предметная рубри- ка получала определенный цифровой или буквенно–цифровой код. Содержание документа индексировалось перечислением кодов тех рубрик, которые отражали темы документа. Это перечислительная классификация.

Особенностью систем перечислительной классификации являет- ся возможность индексирования документов любым количеством ру- брик, отражающих содержание документа. Для осуществления поис- ка необходимых документов по классификатору определяются коды интересующих пользователя рубрик и далее отбираются из хранили- ща те документы, которые проиндексированы соответствующими ко- дами. Отсутствие систематизированных связей и отношений между предметными рубриками является основным недостатком перечис- лительной классификации.

При систематизированной классификации список предметных рубрик строится как иерархическая структура, в виде переверну- того дерева. Вся предметная область разбивается на ряд взаимои- сключающих (непересекающихся) рубрик. Каждая рубрика, в свою очередь, может включать несколько подрубрик. Таким образом, при систематизированной классификации учитываются уже некоторые семантические основы Предметной области, выражаемые в родови- довых отношениях основных категорий, понятий и классов.

Содержание документа индексируется кодами соответствующих рубрик, однако при этом отпадает необходимость в явном указании более общих рубрик, к которым относятся выделенные подрубрики. В результате индексирование и поиск документов на основе иерар- хической классификации позволяют более адекватно отражать со- держание документов и обеспечивают большую точность поиска.

Перечислительный и иерархический подходы к классификации используются в алфавитно–предметных каталогах библиотек. Недо- статком перечислительной и иерархической классификаций является принципиальная невозможность заранее перечислить все возможные темы документов. Фасетная классификация не связана подобными ограничениями — идея этой классификации состоит в том, что вся предметная область разбивается на ряд исходных рубрик (фасет) по семантическому принципу, отражающему специфику предметной

87

SaveStud.Su

области. Фасеты выступают в роли элементов, из которых можно сконструировать любую, даже самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочи- ваются по алфавитно–иерархическому принципу. Основное достоин- ство фасетной классификации заключается в возможности отразить большое количество специализированных рубрик и тем самым наи- более точно и полно проиндексировать содержание документов.

Воснове построения дескрипторных ИПЯ лежит принцип ко- ординатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов. К ключевым словам относятся так называемые пол- нозначные слова — существительные, прилагательные, глаголы, на- речия, числительные, местоимения.

Вкачестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы. Дескриптор— по- нятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. В качестве дескрипторов могут быть использованы код, слово или словосочетание. Разработка дескрипторного языка фактически сводится к разработке информационно–поискового те- зауруса (ИПТ) или словаря-справочника.

Обобщенная структура ИПТ включает как минимум три состав- ляющих: словарную часть, семантическую карту, руководство по ис- пользованию. Словарная часть — алфавитный список дескрипторов

сих словарными статьями. Семантическая карта — система тема- тических классов дескрипторов, представленная в виде графической схемы или таблицы. Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, прави- ла лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ.

Отличием информационно–поисковых тезаурусов от информа- ционно–поисковых каталогов на основе предметной иерархической рубрикации является то, что в тезаурусах, помимо классификаци- онной схемы, присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов.

Главная идея информационно–поисковых тезаурусов заключает- ся в повышении эффективности индексирования документов в рам- ках дескриптивного подхода.

88

SaveStud.Su

Различают базовые и рабочие тезаурусы. Базовые тезаурусы включают основной набор лексики предметной области. Рабочие те- заурусы строятся на основе базовых тезаурусов и дополняются в процессе индексирования документов новыми терминами.

5.4. Системы индексирования

Система индексирования (СИ) — совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с за- данным набором словарей лексических единиц и с правилами при- менения.

По степени автоматизации процесса индексирования выделяют системы ручного индексирования, автоматического индексирования, автоматизированного индексирования. По степени контролируемо- сти различают системы без словаря, с жестким словарем, со свобод- ным словарем. По характеру алгоритма отбора слов текста выделяют следующие системы: с последовательным просмотром текста (отби- раются все полнозначные слова); с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре): со статистическими процедурами выбора слов (отбира- ются только информативные слова в соответствии с распределением частот их употребления). По характеру лексикографического контро- ля различают системы без лексикографического контроля, с полным

контролем, с промежуточным контролем.

 

Лексикографическийконтроль предусматриваетустранение сино

-

нимии,полисемиии омонимиина основенормативныхсловарейлекси

-

ческих единиц с парадигматическимиотношениямимежду ними; нор

-

мализацию слов на основе морфологических нормативных словарей.

 

Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и приме- няется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представ- ляющий поисковое пространство документов. Возможны два типа такого индекса — прямой и инвертированный.

Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс

89

SaveStud.Su

заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).

Процесс компьютеризации деятельности привел к накоплению большого объема неструктурированной текстовой информации. Воз- никла потребность в программном обеспечении, реализующем эф- фективный поиск информации. Информационно–поисковые катало- ги, фасетные и тезаурусные системы не могли быть в полной мере использованы в массовой автоматизации. Потребовались средства, которые бы максимально освобождали пользователя от необходимо- сти сложной предварительной структуризации предметной области и затратных процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий. В результате на рынке про- граммных продуктов появились полнотекстовые ИС.

Информационно–технологическая структура полнотекстовых ИС включает: хранилище документов; глобальный словарь системы; ин- вертированный индекс документов; интерфейс ввода документов в систему; механизм индексирования; интерфейс запросов пользовате- ля; механизм поиска документов; механизм извлечения найденных документов.

Хранилище документов может быть организовано как единая локально сосредоточенная информационная структура в виде специ- ального файла с текстами документов.

Глобальный словарь системы может быть статическим и дина- мическим. Статические словари определяются заранее и не зависят от содержания документов, вошедших в хранилище. Динамические словари определяются набором словоформ, имеющихся в докумен- тах хранилища. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы.

Поступающие через интерфейс ввода–вывода документы под- вергаются операции индексирования по глобальному словарю. Механизм индексирования в полнотекстовых ИС полностью -ав томатизирован и заключается в создании специального двоично- го вектора, компоненты которого показывают наличие или отсут- ствие в данном документе слова с соответствующим номером из глобального словаря.

Через интерфейс запросов пользователь в терминах ИПЯ делает запрос, который обрабатывается поисковой машиной. Механизм по-

90

SaveStud.Su

иска основывается на алгоритмах и критериях сравнения поискового образа запроса с поисковыми образами документов, образующими индекс системы. Результатом поиска является определение номеров документов, поисковые образы которых соответствуют поисковому образу запроса. Далее специальная подсистема па основе установ- ленных в хранилище указательных конструкций извлекает и достав- ляет соответствующие документы пользователю.

Основными параметрами, позволяющими определить качество содержания информационной базы, являются полнота информации,

еедостоверность, оперативность обновления информации. Параметры, характеризующие качество программной оболочки:

поисковые возможности системы, средства актуализации информа- ции, дополнительные сервисные функции.

Оценка полноты, достоверности и оперативности обновления ин- формации основывается на количественных показателях. Оценка же качества обработки поступающих в информационный банк докумен- тов достаточно субъективна.

Без обработки автоматизированная информационная система яв- ляется всего лишь электронным аналогом бумажных изданий.

Доступ пользователя к информации, хранящейся в автоматизи- рованной информационной системе, может осуществляться двумя способами: работа с удаленной базой, работа с локальной базой.

При работе с удаленной базой пользователю нет необходимо- сти хранить на своем компьютере данные системы, они хранятся на сервере разработчика и доступны через сеть. Большинство ин- формационных систем имеют версии, доступные через глобальную сеть Интернет. Основное преимущество работы с такими версиями заключается в том, что пользователь всегда имеет доступ к самым последним данным.

Однако для работы с удаленной базой пользователю необходим доступ к Интернету или к другой сети. Зачастую скорость пере- дачи информации через Интернет низкая из-за плохого качества каналов, а стоимость доступа достаточно высокая. Поэтому иногда более выгоден вариант работы с локальной базой, которая доступ- на в любой момент. Недостатком этого варианта по сравнению с предыдущим является более продолжительный период актуализа- ции информации.

91

SaveStud.Su