Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Хорошилов Управление ИР.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
14.79 Mб
Скачать

7.5. Сравнительные характеристики эффективности поиска в различных системах и оценка достоверности

Первые полнотекстовые информационно-поисковые систе­мы (Full Retrieval System) появились в начале компьютерной эры. Назначением этих систем был поиск в библиотечных каталогах, архивах, массивах документов, таких, как статьи, нормативные акты, рефераты, диссертации, монографии. Первоначально ин­формационно-поисковые системы применялись преимущест­венно в библиотечном деле и в системах научно-технической ин­формации.

В начале 1970-х гг. уже коммерческие компьютерные службы начали предоставлять возможность интерактивного поиска в те­матических базах данных. Некоторые из тех служб существуют и сегодня — основанная еще в 1965 г. система "Диалог", входящая в настоящее время в корпорацию Thomson, сегодня обеспечивает своим клиентам доступ к 900 базам данных и является одной из наиболее эффективных информационных служб.

Из наиболее важных показателей эффективности информа­ционных систем, содержащих текстовую информацию, можно отметить семантические показатели, которые основаны на оцен­ке релевантности между документами и запросами.

Релевантность — объективно существующее смысловое соот­ветствие между содержанием документа и запроса. Объектив­ность оценок релевантности обеспечивается тем, что они уста­навливаются экспертным путем, а не автором запроса.

Семантическими показателями являются полнота выдачи (потери информации) и точность выдачи (информационный шум).

Введем следующие обозначения:

а — множество релевантных и выданных системой доку­ментов;

б — множество нерелевантных, но выданных системой до­кументов;

в — множество релевантных, но не выданных системой до­кументов;

Другой группой показателей оценки эффективности доку­ментальных информационных систем являются прагматические показатели. Эти показатели можно определить только в процессе эксплуатации информационной системы. Прагматические пока­затели определяют абоненты системы на базе оценок пертинент- ности выданных документов.

Пертинентность — это субъективно оцениваемое соответст­вие содержания документов или текстов информационным инте­ресам потребителя. Пертинентность может оценить только автор запроса, работающий с информационной системой. Оценки пер- тинентности, как правило, отличаются от результатов, получен­ных на основе оценок релевантности.

Рассмотрим вопросы оценки эффективности поиска в про­фессиональных базах и деловых ресурсах Интернета.

Анализ содержимого профессиональных баз за последние 15 лет показывает неуклонный рост доли текстовой информации в общем объеме информации. Если в 1985 г. доля текстовой инфор­мации составляла 47%, то в 2000 г. эта доля была уже 84%. Пред­ставляется, что основная информация в Интернете также являет­ся текстовой. Эти обстоятельства позволяют сделать вывод о том, что подходы к оценке эффективности поиска в документальных системах в полной мере распространяются и на профессиональ­ные базы, и на информационные ресурсы Интернета.

Рассмотрим специфику информационных ресурсов Интер­нета и имеющихся в среде Интернета поисковых средств, кото­рые оказывают существенное влияние на эффективность поиска в этой среде.

1.Основными поисковыми средствами в Интернете являются поисковые системы и каталоги.

В связи с тем, что в средствах поиска в Интернете не исполь­зуются информационно-поисковые языки, на которых должны были быть описаны исходные документы и запросы, полнота поиска в Интернете с учетом описанных выше поисковых средств будет значительно ниже, чем в документальных систе­мах, построенных на базе информационно-поисковых языков. Поисковые машины включают в свою базу поиска (индекс) лишь незначительную часть от всех ресурсов Интернета, из-за особенностей структуры Интернета и самих поисковых ма­шин [45].

Особенности информационных ресурсов Интернета и поис­ковых средств позволяют сделать вывод о том, что эффектив­ность поиска информации в Интернете существенно уступает эффективности поиска информации в документальных инфор­мационно-поисковых системах, использующих специальные ин­формационно-поисковые языки, и эффективности поиска в про­фессиональных базах. Эти обстоятельства определяют те высокие требования к профессиональной подготовке пользователя, кото­рые необходимы для получения нужной информации из инфор­мационных ресурсов Интернета.

Организация информации в профессиональных базах отли­чается от организации информации в Интернете в первую оче­редь тем, что информация накапливается и постоянно обновля­ется в базах данных, которых в настоящее время свыше 19 тыс. В каждой базе накапливается специфичная информация. Отбор достоверных источников и накопление информации ведут ин­формационные агентства-генераторы. Они же поддерживают эти базы в актуальном состоянии, т. е. обновляют. Предоставле­ние информации из баз потребителям осуществляют агентства- поставщики. Потребителю предоставляется язык запроса и до­кументация, характеризующая базы данных. По каждой базе имеется название, отражающее вид информации, хранимой в базе, с какого времени ведется база, объем накопленной инфор­мации, период обновления, источники предоставления инфор­мации.

Указанные особенности обеспечивают высокие показатели по достоверности, полноте и точности предоставляемой инфор­мации.

Одним из важнейших показателей, характеризующих полу­ченную из других источников информацию, является ее достоверность. Достоверность — это степень соответствия информа­ции об объекте его реальному состоянию.

Процесс оценки достоверности информации — это сложный аналитический процесс, зависящий от многих факторов. Невоз­можно дать какую-то единую схему, которую можно применять в любых случаях. Однако следует рассмотреть некоторые типичные случаи и выявить факторы, которые влияют на оценку достовер­ности.

В первую очередь это знания человека, производящего оцен­ку достоверности информации. Оценивающий информацию должен знать процесс поступления информации к нему от пер­вичного источника. В любом случае должна проводиться оценка надежности этого первичного источника: в первом случае это конкретное лицо, например автор статьи в газете, во втором слу­чае это известное информационное агентство, имеющее свою службу контроля качества предоставляемой им информации. Ав­тором статьи тоже может быть надежный и независимый коррес­пондент.

Ряд ведущих мировых информационных агентств работает на информационном рынке более 150 лет. Успешный бизнес таких агентств, как Рейтер, Доу Джонс, Дан & Бред стрит, определяется тем вниманием, которое они уделяют вопросам достоверности предоставляемой потребителям информации. Молодые агентст­ва, работающие на мировом информационном рынке лишь де­сятки лет, также уделяют вопросам достоверности информации самое пристальное внимание.

Кроме первичного источника в цепи формирования инфор­мации может быть одно или несколько звеньев, которые коррек­тируют полученную от первичного источника информацию и мо­гут вносить свои искажения. Глава правительства Великобрита­нии Уинстон Черчилль во время Второй мировой войны получал от разведывательной службы донесения, построенные на базе агентурных сообщений. Зная, что руководство разведывательной службы интерпретирует первичную информацию в выгодном для себя свете, Черчилль заставил представлять ему от ведущих аген­тов донесения напрямую и сам производил оценку достовернос­ти этих сообщений.

К каждому виду информации при оценке достоверности дол­жен быть свой подход.

­

Достоверность одного вида информации не зависит от време­ни. Примером такого вида информации может служить, напри­мер, год регистрации фирмы.

Достоверность другого вида информации зависит от времени. Примером такого вида информации является адрес проживания лица или юридический адрес организации. Пусть нам необходи­мо срочно найти адрес студента. Мы знаем, что при поступлении в вуз студент заполнял анкету и указывал там свой домашний ад­рес. Как правило, в процессе учебы эти сведения не корректиру­ются. Если мы обратимся в отдел кадров за справкой о месте жи­тельства студента-первокурсника, то достоверность этих сведе­ний будет достаточно высокой. Если мы обратимся за адресом студента выпускного курса, то достоверность полученных сведе­ний будет существенно ниже. Это происходит из-за того, что по статистике человек за свою жизнь 6—7 раз меняет свое постоян­ное место жительства.

Широкое распространение в России получили бизнес-справочники — регистры предприятий. Наряду с другими признаками в этих справочниках имеется юридический адрес предприятия. При оценке достоверности значения этого признака необходимо учитывать, что издаются эти справочники раз в год и на сбор ин­формации и издание этого справочника также требуется время. За это время происходит старение информации и снижается ее достоверность.

При оценке достоверности большое значение имеет уровень подготовки специалиста, оценивающего достоверность инфор­мации, его эрудиция, знание предметной области. Одним из дей­ственных методов является сравнение значения признака объек­та с возможными границами его значений.

Искажения информации могут быть самой различной при­роды. Это могут быть случайные и систематические (методичес­кие) ошибки, а также преднамеренные искажения и дезинфор­мация.

Можно выделить несколько обобщенных подходов к оценке достоверности информации.

  • Выявление, к каким источникам относится поступающая информация — первичным или вторичным.

  • Определение надежности источника информации.

  • Выявление логических несоответствий в поступающей ин­формации.

  • Изучение контекста, в котором излагаются определенные факты и сведения.

  • Выделение информации, основанной на предрассудках, обмане или манипуляции, которая может являться пропагандой, рекламой или не соответствующей действительности.

В наиболее ответственных случаях информацию желательно получать из различных независимых источников, а сами источ­ники должны регулярно оцениваться по степени достоверности поступающей от них информации.

Выводы

  • Эффектом рассеивания информации обусловливается про­блема полноты информационных ресурсов, требуемых для реше­ния задачи. Даная проблема актуальна для работы почти во всех информационных системах. В профессиональной базе поступа­ющая информация распределяется по тематическим группам. Та­ким образом, пользователь, выбрав для работы одну тематичес­кую группу, упускает важные сведения, которые могут содержать­ся в смежных тематиках. Наиболее остро проблема поиска информации стоит при работе с Интернетом. Глобальная сеть да­ет доступ к большому количеству информационных ресурсов, од­нако в силу особенностей построения Интернета и разнообраз­ных форм предоставления информации возможно использова­ние только небольшой части информационных ресурсов.

  • Добиться полного охвата информационных ресурсов в на­стоящее время невозможно. Частично проблему полноты охвата информационных ресурсов можно решить путем изучения мета­информации, которая содержится в каталогах, реферативных, библиографических изданиях и базах данных. Кроме того, ис­пользование максимально возможного количества информаци­онных ресурсов требует больших затрат, в том числе материаль­ных и трудовых. Поэтому работа с метаинформацией также направлена на выявление наиболее информативных информаци­онных источников.

  • Актуальной для нашего времени является проблема поиска необходимых сведений по документальным базам, ресурсам Ин­тернета и библиотекам. Накопление информации в мире проис­ходит лавинообразно. Большой массив информации накапливают документальные базы, например, Ьех1$№х15 содержит более 1,4 млрд документов, а "Диалог" — около 1 млрд. Информация в Интернете — неструктурированная и разрозненная, что создает основные трудности при ее поиске. Особенностью фондов биб­лиотек является то, что поиск необходимых изданий строится на библиографических и реферативных сведениях. Таким образом, одной из основных проблем доступа к информации является по­иск информации в информационных ресурсах. Подходы к реше­нию этой проблемы варьируются в зависимости от типа инфор­мационных ресурсов.

  • Дополнительные затраты информационных агентств на классификацию — структуру отбираемой информации, оценку рейтинга источников и отбор наиболее информативных из них, построение эффективных поисковых средств — обеспечивают значительно большую полноту и точность поиска по сравнению с поиском в Интернете.

  • Деловые ресурсы Интернета являются важными информа­ционными источниками. Однако доступ к ним затруднен тем, что сложно определить их месторасположение в глобальной сети. Поддержку поиска информации в Интернете обеспечивают по­исковые машины и каталоги ресурсов Интернета. Однако эти по­исковые средства не могут гарантировать полноту охвата всех ин­формационных ресурсов. К сожалению, большая часть ресурсов Интернета является практически недоступными для пользовате­ля за счет особенностей построения и технологии работы поис­ковых машин. Эффективность поиска информации в Интернете существенно уступает эффективности поиска информации в до­кументальных информационно-поисковых системах, использу­ющих специальные информационно-поисковые языки, и эф­фективности поиска в профессиональных базах.

  • Доступ к ресурсам библиотек традиционно начинается с работы с метаинформацией. От качества библиографического и реферативного описания фондов библиотеки во многом зависит эффективность работы читателей библиотек с этими фондами. Автоматизация библиотек и создание электронных каталогов фондов библиотек позволят пользователям значительно сокра­тить затраты времени на поиск необходимых источников инфор­мации, составления библиографии и т.п.