Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Хорошилов Управление ИР.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
14.79 Mб
Скачать
    1. Поиск информации в профессиональных базах

Интенсивное развитие информационно-коммуникационных технологий повлекло за собой лавинообразный рост накапливае­мой информации. Было замечено, что рост документальной ин­формации подчиняется закону Мура с небольшой корректиров­кой, т.е. объем документальной информации удваивается каждые три года [58].

Большие массивы информации ведут к увеличению затрат на приобретение доступа к информационным ресурсам и времени для работы с ними. Эффективность работы с информационными ресурсами зависит во многом от методов структуризации инфор­мации в базах данных, программного обеспечения для работы с большим массивом информации и, конечно, от квалификации специалистов, где большое значение приобретают знания и уме­ния поиска информации.

Одним из основных преимуществ профессиональных баз данных перед ресурсами Интернета является обработка поступа­ющей информации, т.е. разнесение ее по рубрикам, выделение в документах сегментов, таких, как автор, заголовок, дата и т.п. На­пример, информационные ресурсы в системе LexisNexis иерархи­чески структурированы, что обеспечивает пользователю допол­нительные возможности для проведения поиска (рис. 7.1).

Вся информация, находящаяся в LexisNexis, расположена в различных библиотеках, всего 180 библиотек. Каждая библиоте­ка представляет собой коллекцию источников информации, от­носящихся к определенной тематике; например, библиотека NEWS (газеты, журналы, сообщения информационных агентств, бюллетени), библиотека COMPANY (разнообразная справочная информация о компаниях), библиотека MARKET (содержит ис­точники информации о рекламе, маркетинге, исследованиях, рынка, сбыте, состоянии мирового и регионального рынков различных товаров) и т.д., или же библиотеки формируются по географическому признаку, например, WORLD, EUROPE, ASIA и т.д.

Каждая библиотека содержит файлы. Файл является мини­мальной единицей, в которой проводится поиск. Файл содержит документы, поступающие от одного или нескольких источников информации.

Каждый документ в файле состоит из нескольких частей, ко­торые называются сегментами. Общими сегментами для всех до­кументов являются: название (сегмент HEADLINE); автор (сег­мент BYLINE); дата (сегмент DATE); текст документа (сегмент BODY). Кроме того, дополнительно в зависимости от тематики документа выделяются сегменты "компания" (куда заносятся на­именования всех компаний, упоминавшихся в документе); про­дукт (название продуктов или услуг, о которых идет речь в доку­менте); регион; персонал и т.д. В зависимости от типа докумен­та — статья в газете, маркетинговый отчет, судебное дело, биогра­фия известного человека — будет меняться набор сегментов, из которых состоит документ, и названия сегментов.

Поисковые инструменты информационных систем могут иметь как общие черты, так и существенные различия. В некото­рых видах систем удобство инструментов для работы с массивами документов является основным конкурентным преимуществом. Например, на российском рынке правовой информации производители справочно-правовых систем борются за потребителя путем совершенствования интерфейса и поисковых инструмен­тов своих систем.

Поиск информации является важной составляющей работы с информационными ресурсами и занимает значительное время работы пользователя с системой. Для повышения эффективнос­ти процесса поиска и сокращения затрачиваемого на него време­ни разрабатываются различные поисковые инструменты и фор­мы предоставления информации. Файлы могут быть либо фак­тографические, либо документальные.

Выполнение информационного поиска возможно либо по тексту (полнотекстовый поиск), либо при помощи каталога. При полнотекстовом поиске отыскиваются слова в тексте доку­мента либо в его сегменте, например, в заголовках статей и ре­фератах, перебирая все варианты написания и синонимы. В не­которых системах поисковая программа позволяет вводить на­бор слов и учитывает некоторые формы слова, например множественное число.

Каталог в информационной системе — это оглавление фай­лов, составленное по тематическому или региональному призна­ку, имеющее иерархическую структуру.

Полнотекстовый поиск и поиск при помощи каталога не яв­ляются взаимоисключающими, напротив, наиболее эффектив­ные стратегии поиска получаются при их комбинации.

Несмотря на разнообразие поисковых инструментов, процесс поиска информации можно разбить на четыре этапа.

  • Формулировка задачи. Цель этого этапа состоит в четком оп­ределении информационной потребности. Информационной потребностью может быть определенный документ, например за­кон или публикация, конкретная информация или информация, посвященная определенному кругу вопросов. Исходя из форму­лировки потребности, можно выбрать наиболее подходящие ме­тоды поиска, подобрать ключевые слова, которые могут встре­чаться в искомых документах.

  • Выбор информационного ресурса. После формулировки ин­формационной задачи необходимо выбрать информационный ресурс, который может содержать неполную информацию. Вы­бор информационного ресурса ограничивается возможностями получения доступа.

  • Построение запроса. После того как информационная зада­ча строго сформулирована и выбран информационный ресурс, необходимо составить поисковый запрос.

Для документальной информационной системы может быть предложена следующая последовательность действий:

  1. выбрать соответствующую тематическую рубрику (как пра­вило, в базах данных информация разнесена по рубрикам);

  2. разбить вопрос на понятия, которые следует искать отдель­но, а затем объединить их соответствующими логическими опе­раторами (and, or, not), если в системе поиска предусмотрены бу­левы операции.

Практически во всех информационных системах существует свой язык построения поисковых запросов для проведения Поис­ка слов и выражений по тексту документа. Общими элементами этих языков является булева логика, разработанная английским математиком Джорджем Булем (1815—1864). Булева логика ис­пользуется тогда, когда поисковый запрос содержит более одного понятия. В этом случае можно применить операции: "И" (AND - требует наличия всех терминов, в результате уменьшает число найденных документов), "ИЛИ" (ОК — требует наличия в доку­менте хотя бы одного понятия, в результате увеличивает число документов), "НЕ" (NOT — требует отсутствия термина, в резуль­тате уменьшает число найденных документов);

  • учесть все варианты написания слов и синонимы при поис­ке произвольного текста. Необходимо использовать соответству­ющие классификаторы, словари и тезаурусы, что может значи­тельно повысить эффективность запроса.

  • Оценка результатов поиска является важным этапом ин­формационного поиска. Она зависит от того, для каких целей бу­дут использованы результаты поиска.

Критерии оценки поиска:

  1. количество найденных документов;

  2. найденные источники информации;

  3. оперативность информации.

По результатам поиска, как правило, запрос корректируется. Для достижения наилучшего результата специалисты составляют несколько запросов на поиск информации. При поиске инфор­мации большое значение имеют знание специалиста инструмен­тов поиска и умение их применять. При подписке на информационную систему сотрудники фирмы, как правило, проходят обуче­ние работе с этой системой.

Таким образом, информационный поиск представляет собой упорядоченную последовательность действий, для того чтобы отыскать необходимую информацию. Особое внимание следует уделить вопросам минимизации стоимости получаемой инфор­мации от источников. В ряде случаев поиск информации произ­водится в рамках выделенной для этого суммы. Работая с мета­информацией, возможно предварительно оценить стоимость не­обходимой информации. Высокая квалификация пользователя и умение работать на предварительном этапе с документацией рез­ко снижают общую стоимость информации, необходимой поль­зователю.