Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Голицына Информационные системы 2004.pdf
Скачиваний:
323
Добавлен:
16.08.2013
Размер:
5.01 Mб
Скачать

Такая схема передачи знаний соответствует случаю параинформирования, когда образ знания Z1 будет получен не передачей по кодовой цепи (она реально отсутствует, так как нет носителя соответствующего уровню сознания), а будет восстановлен или вновь построен на основе образа Z2 и наличного знания приемника Z0.

С точки зрения представленного ранее рассмотрения информационных компонент в системах управления, можно сказать, что кодовые преобразования инвариантны относительно внешней среды, в то время как информационные – значимы.

2.3. Информационные технологии

Согласно определению, принятому в [Колин1995], информационная технология - это представленное в проектной форме (формализованном виде, пригодном для практического использования) концентрированное выражение научных знаний и практического опыта, позволяющее рациональным образом организовать тот или иной достаточно часто повторяющийся информационный процесс. При этом достигается экономия затрат труда, энергии людских и материальных ресурсов, необходимых для реализации данного процесса.

Информационные технологии позволяют оптимизировать разнообразные информационные процессы, начиная от подготовки и издания печатной продукции и кончая информационным моделированием и прогнозированием глобальных процессов развития природы и общества.

В рамках класса задач, характерных для информационных систем,

технологией обработки информации будем называть упорядоченную последовательность взаимосвязанных действий, выполняемых с момента восприятия информации до момента получения заданных результатов.

Технология обработки информации зависит от характера решаемых задач, используемых средств вычислительной техники, числа пользователей, систем контроля за процессом обработки информации и т.д. Технология, как некоторый процесс, всегда присутствует в любой предметной области, особенности которой, в свою очередь, оказывают существенное влияние на функции соответствующих технологий. Информационные технологии ориентированы на решение технических, экономических и управленческих задач, связанных с выполнением операций по сбору необходимой для решения этих задач информации, переработки ее по некоторым алгоритмам и выдачи результата лицу, принимающему решение, в удобной для него форме.

Обработка информации происходит в процессе реализации технологического процесса, определяемого предметной областью.

Информационные технологии, в отличие от производственных (как следствие свойств самого объекта – информации), обладают рядом

60

относительно специфических функций, таких как: сбор, регистрация, хранение, поиск, накопление, генерация, анализ, передача и распространение данных, информации и знаний. Информационная технология направлена на обработку и/или переработку “сырья” (в качестве которого выступают данные, информация) путем использования соответствующих “машин”, “механизмов” и “организационно-технологических приемов” (в качестве которых выступают аппаратные, программные, а также организационнометодические средства).

Таким образом, информационную технологию (ИТ) можно определить как систему методов, способов и средств сбора, регистрации, хранения, поиска, накопления, обработки, генерации, анализа, передачи

ираспространения данных, информации и знаний на основе применения средств вычислительной техники, программных средств и телекоммуникаций.

Сбор данных (информации) представляет собой процесс регистрации, фиксации, записи данных о событиях, объектах (реальных

иабстрактных), связях, признаках и соответствующих действиях. При этом иногда выделяют в отдельные операции "сбор данных" и "сбор информации". Здесь сбор информации - это процесс идентификации и получения данных от различных источников, группирования полученных данных и представления их в форме, необходимой для ввода в ЭВМ.

Обработка данных включает в себя несколько взаимосвязанных операций, таких, как поиск, выборка, сортировка, слияние, проведение расчетов и т.д. Обработка данных представляет собой процесс управления данными, по возможности без учета смысла, заложенного в данные.

Обработка информации представляет собой переработку данных, отражающих информацию определенного типа (текстовой, цифровой, графической и др.) в процессе преобразования ее в информацию другого типа. Причем, зачастую и тип данных (как форма существования информации) определяется характером содержания, т.е., обработка информации – это преобразование данных с учетом их содержания.

Таким образом, говоря о технологии как процессе преобразования объектов (т.е., представленных в материальной форме), необходимо определить адекватный способ их идентификации. Это необходимо для их поиска - «узнавания» и выделения из множества других объектов окружающей среды.

Однако, с точки зрения рассмотренных в первой главе свойств информации, идентификация информации как объекта имеет двойственную природу: информация идентифицируется как целостный (неделимый) объект, имеющий как форму существования, так и

содержание.

61

Это предполагает, что содержание представлено в форме композиции некоторых «атомарных» единиц информации. Например, текст, состоящий из слов.

Забегая вперед, отметим, что именно форма существования «единичного» неявно предопределяет разделение информационных систем (а точнее – баз данных, составляющих основу ИС) на фактографические и документальные. Для первых «факт» - это самодостаточная единица информации, не теряющая смысл вне других фактов обрабатываемой коллекции. Для документальных систем значение слова как семантически значимой единицы, будет однозначно восприниматься только в контексте - в единстве с другими словами.

2.4. О реализации процесса поиска информации

Для рассмотрения особенностей реализации процессов поиска информации, как одной из основных операций ИТ, отметим тот простой факт, что поиск – это процесс, в ходе которого в той или иной последовательности производится соотнесение отыскиваемого с каждым18 объектом, хранящимся в массиве. Причем, определяющими для понимания методов автоматизации поиска являются два следующих фактора: 1) сравниваются не сами объекты, а описания - так называемые «поисковые образы»; 2) сам процесс является сложным (составным и не одноактным) и обычно реализуется последовательностью операций. Первый фактор имеет коммуникативную природу, что обуславливает решение на уровне лингвистических средств. Второй – технологическую, когда оптимизация поиска может быть сведена к оптимизации структур данных и алгоритмов обработки.

Алгоритм поиска включает, по крайней мере (необходимо), следующие операции:

-выборку очередного объекта из массива для выполнения сравнения

сзапрашиваемым;

-сравнение выбранного объекта с образцом;

-принятие решения, соответствует ли объект образцу (определение степени соответствия и применение некоторого критерия для принятия решения на уровне двузначной логики «соответствует» / «не соответствует»);

-переход к выборке следующего объекта или завершение процесса

поиска.

Различают два вида поиска информации – поиск целостного объекта (единицы хранения) и поиск по содержанию (точнее, некоторой части содержания – того, что не доставало пользователю в его практической деятельности). Здесь обязательно надо отметить условность такого

18 Естественно, что процесс поиска может быть завершен и раньше, например, если какой-либо очередной выбранный из массива объект будет полностью удовлетворять потребности, инициировавшей необходимость проведения самого поиска.

62

деления. Определяющим (классификационным) признаком в этом случае является скорее не природа сравниваемых объектов, а то, что будет результатом процесса поиска в целом – документ (машинная запись как операционная единица в последующих процессах) или конкретная информация (которая будет сразу использована человеком, но, которая, естественно, представляет часть документа)19.

С точки зрения организации процедуры отбора этому соответствует два способа соотнесения затребованного с имеющимся в информационном массиве: 1) путем сопоставления запроса непосредственно с содержанием объекта, выбранного для сравнения; 2) опосредованно, когда запрос сопоставляется с образом, производным (вторичным) по отношению к самому объекту. С точки зрения представленного выше алгоритма разница между этими способами состоит в том, объект какой природы будет выбираться в цикле для сравнения – непосредственное содержание или некоторый идентификатор, отражающий содержание отчасти или в целом. Неявным, но, с точки зрения реализации алгоритма поиска – основным фактором здесь является форма (способ), определяющая порядок выборки: от порядка расположения объектов в массиве (например, в том «естественном» порядке, в каком они поступали для хранения), или в «искусственном» порядке, соответствующем, например, классификации предметной области. Но, поскольку и в том, и в другом случае мы имеем дело с перебором объектов, выбираемых из хранилища для сравнения, рациональность построения процедуры поиска будет определяться длиной перебора, что в свою очередь определяется как характеристиками хранимых объектов (в нашем примере – размерами документов), так характером запросов (в нашем примере – поиском по предмету или по шифру хранения документов). Соответственно, оптимизация процесса в первую очередь связывается с возможностью сокращения времени перебора, то есть - длины выбираемой последовательности.

Вобщем случае можно сказать, что технологии (алгоритмы) поиска основываются на двух типах организации массива объектов поиска – прямой и инвертированной. Для рассмотрения взаимосвязи алгоритма

поиска и организации массива здесь и далее используем знакомый всем пример организации и поиска информации в традиционных библиотеках20.

Вслучае прямой организации массива документы размещаются в последовательности, не связываемой с порядком какой-либо классификации или алфавита, например, в порядке их поступления в хранилище. Но здесь надо отметить, что определяющим в понятии «прямая организация» является не характер размещения документов – единиц хранения, а размещение содержания документов, которое представлено

изначальной «естественной» последовательностью слов, образующих, в

19Указанным двум видам поиска иногда ставят в соответствие способы поиска - адресный и ассоциативный поиск.

20Отметим, что выбор этого примера основывается не только на его «привычности» для человека, но и на том, что с методологической и системной точек зрения применяемые в библиотеках подходы, методы и технологии являются по существу универсальными и не зависящими от уровня автоматизации.

63

том числе, и контекст их употребления. Поиск по предмету при такой организации для больших массивов будет требовать достаточно много времени, так как для этого надо последовательно выбирать для сравнения с запросом все документы из хранилища, поскольку, не обратившись к документу, мы не можем судить о его содержании.

В инвертированном массиве документы могут быть, например, разбиты на подмножества, которые упорядочены в соответствии с некоторой классификацией и, что особенно важно, обозначены идентификаторами, отражающими предметное содержание соответствующего класса. Более того, такое упорядочение документов в хранилище сопровождается построением вспомогательной структуры –

инвертированного справочника, в котором с каждым индексом

(идентификатором класса) связан список ссылок на документы, отнесенные к этому классу.

Целесообразность использования терминов «прямая» и «инвертированная» форма представления информации становится очевидной при рассмотрении «предельного» варианта организации инвертированного справочника, в котором в качестве индексов используются все без исключения слова документов, а в ссылку на документ, содержащий данное слово, включены данные о позиции этого слова в документе (например, номер главы, параграфа, предложения, позиции в предложении).

В этом случае избыточность данных может быть уменьшена за счет отказа от прямого массива документов. Но это приведет к дополнительным затратам пространства для хранения позиционных параметров и дополнительным действиям по сборке текста документов, которые необходимо выдавать пользователю, что, соответственно потребует больше времени.

При инвертированной организации на первом шаге проводится поиск в инвертированном справочнике и, если предмет запроса отождествлен с соответствующим классом, то на втором шаге для детального соотнесения содержания документа и запроса обращение будет производиться только к сравнительно небольшому числу документов – только тем, которые отнесены к этому классу. Таким образом, за счет введения информационно избыточной структуры и дополнительного шага поиска достигается существенный выигрыш во времени: суммарное время на поиск в инвертированном справочнике существенно меньше поиска в целом массиве документов, поскольку длина индекса обычно на несколько порядков меньше длины документа, и, кроме того, индексы строго упорядочены, например, по лексико-графическому признаку.

Идентификация содержания с помощью индексов строится по принципам языковых систем (каждый индекс представляет то или иное множество характеристических признаков), что позволяет еще сократить число просматриваемых документов: в соответствии с формулой композиции признаков (что хорошо реализуется выражением алгебры логики) производится слияние относящихся к разным индексам списков

64

ссылок на документы, то есть выбираются только те документы, которые описываются именно этим сочетанием. Кроме того, для индексирования содержания отдельного документа могут быть использованы разные лингвистические системы, то есть один документ может иметь несколько поисковых образов, отражающих его содержание в различных аспектах и с разной степенью детализации.

Использование технологии индексирования (и, соответственно, инвертированных форм представления информации) тем не менее, имеет ряд следующих принципиальных недостатков:

1)индексационная информация, относящаяся к документу, статична: индексы, приписанные к документу, будут всегда иметь смысл, определенный при создании языка индексирования (например, классификации);

2)нельзя без дополнительных затрат реализовать управление глубиной поиска, а также поиск с использованием критерия «частичного» соответствия.

Тем не менее, автоматизация поиска информации основывается именно на технологии индексирования (как способа идентификации содержания) документов, поскольку документальные ИПС имеют следующие принципиально важные особенности [Солтон1979] построения и использования.

Во-первых, нужно помнить, что задачи в области документального поиска не сравнимы с другими задачами обработки текстов, такими, как автоматический перевод или поисковые процедуры типа вопрос-ответ (при которых даются прямые ответы на самые разные вопросы). Документальные ИПС создаются только для того, чтобы указать потребителю те документы, которые, скорее всего, имеют отношение к данному интересующему его вопросу. Поэтому здесь можно ограничиваться довольно грубым раскрытием содержания документа, указывающим лишь основные моменты, вместо фразеологического анализа, необходимого, например, при переводе.

Во-вторых, поисковые системы создаются для обслуживания больших и часто разнородных групп потребителей. Поскольку последние могут иметь различные потребности и цели, поисковые запросы варьируются от вопросов обзорного или познавательного характера до очень подробных аналитических запросов. При таких условиях слишком подробный анализ может оказаться излишне (или даже - неприемлемо) специализированным для большинства пользователей.

В-третьих, в основе процесса оценки лежит некоторый критерий эффективности, обычно усредняемый по многим поисковым запросам. Это означает, что более предпочтительными оказываются такие методы анализа, которые дают умеренно высокую общую эффективность, чем, может быть, более тонкие алгоритмы, которые могут превосходно обрабатывать одни запросы, но значительно хуже другие. Практически может оказаться, что для каждого вида запроса оптимальным будет

65

некоторый специфический метод анализа, но для среднего запроса наилучшими являются более простые методы индексирования.

66