Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Информационное обеспечение государственного управления - Никитов В. А

..pdf
Скачиваний:
203
Добавлен:
24.05.2014
Размер:
14.79 Mб
Скачать

поиск начинается с набора URL-адресов, определяемых ря­ дом правил, а затем продолжается рекурсивно;

пространство Web-сервера подразделяется на основе соответ­ ствующего классификатора, а полное исследование разделов вы­ полняется программой-агентом.

Технологические процессы обработки текстов

Индексирование представляет собой процесс описания содер­ жания документов и запросов в терминах информационно-по­ искового языка, то есть речь идет о выделении в документах набора ключевых слов, отражающих его смысловое содержание. На его эффективность влияют два важных параметра — полнота и точность индексирования. Первая указывает, в какой степени тематика документа распознается системой индексирования. Если она обеспечивает хорошую полноту, это означает, что генерируется большое число терминов, отражающих все аспекты тематики документа. Второй параметр характеризует специфич­ ность терминов и определяет, насколько широк спектр охватыва­ емых ими понятий. Поиск по более общим ("широким") тер­ минам дает большое число полезных документов наряду со значительным количеством нерелевантной информации. Это обеспечивает более высокую полноту поиска за счет потери точности.

Индексирование может вьшолняться вручную или автомати­ чески. Значительный объем информации в Web-сервере ИКЦ и разнообразие ее тематики делают первый вариант практически неприемлемым. Автоматическое же индексирование не требует наличия строго контролируемых словарей и потенциально спо­ собно отразить больше различных аспектов документа.

Автоматическое соотнесение содержательных терминов и до­ кументов может основываться на:

простых, однословных терминах; многословных составных терминах (словосочетаниях);

статистических теоретико-информационных, вероятностных методах.

Индексирование по простым терминам

Под множеством терминов документа понимают набор встречаюпщхся в нем слов и связанных с ними частотных харак­ теристик. Слова, вьшолняющие чисто грамматическую функцию, заносятся в так называемые списки исключения и удаляются.

290

кроме того, термины можно "очистить", выделяя основы слов и удаляя суффиксы.

Подходы, на основе которых присваивается весовой коэф­ фициент^ однословным терминам, можно отнести к одной из следующих категорий: статистической, теоретико-информацион­ ной и вероятностной. Если в первых двух достаточно только характеристики самих документов, то вероятностный подход для определения релевантности документа требует диалога с поль­ зователем.

Индексирование по составным терминам или фразам

Простые, однословные термины далеко не идеальны для ин­ дексирования, поскольку смысл слов вне контекста нередко бы­ вает неоднозначным. Термины-фразы более осмысленны, обла­ дают большей дискриминирующей мощью. Для повышения точ­ ности используется так называемый механизм генерации фразы, а для улучшения полноты поиска применяется генерация теза­ уруса/группы.

Для генерации групп взаимосвязанных слов по замеченным закономерностям совместного их вхождения в документы приме­ няется метод группирования или кластеризации терминов. Если представить матрицу терминов-документов в виде двухмерного массива, то вышеупомянутый метод сравнивает друг с другом столбцы матрицы и делает заключение о том, входит ли та или иная группа терминов в несколько документов совокупности. Если таковое имеет место, то термины считаются связанными и группируются в один класс.

Методы автоматической генерации сложных индексных тер­ минов или фраз делятся на статистические, вероятностные и лин­ гвистические.

Термин-фраза состоит из основы фразы (обычно это ее глав­ ная часть) и остальных компонентов. Термин с частотой вхожде­ ния в документы, превышающей установленный порог, отмечает­ ся как основа фразы. Другими компонентами фразы должны быть термины со средней или низкой частотой вхождения. При этом учитывается их связь с основой фразы, например размеще­ ние их в одном предложении или на некотором заданном рассто­ янии друг от друга.

Вероятностные методы предусматривают генерацию состав­ ных терминов индекса на основе информации о зависимости

^Весовой коэффициент — число из некоторого ряда чисел, присваиваемое данному в зависимости от его значимости, важности.

291

терминов. Поскольку для этого требуется рассмотреть экспонен­ циальное^ число комбинаций терминов, оценивая для каждой вероятности присутствия в релевантных^ и нерелевантных до­ кументах, то на практике учитываются только отдельные пары зависимых терминов. Теоретически такие зависимости могут ме­ няться от пользователя к пользователю.

Выявленные в статистическом и вероятностном подходах совместно встречающиеся термины не обязательно связаны се­ мантически. Таким образом, указанные методы далеко не всегда позволяют получить высококачественные единицы индексиро­ вания.

Лингвистические методы основаны на присваивании терми­ нам индикаторов синтаксических классов, таких, как прилага­ тельное, существительное или глагол, учет которых позволяет повысить качество статических методов. В этом случае формиро­ вание фраз ограничивается предложениями с заданными синтак­ сическими индикаторами (например, существительное-существи­ тельное или прилагательное-существительное). Для идентифика­ ции синтаксических единиц вполне применим простой процесс синтаксического анализа. Элементы фраз выбираются впослед­ ствии обычно в рамках той же синтаксической единицы.

Данные методы генерации взаимосвязанных терминов, как правило, требуют электронного словаря. Иногда предлагается генерировать взаимосвязи терминов с учетом обратной связи с пользователем. Хотя сегодня и разработаны различные методы автоматического построения тезауруса, их эффективность вне пределов той специальной среды, где они сгенерированы, все еще остается низкой.

Статистические методы

Индексированием на основе частоты термина достигается лишь одна из целей — полнота поиска. Между тем сконцент­ рированные в отдельных документах совокупности терминов можно использовать для повьппения точности поиска, отделяя документы, где такие термины встречаются, от тех, где их нет.

Еще один статистический метод индексирования основывает­ ся на дискриминации по термину. Здесь каждый документ рас­ сматривается как точка в пространстве документов: чем больше сходства у множеств терминов двух документов, тем ближе

^Экспоненциаль — от ехропепе — выставлять напоказ.

^Документ, смысловое содержание которого соответствует запросу пользова-

292

расположены соответствующие точки (иными словами, повыша­ ется плотность точек в пространстве документов), и наоборот.

В рамках данной схемы можно оценивать качество термина как дискриминатора документа, основываясь на том, какие изме­ нения произойдут в пространстве документов после введения термина в индекс. Для количественной их оценки удобно исполь­ зовать увеличение или уменьшение расстояния между документа­ ми. Термин является хорошим дискриминатором, если его введе­ ние увеличивает среднее расстояние между документами. Други­ ми словами, хорошие дискриминирующие качества снижают плотность в пространстве документов. Дискриминирующая ха­ рактеристика термина вычисляется как разность между плотнос­ тями пространства документов до и после введения термина. Оказалось, что часто встречающиеся термины имеют отрица­ тельные значения дискриминирующих характеристик, термины со средней частотой — положительные, а для редко встреча­ ющихся терминов эти значения близки к нулю.

Теоретико-информационные методы

Как известно из теории информации, наименее предсказуемый термин, вероятность вхождения которого в документ минималь­ на, имеет наибольшую информационную ценность. Для вычисле­ ния специальной характеристики (так называемого отношения сигнал/шум), используемой при оценке полезности термина для индексирования, применяются концепции теории информации. Здесь предпочтение отдается терминам, сконцентрированным в отдельных документах. Таким образом, по основным свойст­ вам этот подход аналогичен тем, при которых используется оценка частотных характеристик документов для каждого тер­ мина.

Вероятностные методы

Вероятностные подходы требуют наличия "обучающего мно­ жества" документов, которое можно получить с помопдью оп­ роса пользователей, позволяющего делать заключения о релеван­ тности результатов обработки запроса. Обучающее множество применяется для вычисления весовых коэффициентов, получа­ емых путем оценки условий вероятности вхождения термина в данный документ в случае его релевантности (или нерелевант­ ности). Исходя из этого и используя теорему Байеса, рассчитыва­ ют вес термина. Положительное его значение показывает, что

293

вхождение термина в документ свидетельствует в пользу релеван­ тности документа запросу, а отрицательный вес говорит об обратном.

Морфологический анализ текстов

Такой анализ служит для того, чтобы определить морфологи­ ческую принадлежность слов и привести их к нормальной форме (именительному падежу, инфинитиву). Это нужно как на этапе индексирования текстов, чтобы различные формы одного и того же слова считались одним и тем же словом, так и для поиска, чтобы пользователь мог вводить в запрос слова в любой, а не только словарной форме (например, просто фразу на естествен­ ном языке).

Программы морфологического анализа принимают на вход словоформу, отсекают все возможные окончания (по таблицам окончаний), проверяют, содержатся ли полученные начальные части в словаре как основы, и если да, то допустимы ли подобные окончания и какие грамматические признаки они оп­ ределяют. Если есть допустимые варианты, модуль возвращает идентификаторы слов, формой которых может являться данная словоформа.

Гипертекстовые базы данных

Базы данных по-разному строятся для двух типов гипертек­ ста: того, в котором связь — это отсылка от выделенной части текста, и того, в котором связи носят межзвуковой характер.

Основные элементы гипертекстовой базы данных ИКС — уз­ лы, это порции информации не обязательно чисто текстовой (вербальной), а таблицы, диаграммы, рисунки и фотографии, видеоклипы. В базе данных могут быть узлы, носящие характер комментария или библиографической справки по отношению к основным узлам. Каждый из них вызывается из основного узла, является в определенном смысле его частью, но автономной, отделенной от него.

Внутри узла также могут быть достаточно автономные части, с которыми возможно оперировать как с самостоятельными элементами. Например, оглавление, глава или параграф текста могут находиться в отдельном фрагменте и вызываться на экран только по желанию пользователя.

Узел может иметь версии, то есть варианты содержащегося в них текста. Узел в целом рассматривается по отноп1ению к ним

294

как некоторый семантический инвариант, исходя из которого и устанавливаются его связи с другими узлами.

Узлы имеют различного рода атрибуты, характеризующие семантику (например, ключевые слова, фразы), логическую роль содержимого узла в гипертексте ("аргумент", "факт" и т. п.), время ввода информации, личные пометки пользователя. Сюда могут быть отнесены и структурные характеристики узла, напри­ мер число связей.

Есть свои атрибуты и у связей, характеризующие прежде всего их основание и тип (прямая ссылка, тематическая близость, смысловая смежность), а также более конкретные отношения между узлами (родовидовые, причинно-следственные и т. п.).

Операции над элементами гипертекстовых баз данных

Нужно прежде всего отметить операции прямого манипулиро­ вания элементами базы (вызов на экран окна, в котором можно читать содержимое узла или записывать новый текст: перемеще­ ние окон по экрану, изменение их формы и размера и т. п.). Такой же характер носит навигация от узла к узлу — вызов смежного узла. Кроме того, гипертекстовая база данных ИКС должна обеспечивать поиск узлов по любому набору атрибутов. Наконец, возможны приложения, для которых необходима автоматическая навигация в гипертексте, то есть построение цепочек узлов по определенным критериям. Цепочки (наборы) узлов, созданные прямой манипуляцией пользователя или автоматически, могут стать самостоятельными элементами базы данных и подвергать­ ся последующим операциям как целостные образования.

Поиск элементов гипертекста по ключевым словам

Одно из главных достоинств хранения текста в компьютерной памяти заключается в возможности отыскивать в текстах оп­ ределенные слова и выражения, а также сами тексты и их фраг­ менты по этим словам и по приписанным к текстам дескрип­ торам^. Такого рода процедуры, естественно, можно осущест-

^ Дескриптор — словарная единица информационно-поискового языка, выра­ женная словом, словосочетанием или кодом и являющаяся именем класса услов­ ной эквивалентности, в который включены эквивалентные или близкие по смыслу слова.

295

влять и по отношению к тем электронным текстам, которые являются элементами гипертекста. Практически все гипертексто­ вые системы обеспечивают поиск текстовых фрагментов по клю­ чевым словам, которые вместе с дескрипторами рассматривают­ ся как неявные ссылки. Фрагменты с общими ключевыми слова­ ми считаются семантически связанными.

Технология создания больших гипертекстов

Установление связей в гипертексте требует больших умствен­ ных затрат. С ростом гипертекстовой системы эффективно под­ держивать процесс установления связей — автоматически или вручную — становится весьма трудоемким.

С увеличением размера гипербазы возникают следующие про­ блемы:

1.Неполнота связей. Индексаторы не замечают важные связи

ине могут предвидеть их потребности в будущем.

2.Излишняя полнота связей, которая создается на чересчур детальном или всеохватном уровне рассмотрения; сюда относит­ ся также случай, когда на узел приходится слишком большое число связей.

3.Непоследовательность в установлении связей,

4.Амбивалентность связей. Никто не помнит, почему та или иная связь установлена.

5. Устаревание связей. По мере того как система растет и меняется, некоторые связи и словоупотребления утрачивают свою значимость.

Для уменьшения трудоемкости и повышения качества уста­ новления связей в больших гипертекстовых базах данных ИКС рекомендуется ряд методов и средств, в частности:

Индексирование гипербазы в целом

При формировании больших гипертекстовых баз данных при­ меняется технология поиска "кандидатов на связь", то есть для каждого вновь вводимого узла ищутся те из уже имеющихся в базе данных, с которыми его возможно связать по семантичес­ ким соображениям. При этом обычно используются ключевые слова, выделяемые из текстов. Указание ключевых слов, прово­ димое вручную, не только весьма трудоемкое дело, но возможны и большие вариации качества индексирования.

Автоматическое индексирование

Оно, как правило, осуществляется на основе лингвистического

— морфологического и синтаксического — анализа текста. Уста­ новлено, что более высокие результаты в этом варианте достига­ ются при настройке на частную предметную область.

296

Автоматическое установление связей в гипертексте

Будущее гипертекста в значительной степени связано с раз­ витием методов автоматического установления смысловых свя­ зей. Применяемые в настоящее время методы весьма примитив­ ны и по большей части основываются на принятии некоторого порога обпщх ключевых слов у фрагментов гипертекста.

4.6. Система информационной безопасности ИТКС

Для обеспечения безопасности ИТКС требуется набор меро­ приятий, методов и технологий, относящийся ко всем аспектам ее работы и призванный стать стержнем обеспечения защиты системы в целом.

Формулируя понятие "информационная безопасность", следу­ ет сказать, что это такое качество информационных систем, при котором риск соответствующих угроз уменьшается до прием­ лемого уровня путем применения необходимых мероприятий. Она базируется на архитектуре системы безопасности, которая полностью определяет требования, правила и реализацию общей системы безопасности в ИТКС.

Проблема защиты информации должна рассматриваться в двух плоскостях:

включение в интегральную программно-техническую среду таких логических функций контроля и средств защиты, реализа­ ция которых значительно затрудняет возможность прочтения, искажения или разрушения (частичного или полного) информа­ ции в нарушение сформулированных правил и условий доступа;

физическая реализация конфигурации конкретных техничес­ ких средств в конкретных условиях проектируемых объектов размещения этих средств, исключающая утечку информации по каналам побочных электромагнитных излучений и наводок.

Использование импортных аппаратных и программных средств влечет за собой необходимость специальных лаборатор­ ных проверок технических средств и сертификации программного обеспечения.

Защита информации в ИТКС должна обеспечивать единое криптографическое пространство, основываться на положедиях и требованиях существующих государственных законов, стан­ дартов, нормативно-методических документов, международных рекомендаций по безопасности информационных технологий ISO 7498-2. Х.800 и реализовываться в виде единого комплекса средств защиты информации и единых ключевых систем, для которых производство и управление ключами организуется ФАПСИ.

297

при этом конкретная реализация системы защиты инфор­ мации от несанкционированного доступа должна разрабатывать­ ся на основе топологической и информационной структуры ИТКС, характера отображаемой информации, порядка инфо­ рмационного взаимодействия компонентов системы, модели дей­ ствий злоумышленника по отношению к ней, доступа к ин­ формации пользователей и других конкретных условий функ­ ционирования.

К основным задачам системы безопасности ИТКС относятся:

защита распределенных информационных ресурсов, целост­ ности и подлинности информации;

защита информации в сетях и каналах связи, а также от утечки по техническим каналам;

поддержка доверенной общесистемной программной среды. Подсистема защиты информации базируется на программно-

технических средствах защиты информации и ресурсов системы и мерах организационной поддержки администрирования и ре­ жимных мероприятиях на объекте.

Система защиты информации в ИТКС долэн:на гарантировать:

возможность обработки, передачи и хранения несекретной, конфиденциальной информации и информации, содержащей све­ дения, составляющие государственную тайну;

контроль доступа к информационным ресурсам ИТКС в соот­ ветствии с реализуемой политикой безопасности;

необходимую степень запщты программно-аппаратных средств (в том числе средств управления ИТКС) от информаци­ онного оружия аппаратных средств и каналов связи ИТКС от побочных излучений;

необходимую степень закрытости информации и алгоритмов ее обработки;

целостность и достоверность информации и программного обеспечения;

доступность информации и средств ее обработки в рамках полномочий пользователя;

соответствие средств безопасности действующему законода­ тельству;

возможность взаимодействия разнокатегорийных систем ИТКС и "сотрудничающих" с ней других открытых систем.

Услуги по обеспечению информационной безопасности

Под информационной безопасностью понимается защита ин­ формационных ресурсов ИТКС, целостности и подлинности ин­ формации и используемых средств ее обработки от несанкци-

298

онированного доступа или разрушения. Она имеет колоссальное значение, так как непреднамеренное или преднамеренное искаже­ ние информационных ресурсов, несанкционированный доступ к защищаемой информации может вызвать резкое обострение политической, социально-экономической, оборонной ситуации, нанести непоправимый ущерб национальным интересам.

В ИТКС предусматриваются следующие услуги по информаци­ онной безопасности:

возможность обработки, хранения и передачи совершенно секретной, секретной и несекретной, конфиденциальной инфор­ мации;

защита информации в каналах связи и при ее хранении (обес­ печение конфиденциальности информации);

обеспечение целостности и подлинности передаваемой и хра­ нимой информации;

аутентификация сторон при обмене информацией; управление доступом к ресурсам, оборудованию, данным

с учетом проведенной политики безопасности; защита от отказов со стороны отправителя или получателя

информации; возможность доказательства неправомочности действий

пользователей и обслуживающего персонала; живучесть в случае частичной компрометации ключевой инфор­

мации при использовании криптографических методов защиты.

Фувосции системы обеспечения информационной безопасности

Система информационной безопасности ИТКС призвана обес­ печить:

управление доступом (защита от несанкционированного ис­ пользования информационных ресурсов ИТКС);

аутентификацию источника сообщений (отправитель получает возможность аутентифицироваться у получателя как источник сообщения, а также у любого устройства передачи сообщений, через которое они проходят);

конфиденциальность содержания (уверенность отправителя, что никто не прочитает сообщения, кроме определенного получа­ теля);

целостность содержания (позволяет получателю убедиться, что содержание сообщения не модифицировано);

целостность последовательности сообщений (позволяет полу­ чателю убедиться в том, что последовательность сообщений не изменена);

299

Соседние файлы в предмете Экономика