
- •1)Основные процессы преобразования информации
- •2)Информационная деятельность как атрибут основной деятельности
- •3)Основные понятия информатики
- •4)Информационный обмен
- •5)Система информационного обмена
- •6) Сети информационного обмена
- •7) Определение, задачи и функции информационных систем
- •8) Состав, основные элементы, порядок функционирования ис
- •9) Структура ис. Типы обеспечивающих подсистем
- •10) Классификация информационных систем
- •10А) Классификация информационных систем по степени автоматизации
- •10Б) Классификация ис по масштабу
- •10Г) Классификация информационных систем по сфере применения
- •10Д) Классификация информационных систем по признаку структурированности решаемых задач
- •10Е) Классификация ис по функциональному признаку
- •10Ж) Классификация ис по уровням управления
- •Информационные системы тактического уровня (среднее звено)
- •10З) Классификация информационных систем по возможности нахождения однозначного решения
- •11) Документальные информационные системы
- •12) Программные средства реализации документальных ис
- •13) Фактографические информационные системы
- •14) Предметная область ис
- •15) Представление данных с помощью модели "сущность–связь". Назначение и элементы модели
- •Выделим интересующие нас сущности и связи:
- •17) Концептуальные и физические er–модели. Модели данных
- •18) Модель данных
- •19) Представление данных в памяти эвм
- •20) Программные средства реализации фактографических ис
11) Документальные информационные системы
Документальные системы служат для работы с документами, в которых информация хранится в виде текстовых документов (статьи, книги, рефераты, тексты законов), графических объектов и снабженная тем или иным формализованным аппаратом поиска. Цель системы, как правило, – выдать в ответ на запрос пользователя список документов или объектов, в какой-то мере удовлетворяющих сформулированным в запросе условиям.
Потребности в системах, ориентированных на накопление и эффективную обработку неструктурированной или слабоструктурированной информации привели к возникновению еще в 70-х годах ХХ века отдельной ветви программного обеспечения, на основе которой и создаются документальные информационные системы.
Однако теоретические исследования вопросов автоматизированного информационного поиска документов, начавшись еще в 50-60-х годах, к сожалению, не получили такой строгой, полной и в то же время технически реализуемой модели представления и обработки данных, как реляционная модель в фактографических системах. Не получили также стандартизации (как язык SQL) и многочисленные попытки создания универсальных информационно-поисковых языков, предназначенных для формализованного описания смыслового содержания документов и запросов по ним. В итоге, несмотря на то, что первые системы автоматизированного информационного поиска документов появились еще в 60-х годах, развитые коммерческие информационно-поисковые системы, ориентированные на накопление и обработку текстовых документов, получили распространение лишь в конце 80-х, начале 90-х годов.
Поиск информации (данных) осуществляется и в фактографических ИС. Таким образом, термин ИПС определяет функциональное назначение ИС, но не отражает специфики представления и обработки данных.
Специфика документальных ИПС заключается в том, что они удовлетворяют информационные потребности пользователя, предоставляя ему документы, в которых содержится интересующая пользователя информация.
В зависимости от особенностей реализации хранилища документов и механизмов поиска документальные ИПС можно разделить на две группы:
• семантически-навигационные системы.
• системы на основе индексирования;
В семантически-навигационных системах документы, помещаемые в хранилище (в базу) документов, оснащаются специальными навигационными конструкциями, соответствующими смысловым связям (отсылкам) между различными документами или отдельными фрагментами одного документа. Такие конструкции реализуют некоторую семантическую (смысловую) сеть в базе документов. Способ и механизм выражения информационных потребностей в подобных системах заключаются в явной навигации пользователя по смысловым отсылкам между документами. В настоящее время такой подход реализуется в гипертекстовых ИПС.
В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса-координаты в поисковом пространстве
Под индексированием понимается процесс, состоящий из двух этапов:
определение тем, которые отражаются в данном документе;
выражение этих тем на языке, принятом в информационно-поисковой системе, и запись в виде поисковых образов, которые связываются с документом.
Формализованное представление (описание) индекса документа называется поисковым образом документа (ПОД).
Для того чтобы при помощи ИПС можно было отыскать документы, соответствующие некоторому информационному запросу, сам запрос также должен быть проиндексирован. Процесс поиска осуществляется путем сопоставления поисковых образов документов с поисковым образом запроса. При полном или частичном совпадении образов документ считается соответствующим запросу и выдается пользователю.
Пользователь выражает свои информационные потребности средствами и языком поискового пространства, формируя поисковый образ запроса (ПОЗ) к базе документов. Система на основе определенных критериев и способов ищет документы, поисковые образы которых соответствуют или близки поисковым образам запроса пользователя, и выдает соответствующие документы.. Схематично общий принцип устройства и функционирования документальных ИПС на основе индексирования иллюстрируется на рис. 6.1.
Рис. 6.1. Общий принцип устройства и функционирования документальных ИПС на основе индексирования
Соответствие текста (документа, фактографической записи) фактической информационной потребности называется пертинентностью. Соответствие найденных документов запросу пользователя называется релевантностью. При поиске различают смысловую и формальную релевантность.
Смысловая релевантность определяется смысловым соответствием текстов, формальная – соответствием поисковых признаков. В связи с этим различают критерий смыслового соответствия и критерий формального соответствия. Первый устанавливает смысловое соответствие между сведениями, содержащимися в документе и запросе, второй определяет совокупность признаков, согласно которым ИПС осуществляет формальный отбор документов в результате сравнения поисковых образов документов и запросов.
Смысловая релевантность, понимаемая как смысловое соответствие содержания выданного документа информационному запросу, может быть установлена человеком в процессе осмысления содержания документа и запроса.
Документальные системы различаются между собой по многим признакам, но при решении задач сбора, хранения и выдачи информации все они должны выполнять следующие операции:
анализ важности документов и их отбор;
создание поискового образа документов (ПОД);
запись документов и поисковых образов документов на принятые в ИПС носители;
хранение документов и их поисковых образов;
выдачу документов потребителям.
Документальные системы с известной степенью условности можно классифицировать по следующим основным аспектам:
роду выполняемых функций;
режиму поиска;
типу информационно-поискового языка (ИПЯ);
типу критерия соответствия (КрС);
степени автоматизации.
Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания документов в виде поискового запроса (ПОЗ) и поисковых образов документов (ПОД). В процессе информационного поиска определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД и ПОЗ. Решение о выдаче или не выдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данная ИПС определяет степень смысловой близости между ПОД и ПОЗ. Такой набор правил получил название критерия смыслового соответствия (КСС). Критерий может быть задан явно или неявно и базируется на понятии формальной релевантности ПОД и ПОЗ.
Элементами ИПС являются:
Массивы документов, выступающие в качестве объекта поиска
Информационно – поисковый язык (ИПЯ). Это искусственный язык предназначенный для описания содержания и формы документов и запросов для осуществления поиска.
Правила индексирования, следуя которым осуществляется описание средствами ИПЯ документов и запросов.
Правила поиска документов, соответствующих запросов, которые задаются в виде критерия соответствия.
Технические средства, с помощью которых реализуется ИПС, т.е. осуществляется хранение и поиск информации.
Обслуживающий персонал – индексаторы и технические работники, обеспечивающие обработку и ввод в систему документов.
В состав ИПС входят четыре подсистемы: ввода и регистрации, обработки, хранения, поиска. Структура ИПС представлена на рис. 1.2.
Рис. 1.2 Структура ИПС
Текстовые документы поступают на вход. Все поступающие документы без каких либо изменений направляются в систему хранения. Система хранения представляет собой или совокупностью файлов, или специализированные средства управления базой данных. Система хранения в виде файлов имеет ряд недостатков, а именно хранимые документы неэффективно используют дисковое пространство и имеют низкую скорость доступа при большом количестве файлов. Специализированные средства представляют собой совокупность стандартных или специализированных средств архивации и СУБД, обеспечивающих возможность доступа к данным по предъявляемому идентификатору.
Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа поисковых образов документа, в который заносится информация, необходимая для последующего поиска документа.
Поисковые образы всех документов сохраняются в индексе. Он представляет собой таблицу, строки которой соответствуют документам, а столбцы – информационным признакам, на основе которых строится ПОД. В ячейках таблицы хранятся единицы и нули в зависимости от наличия или отсутствия данного признака в данном документе.
Очевидно, что такая таблица сильно разряжена, и хранить в ней все ее значения не имеет смысла, поэтому используют свертку таких таблиц. Форма хранения таблицы без свертки называется прямой, со сверткой – инверсной. При свертке таблицы структура индекса значительно усложняется, для его поддержания используются средства СУБД.
Запрос пользователя преобразуется в код поискового образа запроса и передается в подсистему поиска, которая осуществляет выдачу пользователю документов. Найденные документы признаются системой формально релевантными.
Принципиальной особенностью документальной системы является ее способность, с одной стороны, выдавать ненужные пользователю документы (например, где “энтропия” употреблена в ином смысле, чем предполагалось), а с другой – не выдавать нужные (например, если автор употребил какой-то синоним или ошибся в написании).
Критерии оценки документальной информационной системы
В качестве оценок документальной ИС можно использовать следующие количественные оценки:
быстродействие документальной ИС – интервал времени между моментом формулировки запроса и получением ответа на него;
пропускная способность – оценивается количеством вводимых документов и количеством ответов в единицу времени при заданных значениях коэффициента полноты и точности;
производительность – оценивается количеством пользователей системы и частотой обращения с их стороны;
надежность работы – оценивается вероятность того, что система будет выполнять свои функции при заданных условиях в течение требуемого времени.