
- •Информационные системы в веб-пространстве
- •Оглавление
- •Введение
- •Глава 1 Информационные системы как объект рассмотрения
- •1.1 Информационные системы: принцип организации
- •1.2 Виды информационных систем
- •Выводы к главе 1
- •Глава 2 Организация поиска в информационных системах
- •2.1 Принцип организации поиска в информационных системах
- •2.2 Сравнительный анализ различных поисковых систем
- •Выводы к главе 2
- •Заключение
- •Список источников
- •Приложения
- •Наиболее популярные поисковые системы
- •Индексные (словарные) поисковые системы
- •Классификационные (каталоговые) поисковые системы
Приложения
Приложение 1
Список терминов
Информация - это некоторые сведения, знания об объектах и процессах реального мира. Экономическая информация отображается, как правило, в виде документов. Документ - это материальный носитель информации, имеющий юридическую силу и оформленный в установленном порядке.
Наряду с термином "информация" часто используют слово "данные". Во время обработки смысл информации отодвигается на второй план, а основное внимание обращают на форму представления, в этом смысле данные - это информация, представленная в формализованном виде, который позволяет передавать или обрабатывать ее при помощи технических средств.
Система - множество элементов, находящихся в отношениях и связях друг с другом, которое образует определенную целостность, единство. Каждая система характеризуется структурой, входными и выходными потоками, целью и ограничениями, законом функционирования.
Структура - совокупность образующих систему элементов и связей между ними.
Элемент - объект, обладающий рядом важных свойств, для которого определён закон функционирования, и внутренняя структура которого не рассматривается.
Подсистема - часть системы, выделенная по определённому признаку, обладает некоторой самостоятельностью и допускает разложение на некоторые элементы.
Вид отношений между элементами, проявляющийся при взаимодействии называется связью. Различают внешние связи, то есть связи системы с окружающей средой, и внутренние связи, т. е. связи между подсистемами и элементами.
Среда - множество объектов вне данного элемента, которое может оказывать влияние на данный элемент и само находится под его воздействием.
Цель - это ситуация или область ситуаций, которую нужно достигнуть при функционировании системы за определённый промежуток времени.
Закон функционирования - описывает процесс функционирования элемента системы во времени.
Процесс - совокупность состояний системы, упорядоченных по изменению какого-либо параметра, определяющего свойства системы.
Транзакция— группа последовательных операций с базой данных, которая представляет собой логическую единицу работы с данными. Транзакция может быть выполнена либо целиком и успешно, соблюдая целостность данных и независимо от параллельно идущих других транзакций, либо не выполнена вообще и тогда она не должна произвести никакого эффекта.
Информационный процесс - совокупность последовательных действий, производимых над информацией для получения какого-либо результата (достижения цели). Принято разделять информационные процессы на общие и основные. Наиболее общими информационными процессами являются сбор, преобразование и использование информации. К основным информационным процессам относят поиск, отбор, хранение, передачу, кодирование, обработку и защиту информации.
Обычно ИС имеют дело с большими объемами информации, которая имеет достаточно сложную структуру. Классическими примерами информационных систем являются банковские системы, системы продажи билетов на транспорте и др.
ИС всегда специализируется на информации из определенной области реального мира: экономики, техники, медицины и т.д. Часть реального мира, отображаемая в ИС, называется предметной областью. К примеру, экономические ИС - это ИС, предметной областью которых является экономика, и т. п.
Любая ИС включает в себя четыре компонента: информационные средства, программные средства (обеспечение), технические средства, персонал. Информационное обеспечение реализуется в виде файловой системы или в виде базы данных. База данных (БД) - это совокупность описаний объектов предметной области и связей между ними, актуальных для конкретной предметной области.
Особенность ИС по сравнению с вычислительными системами состоит в том, что структура данных в ИС обычно сложна (а сложность определяется не столько объемом, сколько количеством взаимосвязей), а задачи по обработке данных однотипны для разных предметных областей (создание, поиск, ввод и вывод, группировка, сортировка). Поэтому все типовые функции по работе с данными были выделены в специальную систему.
Система управления базой данных (СУБД) - это комплекс программных и языковых средств создания, ведения и манипулирования данными.
Программные средства делят на две части: системное программное обеспечение (СПО) и прикладное программное обеспечение (ППО). В состав СПО входит операционная система ЭВМ (ОС). ОС настолько тесно связана с техническими средствами, что их часто объединяют и называют программно-аппаратной платформой.
Персонал - это специалисты, которые обслуживают и сопровождают ИС, их часто включают в состав системы, поскольку без персонала невозможна работа сколько-нибудь сложной системы.
Client (клиент) на этой схеме - это программа просмотра конкретного информационного ресурса. Наиболее популярны сегодня мультипротокольные программы типа Netscape Navigator. Такая программа обеспечивает просмотр документов WWW, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп новостей Usenet. В свою очередь все эти информационные ресурсы являются объектом поиска информационно-поисковой системы.
User interface (пользовательский интерфейс) - это не просто программа просмотра, в случае информационно-поисковой системы под этим словосочетанием понимают также способ общения пользователя с поисковым аппаратом: системой формирования запросов и просмотров результатов поиска.
Search engine (поисковая машина) - служит для трансляции запроса на информационно-поисковом языке (ИПЯ), в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользователю.
Index database (индекс базы данных) - индекс, который является основным массивом данных ИПС и служит для поиска адреса информационного ресурса. Архитектура индекса устроена таким образом, чтобы поиск происходил максимально быстро и при этом можно было бы оценить ценность каждого из найденных информационных ресурсов сети.
Queries (запросы пользователя) - сохраняются в его (пользователя) личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно запоминать запросы, на которые система дает хорошие ответы.
Index robot (робот-индексировщик) - служит для сканирования Internet и поддержания базы данных индекса в актуальном состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов сети.
WWW sites - это весь Internet или точнее - информационные ресурсы, просмотр которых обеспечивается программами просмотра.
Приложение 2
Таблица “Основные этапы развития ИС”
Период Времени |
Концепция использования информации |
Вид информационных систем |
Цель использования |
1950 - 1960 гг. |
Бумажный поток расчетных документов |
Информационные системы обработки расчетных документов на электромеханических бухгалтерских машинах |
Повышение скорости обработки документов Упрощение процедуры обработки счетов и расчета зарплаты |
1960 - 1970 гг. |
Основная помощь в подготовке отчетов |
Управленческие информационные системы для производственной информации |
Ускорение процесса подготовки отчетности
|
1970 - 1980 гг. |
Управленческий контроль реализации (продаж) |
Системы поддержки принятия решений Системы для высшего звена управления |
Выборка наиболее рационального решения |
1980 - 2000 гг. |
Информация - стратегический ресурс, обеспечивающий конкурентное преимущество |
Стратегические информационные системы Автоматизированные офисы |
Выживание и процветание фирмы |
Приложение 3
Таблица “Компоненты архитектуры ИС”
Обозначение |
Наименование |
Характеристика |
PS |
Presentation Services (средства представления)
|
Обеспечиваются устройствами, принимающими ввод от пользователя и отображающими то, что сообщает ему компонент логики представления PL, с использованием соответствующей программной поддержки |
PL |
Presentation Logic (логика представления) |
Управляет взаимодействием между пользователем и ЭВМ. Обрабатывает действия пользователя при выборе команды в меню, нажатии кнопки или выборе элемента из списка |
BL |
Business or Application Logiс (прикладная логика) |
Набор правил для принятия решений, вычислений и операций, которые должно выполнить приложение |
DL |
Data Logic (логика управления данными) |
Операции с базой данных (SQL-операторы), которые нужно выполнить для реализации прикладной логики управления данными |
DS |
Data Services (операции с базой данных) |
Действия СУБД, вызываемые для выполнения логики управления данными, такие как манипулирование данными, определения данных, фиксация или откат транзакций и т. п. СУБД обычно компилирует SQL-предложения |
FS |
File Services (файловые операции) |
Дисковые операции чтения и записи данных для СУБД и других компонентов. Обычно являются функциями операционной системы |
Приложение 4
Схема структуры ИПС
Рассмотрим каждый блок более подробно:
Блок проверки БД на целостность осуществляет проверку всех составных частей базы данных.
Блок просмотра позволяет начать работу в системе с просмотра БД и далее выбрать другой режим работы.
Блок редактирования производит редактирование только числовых полей БД и позволяет изменять характеристики, вводить новые и удалять старые записи в таблицы БД. Здесь также можно произвести смену режима работы.
Блок защиты паролем осуществляет блокировку доступа к редактированию данных путем ввода пароля.
Блок поиска предназначен для осуществления поиска по введенному техническому заданию (ТЗ) и перехода к другим режимам работы.
Блок вывода результатов поиска выводит на экран в определенном порядке все найденные шаговые двигатели и их характеристики в соответствии с ТЗ поиска. Блок хранения параметров поиска записывает и хранит информацию до следующего этапа поиска.
Блок помощи выполняет роль подсказки в различных режимах работы системы.
Приложение 5
Типы индексов
Пример прямого индекса
Пример инвертированного индекса
Приложение 6.
Информационно-поисковые языки Internet
Lycos
Как и большинство систем, Lycos дает возможность использовать простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке. Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о числе документов на каждое слово, а уже позже и список ссылок на формально релевантные документы. В списке напротив каждого документа указывается его мера близости запросу, число слов из запроса, которые попали в документ и оценочная мера близости, которая может быть больше или меньше формально вычисленной. На апрель 1996 года в Lycos не был реализован булевый поиск, такие планы были анонсированы. Последнее предложение подразумевает только то, что нельзя вводить эти операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Последнее относится к расширенной форме запроса, который предназначен для использования искушенными пользователями системы, которые уже научились пользоваться этим механизмом.
Таким образом мы видим, что Lycos относится к системе с языком запросов типа "Like this", но предполагается его расширения и на другие способы организации поисковых предписаний.
AltaVista
Наиболее интересным с точки зрения информационно-поискового языка в AltaVista является возможность расширенного поиска. Здесь стоит сразу выделить, что в отличии от многих систем AltaVista поддерживает одноместный оператор NOT. Кроме этого есть еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой словарь этих фраз. Кроме всего прочего, при поиске в АltaVista можно задать имя поля где должно встретиться слово. Это может быть гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но сказано, что ранжирование применяется как при простом поиске, так и при расширенном запросе.
Реально эту систему можно отнести к системе с расширенным булевым поиском.
Yahoo
Данная система появилась в сети одной из первых, и поэтому говорить будем о сегодняшнем состоянии Yahoo, а не о состоянии годовой давности. В настоящее время Yahoo сотрудничает со многими производителями средств информационного поиска и на различных ее серверах используется различное программное обеспечение. На мой взгляд, это самая незатейливая информационная служба, которая сосредоточилась на информации о Web как таковой. ИПЯ Yahoo достаточно прост: все слова следует вводить через пробел и они соединяются либо AND, либо OR. При выдаче не выдается степени соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на "общие" слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что информация в базе данных Yahoo точно есть. Ранжирование производится по числу терминов запроса в документе.
Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.
OpenText
Информационная система OpenText представляет из себя самый коммерциализированный информационный продукт в сети. Все описания больше напоминают рекламу, чем реальное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов поиска сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска.
OpenText можно было бы отнести без сомнения к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.
InfoSeek
Система InfoSeek обладает довольно развитым информационно-поисковым языком, который позволяет не просто указывать какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков "+" - термин обязан быть в документе, "-" - термин обязан отсутствовать в документе. Кроме этого InfoSeek позволяет проводит то, что называется контекстным поиском. Это значит, что используя специальную форму запроса можно потребовать последовательной совместной встречаемости слов. Кроме этого можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке. Есть возможность и указания ключевых фраз. Ключевая фраза от последовательной встречаемости отличается тем, что фраза всегда ищется как единое целое, а при последовательной встречаемости слова могут стоять рядом, но в произвольном порядке. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса в документе, за вычетом общих слов. Все эти факторы используются как вложенные процедуры.
Подводя краткое резюме можно сказать, что InfoSeek относится к традиционным системам с элементом взвешивания терминов при поиске.
WAIS
WAIS является одной из наиболее изощренных поисковых систем Internet. В отличии от многих поисковых машин, ИПЯ системы позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечение терминов, разбиение документов на поля и ведение распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии "Британика" на Internet.
Приложение 7
Поисковые системы и каталоги WWW