Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Курсовая работа_Больдерман_431 группа.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
142.46 Кб
Скачать

Выводы к главе 1

Понятие «информационные системы» различные авторы книг по данной теме определяют по-разному, но можно вывести общее- Информационные системы — это некая система для обработки, хранения, поиска и выдачи информации.

История развития информационных систем насчитывает уже несколько этапов и длится несколько десятилетий, но особо быстро они начали развиваться с появлением сети Интернет. Структура информационных систем неоднозначна, и различается в зависимости от их целевого назначения, но практически все ИС должны содержать такие компоненты, как интерфейс пользователя, подсистему обработки информации, подсистему хранения данных и канал информационного сообщения между пользователем и системой. Так же ИС классифицируются по определенной системе различных признаков. Например, ИС классифицируются по сфере применения (на системы организационного управления, ИС управления технологическими процессами, ИС автоматизированного проектирования и интегрированные ИС), по масштабу (на одиночные, групповые и корпоративные ИС) и по способу организации (на системы на основе архитектуры файл-сервер, системы на основе архитектуры клиент-сервер, системы на основе многоуровневой архитектуры и, позже, системы на основе интернет-технологий).

Требование к ИС так же неоднозначны, и меняются, в зависимости от конечной цели использования ИС. Например, с появлением сети Интернет, к большинству ИС предъявляются такие требования, как открытые стандарты, поддержка любой вычислительной платформы, возможность использования программного обеспечения с открытым кодом, доступность информационной системы из любой точки мира и другие.

Особенно сильно появление Интернета повлияло на развитие такого вида ИС, как информационно-поисковые системы. Данные системы ставят своей главной задачей поиск информации релевантной информационным потребностям пользователя. ИПС имеют свою структуру и классификацию.

Так же, очень важным параметром как ИПС, так и ИС в целом, является жизненный цикл. ЖЦ ИС- это непрерывный процесс, который начинается с момента принятия решения о ее создании и заканчивается в момент полного изъятия системы из эксплуатации.

Глава 2 Организация поиска в информационных системах

2.1 Принцип организации поиска в информационных системах

Поиск информации - задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов, потенциально доступных одному человеку, были выработаны все более изощренные и совершенные поисковые средства, и приемы, позволяющие найти необходимый документ.

По книге К. Маннинга «Введение в информационный поиск» [22], можно сказать, что эффективная работа любой ИПС основана на быстроте и возможностях многоаспектной выборки нужных данных из большого массива (поиск информации) для внутренней работы с данными. Это накладывает определённые требования на организацию правил поиска, построение пользовательского и программного интерфейса и формы предоставления информации.

Реализация вышеперечисленных требований возложена на следующий ряд структурных компонентов, так называемых блоков [приложение 4].

По книге Варфоломеева А.А. «Основы информационной безопасности» [3], в основе выбора именно такой структуры информационно-поисковой системы лежит очень простая логика - любой блок системы должен получать данные, обрабатывать их и выдавать пользователю в определенном порядке, обеспечивая логику процесса.

Невозможно говорить об информационно-поисковых системах, не упомянув про такое понятие, как поисковая машина. Как пишет Д.Н. Колисниченко в книге «Поисковые системы и продвижение сайтов в Интернете» [17], Поисковая машина - система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах. Отличительной чертой поисковых машин является тот факт, что база данных, содержащая информацию об Web-страницах, формируется программой-роботом. При получении результата, если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые системы позволяют проводить поиск в найденных документах, причем имеется возможность уточнить запрос введением дополнительных терминов. Если интеллектуальность системы высока, то присутствует так же возможность поиска похожих документов. Однако, автоматизация определение похожести - весьма нетривиальная задача, и зачастую эта функция работает не всегда правильно. Некоторые поисковики позволяют провести пересортировку результатов. Стоит обратить внимание на то, что различные поисковые системы описывают разное количество источников информации в интернете. Поэтому нельзя ограничиваться поиском только в одной из указанных поисковых систем. Существуют различные инструменты поиска, которые не формируют собственный индекс, но умеют использовать возможности других поисковых систем. Это, как пишет Н.А. Гайдмамакин в книге «Автоматизированные информационные системы, базы и банки данных» [5], метапоисковые системы (поисковые службы) - системы, способные послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.

Так же, Д.Н. Колисниченко [17] пишет, что для наиболее точного и быстрого нахождения необходимой информации в сети, ИПС используют индексирование.

Поисковый индекс - структура данных, которая содержит информацию о документах и используется в поисковых системах.

Индексирование (или индексация), совершаемое поисковой машиной, - процесс сбора, сортировки и хранения данных с целью обеспечить быстрый и точный поиск информации. Создание индекса включает междисциплинарные понятия из лингвистики, математики и информатики.

Популярные поисковые машины сосредотачиваются на полнотекстовой индексации документов, написанных на естественных языках. Мультимедийные документы, такие как видео и аудио и графика также могут участвовать в поиске.

А.Ю. Келина в книге «Основы информационной безопасности» [16] пишет о том, что метапоисковые машины используют индексы других поисковых сервисов и не хранят локальный индекс, в то время как поисковые машины, основанные на кэшированных страницах, долго хранят как индекс, так и текстовые корпусы. В отличие от полнотекстовых индексов, частично-текстовые сервисы ограничивают глубину индексации, чтобы уменьшить размер индекса.

Архитектура поисковой системы различается по способам индексирования. Индексы бывают следующих типов [Приложение 5]:

  • Прямой индекс. Прямой индекс хранит список слов для каждого документа.

  • Инвертированный индекс. Хранилище списка вхождений каждого критерия поиска.

Индекс - это только часть поискового аппарата, скрытая от пользователя. Второй частью этого аппарата является информационно-поисковый язык (ИПЯ), про который подробно пишет Варфоломеев А.А. в книге «Основы информационной безопасности» [3]. ИПЯ- это язык, позволяющий сформулировать запрос к системе в простой и наглядной форме. Если даже пользователю предлагается вводить запросы на естественном языке, то это еще не значит, что система будет осуществлять семантический разбор запроса пользователя. Основная суть заключается в том, что обычно фраза разбивается на слова, из этого списка удаляются запрещенные и общие слова, иногда производится нормализация лексики, а затем все слова связываются либо логическим AND, либо OR.

Возможны и варианты, на что указывает Н.А. Чурсин в книге «Популярная информатика» [30]. Так, в большинстве систем, некоторые фразы будут опознаны как ключевые, и не будет разделяться на отдельные слова. Другой подход заключается в вычислении близости между запросом и документом. К настоящему времени известно около дюжины различных мер близости. Именно эти проценты соответствия документа запросу и выдаются в качестве справочной информации при списке найденных документов.

Наиболее продвинутым языком запросов из современных информационно-поисковых систем Internet, по мнению К. Маннинга [22], обладает AltaVista. Кроме обычного набора AND, OR, NOT, эта система позволяет использовать еще и NEAR. Последний оператор позволяет организовать контекстный поиск. Все документы в системе разбиты на поля, поэтому в запросе можно указать в какой части документа пользователь хочет увидеть ключевое слово (в ссылке, заголовке и т.п.).

(Для более подробных сведений об информационно-поисковых языках сети интернет см. приложение [6])

Из книги Ю.И. Кудинова «Основы современной информатики» [19] можно узнать, что наиболее распространенными моделями представления документов в информационно-поисковой системе являются различные вариации на тему представления документа как набора терминов. Как уже упоминалось ранее, это не весь текст документа, а только небольшой набор терминов, который отражает его содержание. Базируясь на таком представлении о документе и нужно рассматривать различные информационно-поисковые языки.

Наиболее распространенным ИПЯ является традиционный язык, позволяющий составить логические выражения из набора терминов. При этом используются булевые операторы AND, OR, NOT.

Такая схема достаточно проста, и поэтому наиболее широко применяется в современных информационно-поисковых системах. Но еще 20 лет тому назад были хорошо известны и ее недостатки.

Булевый поиск плохо масштабирует выдачу. Оператор AND может очень сильно сократить число документов, которые выдаются на запрос. При этом все будет очень сильно зависеть от того, насколько типичными для базы данных являются поисковые термины. Оператор OR напротив может привести к неоправданно широкому запросу, в котором полезная информация затеряется за информационным шумом. Для успешного применения этого ИПЯ следует хорошо знать лексику системы и ее тематическую направленность. Как правило, для системы с таким ИПЯ создаются специальные документально лексические базы данных со сложными словарями, которые называются тезаурусами и содержат информацию о связи терминов словаря друг с другом.

К. Маннинг [22] указывает на то, что модификацией булевого поиска является взвешенный булевый поиск. Идея такого поиска достаточно проста. Считается, что термин описывает содержание документа с какой-то точностью, и эту точность выражают в виде веса термина. При этом взвешивать можно как термины документа, так и термины запроса. Запрос может формулироваться на ИПЯ, описанном выше, но выдача документов при этом будет ранжироваться в зависимости от степени близости запроса и документа. При этом измерение близости строится таким образом, чтобы обычный булевый поиск был бы частным случаем взвешенного булевого поиска.

Но, в отличие от Варфоломеева А.А. [3], И.С. Ашманов в своей книге «Продвижение сайта в поисковых системах» [1] пишет, что хоть ИПЯ сейчас не совершенны, особое внимание стоит уделять алгоритму ранжирования (упорядоченного выстраивания) полученных ссылок, так как он не менее важен. Наиболее часто используемыми критериями при ранжировании в ИПС являются наличие слов из запроса в документе, их количество, близость к началу документа, близость к друг другу;

Наличие слов из запроса в заголовках и подзаголовках документов (заголовки должны быть специально отформатированы);

Количество ссылок на данный документ с других документов; «респектабельность» ссылающихся документов.

Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

  • Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).

  • Тэги, в которых эти слова располагаются.

  • Местоположение искомых слов в документе.

  • Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

Эти принципы применяются всеми поисковыми системами.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят ссылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой. Ранжирование результатов поиска является неотъемлемой частью информационного поиска.

Аспекты данного понятия хорошо представлены в книге К. Маннинга «Введение в информационный поиск» [22]. Информационный поиск подразумевает использование определённых стратегий, методов, механизмов и средств. Поведение пользователя, осуществляющего управление процессом поиска, определяется не только информационной потребностью, но и инструментальным разнообразием системы - технологиями и средствами, предоставляемыми системой.

Стратегия поиска - общий план (концепция, предпочтение, установка) поведения системы или пользователя для выражения и удовлетворения информационной потребности пользователя, обусловленный как характером цели и видом поиска, так и системными "стратегическими" решениями - архитектурой БД, методами и средствами поиска в конкретной ИПС. Выбор стратегии в общем случае является оптимизационной задачей. На практике в значительной степени он определяется искусством достижения компромисса между практическими потребностями и возможностями имеющихся средств.

Метод поиска - совокупность моделей и алгоритмов реализации отдельных технологических этапов: построения поискового образа запроса, отбора документов (сопоставление поисковых образов запросов и документов), расширения запроса, локализации и оценки выдачи.

Поисковый образ запроса - записанный на ИПЯ текст, выражающий смысловое содержание информационного запроса и содержащий указания, необходимые для наиболее эффективного осуществления информационного поиска.

Процесс поиска информации представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. Так как пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, то оценить адекватность выражения запроса, равно как и полноту получаемого результата, он может, основываясь лишь на внешних оценках или на промежуточных результатах и обобщениях, сопоставляя их, например, с предыдущими.

Процесс поиска можно представить в виде следующих основных компонентов:

1) формулирование запроса на естественном языке, выбор поисковых системы и сервисов, формализация запроса на соответствующем ИПЯ;  2) проведение поиска в одной или нескольких поисковых системах;  3) обзор полученных результатов (ссылок);  4) предварительная обработка полученных результатов: просмотр содержания ссылок, извлечение и сохранение релевантных данных;  5) при необходимости, модификация запроса и проведение повторного (уточняющего) поиска с последующей обработкой полученных результатов.

Для уменьшения объёма отобранных материалов осуществляют фильтрацию результатов поиска по типу источников (сайтов, порталов), тематике и другим основаниям.

По используемым поисковым технологиям ИС можно разбить на 4 категории:

1. Тематические каталоги;  2. Специализированные каталоги (онлайновые справочники);  3. Поисковые машины (полнотекстовый поиск);  4. Средства метапоиска.

Тематические каталоги предусматривают обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически это индексирование на основе классификации. Индексирование может проводиться автоматически или вручную с помощью специалистов, просматривающих популярные веб-узлы и составляющих краткое описание документов-резюме (ключевые слова, аннотация, реферат).

Специализированные каталоги или справочники создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т. п.

Поисковые машины (самое развитое средство поиска в Интернете) реализуют технологию полнотекстового поиска. Индексируются тексты, расположенные на опрашиваемых серверах. Индекс может содержать информацию о нескольких миллионах документов.

При использовании средств метапоиска запрос осуществляется одновременно несколькими поисковыми системами. Результат поиска объединяется в общий, упорядоченный по степени релевантности список. Каждая система обрабатывает только часть узлов сети, что позволяет расширить базу поиска.

Так же очень важна так называемые «организация поиска» и «реализация поиска», о чем пишет Д.Н. Колисниченко в книге «Поисковые системы и продвижение сайтов в Интернете» [17].

Организация поиска  Процедура поиска необходимой информации разделяется на девять основных этапов:

  • Определение области знаний;

  • Выбор типа и источников данных;

  • Сбор материалов необходимых для наполнения информационной модели;

  • Отбор наиболее полезной информации;

  • Выбор метода обработки информации (классификация, кластеризация, регрессионный анализ и т.д.);

  • Выбор алгоритма поиска закономерностей;

  • Поиск закономерностей, формальных правил и структурных связей в собранной информации;

  • Творческая интерпретация полученных результатов;

  • Интеграция извлеченных "знаний".

Для проведения поиска первоначально на компьютере пользователя загружается интерфейс работы с соответствующей БД. Это может быть локальная или удалённая БД. Первоначально следует определиться с видом поиска (простой, расширенный и т.д.). Затем с набором предлагаемых для поиска полей. ИПС могут предложить для ввода одно или несколько полей. В последнем случае это обычно поля: автора, заглавия (названия), временного периода, вида документа, ключевых слов, рубрик и др.

Реализация поиска  Общепринята организация поиска по начальным фрагментам слова (поиск с усечением справа), например, вместо слова "библиотечный" можно ввести его фрагмент "библиоте*". При этом будут найдены документы, в которых содержится не только слово "библиотечный", но и "библиотека", "библиотекарь", "бибилотековедение" и др. В каждом случае пользователь должен представлять, что именно он хочет найти, так как в предложенном ему варианте будет найдено гораздо большее количество документов, чем при задании данного слова полностью (без усечения). В подобном случае возможно в полученном массиве информации провести уточняющий поиск и в результате получить более релевантные данные.

ИПС характеризуются также временем выполнения поиска, интерфейсом, предоставляемым пользователю и видом отображаемых результатов. При выборе ИПС обращают внимание на такие их параметры, как охват и глубина. Под охватом понимается объём базы поисковой машины, измеряемый тремя показателями: общим объёмом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается - существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.

Так же, некоторые аспекты информационного поиска освещены в книге В.А. Гвоздевой «Основы построения автоматизированных информационных систем» [6]. Как написано в книге, каждая поисковая машина имеет свои алгоритмы сортировки результатов поиска. Чем ближе к началу списка, полученного в результате проведения поиска, оказывается нужный документ, тем выше релевантность и лучше работает поисковая машина. Все они позволяют по ключевым словам, тематическим рубрикам и даже отдельным буквам оперативно находить в сети, например, все или почти все тексты, где эти слова присутствуют. При этом пользователю сообщаются адреса сайтов, где найденные результаты постоянно присутствуют. Однако ни одна из них не имеет подавляющих преимуществ перед другими. Для проведения надежного поиска по сложным запросам специалисты рекомендуют использовать последовательно или параллельно (одновременно) различные ИПС.

Из книги Д.Н. Кадеева «Информационные технологии и электронные коммуникации» [14] можно узнать о таком понятии, как «полнотекстовая поисковая машина». Она индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Некоторые машины умеют искать словосочетания или слова на заданном расстоянии, что часто бывает важно для получения разумного результата. Кроме этого, в языке HTML существуют тэги, которые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.). При этом необходимо знать, что чем меньше количество ключевых слов включено в эти теги, тем с большей частотой они могут встречаться в текстах страниц сайта и, следовательно, тем выше их релевантность. Оптимальным считается частота таких слов не более 5%. Ключевых слов должно быть не очень много, они в большей степени должны состоять из одного или двух слов, образуя наиболее употребляемые термины. Чем большую релевантность имеют ключевые слова, тем большую конкурентоспособность они придают документу с точки зрения поисковых машин.

Полноту и точность ответа пользователь получает в зависимости от точности сформулированного им запроса. В результате поиска ему обычно предоставляется гораздо больше информации, чем ему необходимо, часть которой может вообще не иметь отношение к сформированному запросу. Легко заметить, что многое зависит не только от грамотно сформулированного запроса, но и от возможностей поисковых систем, которые весьма различны. При этом достаточно ярко проявляется тот факт, что в полученных данных можно пропустить главные, необходимые сведения. Простые запросы в виде отдельных достаточно распространенных терминов приводят к извлечению тысяч (сотен тысяч) документов, абсолютное большинство которых пользователю не требуется (информационный шум).

Важным аспектом также является возможность ИПС поддерживать многоязычность, то есть способность обрабатывать запросы на различных языках. Так же, обычно поиск в полнотекстовых БД осуществляется с использованием морфологических анализаторов (как правило, русских и английских), позволяющих автоматически находить существующие словоформы по фрагменту слова, слову, фразе, даже если в словах запроса присутствуют некоторые опечатки.

Ещё, нельзя не упомянуть про такую особенность ИПС, как средства поиска и структурирования, иногда называемые поисковыми механизмами. Как пишет И.С. Ашманов в своей книге «Продвижение сайта в поисковых системах» [1], поисковые механизмы используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как находить и обрабатывать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие проинструктированы, что нужно просматривать прежде всего наиболее популярные страницы. Классификация поисковых механизмов лучше всего представлена в книге Варфоломеева А.А. «Основы информационной безопасности” [3]:

  • Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

  • Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

  • Кроулеры просматривают заголовки и возвращают только первую ссылку.

  • Роботы могут быть запрограммированы так, чтобы переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети, однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

В завершение можно сказать, что ИПС в сети, при всем их внешнем разнообразии, своей классификацией, которая описана в книге Л.Г. Гагариной «Автоматизированные информационные системы» [4]:

Классификационные информационно-поисковые системы

В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется КЛАССИФИКАТОРОМ. Разделы классификатора называются РУБРИКАМИ. Библиотечный аналог классификационной ИПС - систематический каталог. Классификатор разрабатывается и совершенствуется коллективом авторов. Затем его использует другой коллектив специалистов, называемых СИСТЕМАТИЗАТОРАМИ. Систематизаторы, зная классификатор, читают документы и приписывают им классификационные индексы, указывающие, каким разделам классификатора эти документы соответствую.

Предметные ИПС (Web-кольца)

Предметная ИПС с точки зрения пользователя устроена наиболее просто. Ищи название нужного предмета своего интереса (предметом может быть и нечто невещественное, например, индийская музыка), а с названием связаны списки соответствующих ресурсов Интернет. Это было бы особенно удобно, если полный перечень предметов невелик.

Словарные ИПС

Культурные проблемы, связанные с использованием классификационных ИПС, привели к созданию ИПС словарного типа, с обобщенным англоязычным названием search engines. Основная идея словарной ИПС - создать словарь из слов, встречающихся в документах Интернет, в котором при каждом слове будет храниться список документов, из которых взято данное слово.

Основываясь на сведениях из книги А.Ю. Келиной «Основы информационной безопасности» [16], можно выяснить что есть два основных алгоритма работы словарных ИПС: с использованием ключевых слов и с использованием дескрипторов (Дескриптор- лексическая единица (слово, словосочетание) информационно-поискового языка, служащая для описания основного смыслового содержания документа или формулировки запроса при поиске документа (информации) в информационно-поисковой системе). В первом случае, для оценки содержимого документа используются только те слова, которые в нем встречаются, и по запросу ИПС сопоставляет слова из запроса со словами документа, определяя по количеству, расположению, весу слов из запроса в документе его релевантность. ИПС по историческим причинам используют этот алгоритм, в различных модификациях.