- •1.Данные, информация, документы
- •1.1.Данные
- •1.2.Информация и документы
- •1.3.Информационные продукты и услуги
- •3.2.Информационные технологии
- •3.3.Тенденции развития информационных технологий
- •4.Компьютерные сети
- •4.1.Основные понятия
- •4.2.Глобальные сети
- •5.Понятие об Интернет
- •5.1.История создания Интернет
- •5.2.Основные организационные структуры Интернет
- •6.2.Адреса сетевого уровня
- •6.3.Адреса прикладного уровня служб www и ftp
- •6.4.Адрес электронной почты
- •6.5.Адрес группы новостей
- •7.Работа в Интернет
- •7.1.Работа с www
- •7.1.2.Способы открытия html документов
- •7.1.3.Сохранение документа
- •7.1.4.Учет url. Сохранение внешних ссылок
- •7.1.5.Обеспечение эффективности работы с Web сайтом
- •7.2.Работа с электронной почтой
- •7.2.1.Этапы работы с электронной почтой
- •7.2.2.Хранение сообщений
- •7.2.3.Учетные записи
- •7.2.4.Получение сообщений
- •7.2.5.Адресная книга
- •7.2.6.Создание сообщения.
- •7.3. Работа с телеконференциями
- •8.Основные ресурсы Интеренет
- •8.1.Классификация ресурсов
- •9.2.Основные принципы построения ипс
- •10.Представление информации в ипс
- •10.1.Индексирование документов
- •10.2.Векторная модель текста
- •10.3.Индексирование документов в Интернет
- •10.4.Хранение индексированных документов
- •11.Модели поиска информации
- •11.1.Булева модель поиска
- •11.2.Функции подобия "документ-запрос"
- •12.Классификация документов
- •12.1.Понятие классификации
- •12.2.Основные свойства классификации
- •12.3.Формирование рубрик
- •13.Современные информационно-поисковые системы
- •13.1.Словарные информационно-поисковые системы
- •13.2.Классификационные информационно-поисковые системы
- •13.3.Метапоисковые системы
- •13.4.Информационно-поисковые системы Internet
- •14.Средства разработки информационных ресурсов в Интернет
- •14.1.Язык разметки html
- •14.2.Сценарии
- •14.3.Среда программирования.
- •Иерархическая структура документов.
- •15.Правовое регулирование применения информационных и коммуникационных технологий
10.4.Хранение индексированных документов
Организация хранения массива поисковых образов документов – одна из критических частей поискового аппарата ИПС.
Индексирование документов является разовым процессом в локальных системах, или постоянным в глобальных, но в любом случае оно не производится одновременно с поиском (для поиска и индексирования не используются одновременно одни и те же аппаратные ресурсы). Вследствие этого скорость поиска информации в ИПС определяется скоростью доступа к хранилищу поисковых образов (второй влияющий фактор – поисковый алгоритм), которая зависит от структуры и объема базы данных документов.
Прямой просмотр файлов поисковых образов документов занимает слишком много времени, что является неприемлемым для пользователя, особенно в Интернет. Поэтому база данных документов обычно организуется в виде ряда связанных друг с другом таблиц.
Помимо информации о соответствии терминов и документов (идентификаторы терминов и документов, веса терминов и т. д.), в базах данных ИПС хранятся также различные дополнительные сведения. Некоторые из них непосредственно используются при поиске, например, даты последних изменений документов или информация о содержащихся в документах ссылках на другие документы (это особенно актуально для ИПС сети Интернет). Часть данных необходима для облегчения работы пользователя с результатами поиска (заголовки и аннотации документов и др.). Обычно информация о терминах и документах, которая находится в базах данных ИПС, может быть использована одновременно для нескольких алгоритмов поиска (см. раздел 11).
Рассмотрим общую структуру базы данных поисковых образов интернет-документов (гипертекстовых страниц).
Рис. 3. Структура базы данных поисковых образов
База данных (рис. Рис. 3) состоит из таблицы адресов страниц, таблицы ключевых слов, таблицы заголовков страниц, таблицы с датами изменения страниц, таблицы гиперссылок, а также двух таблиц-списков – прямого и инвертированного.
11.Модели поиска информации
Главная цель информационно-поисковой системы – наилучшим образом удовлетворить потребности пользователей в необходимой информации. Для реализации этой глобальной цели необходимо проделать ряд подготовительных операций, которые были подробно рассмотрены выше: проанализировать информационный массив и представить его в форме, удобной для хранения и обработки. Второй частью поискового аппарата ИПС является непосредственно модель поиска информации.
Любая стратегия поиска тесно связана с информационно-поисковым языком. Информационно-поисковый язык (ИПЯ) – это специальный язык для формирования запросов к ИПС. Необходимость создания ИПЯ вызвана трудностями интерпретации естественного языка в случае его использования в системе. Однако синтаксис поисковых языков обычно довольно прост и внешне они часто похожи на естественные.
Современные поисковые системы позволяют полностью формулировать запрос на естественном языке. Перед использованием таких запросов обычно проводится морфологическая (нормализация терминов запроса3), лексическая (удаление из запроса терминов, присутствующих в стоп-словаре), реже синтаксическая и семантическая обработка.
Рассмотрим основные модели поиска информации, применяемые в ИПС.