- •1.Данные, информация, документы
- •1.1.Данные
- •1.2.Информация и документы
- •1.3.Информационные продукты и услуги
- •3.2.Информационные технологии
- •3.3.Тенденции развития информационных технологий
- •4.Компьютерные сети
- •4.1.Основные понятия
- •4.2.Глобальные сети
- •5.Понятие об Интернет
- •5.1.История создания Интернет
- •5.2.Основные организационные структуры Интернет
- •6.2.Адреса сетевого уровня
- •6.3.Адреса прикладного уровня служб www и ftp
- •6.4.Адрес электронной почты
- •6.5.Адрес группы новостей
- •7.Работа в Интернет
- •7.1.Работа с www
- •7.1.2.Способы открытия html документов
- •7.1.3.Сохранение документа
- •7.1.4.Учет url. Сохранение внешних ссылок
- •7.1.5.Обеспечение эффективности работы с Web сайтом
- •7.2.Работа с электронной почтой
- •7.2.1.Этапы работы с электронной почтой
- •7.2.2.Хранение сообщений
- •7.2.3.Учетные записи
- •7.2.4.Получение сообщений
- •7.2.5.Адресная книга
- •7.2.6.Создание сообщения.
- •7.3. Работа с телеконференциями
- •8.Основные ресурсы Интеренет
- •8.1.Классификация ресурсов
- •9.2.Основные принципы построения ипс
- •10.Представление информации в ипс
- •10.1.Индексирование документов
- •10.2.Векторная модель текста
- •10.3.Индексирование документов в Интернет
- •10.4.Хранение индексированных документов
- •11.Модели поиска информации
- •11.1.Булева модель поиска
- •11.2.Функции подобия "документ-запрос"
- •12.Классификация документов
- •12.1.Понятие классификации
- •12.2.Основные свойства классификации
- •12.3.Формирование рубрик
- •13.Современные информационно-поисковые системы
- •13.1.Словарные информационно-поисковые системы
- •13.2.Классификационные информационно-поисковые системы
- •13.3.Метапоисковые системы
- •13.4.Информационно-поисковые системы Internet
- •14.Средства разработки информационных ресурсов в Интернет
- •14.1.Язык разметки html
- •14.2.Сценарии
- •14.3.Среда программирования.
- •Иерархическая структура документов.
- •15.Правовое регулирование применения информационных и коммуникационных технологий
11.2.Функции подобия "документ-запрос"
Негативные свойства, характерные для булевого алгоритма поиска, обусловлены главным образом употреблением в запросе логических коннекторов, приводящих к жестким условиям поиска. Одним из решений этой проблемы является отказ от использования логических операторов и, как следствие, разработка каких-либо других алгоритмов поиска.
В большинстве современных поисковых систем, и в том числе в ИПС сети Интернет, применяются модели поиска информации, основанные на вычислении мер близости документов и запросов.
Информационно-поисковые языки, используемые в таких моделях, получили название языков типа "найти похожее" (языки типа "Like This"). В этих языках необязательно формулировать запросы с помощью булевых связок, а наиболее мощные системы дают пользователям возможность составлять запросы на обычном естественном языке.
Для вычисления меры подобия документов и запросов существует более тридцати различных алгоритмов. На сегодняшний день используется лишь несколько из них. Мы рассмотрим четыре алгоритма:
алгоритм расширенного булевого поиска,
алгоритм наибольшего цитирования,
алгоритм,
расширенный векторный алгоритм поиска.
12.Классификация документов
12.1.Понятие классификации
Во время информационного поиска часто бывает важно получить по возможности наибольшее значение полноты, то есть выдать максимальную часть релевантных документов, имеющихся в массиве. Такого рода исчерпывающий поиск может понадобиться, например, экспертам, которым необходимо найти все существующие патенты. Увеличение числа релевантных документов обычно приводит к выдаче дополнительных нерелевантных документов, то есть при повышении полноты поиска снижается его точность (см. рис.).
Для улучшения показателей полноты выдачи необходимо получить дополнительные совпадения терминов запроса и документа. Это достигается путем использования дополнительных терминов-заместителей. Существует два варианта работы с терминами-заместителями: они либо добавляются к уже существующим терминам запросов и документов, либо используются вместо них. Наиболее известной процедурой получения терминов-заместителей является применение словаря синонимов, или тезауруса. Термины в тезаурусе сгруппированы в классы синонимии (классы эквивалентности).
С помощью просмотра словаря синонимов можно заменить каждый имеющийся в начальный момент поиска термин идентификаторами соответствующих классов тезауруса. При использовании другого подхода идентификаторы этих классов можно добавлять к исходным терминам. В любом случае цель состоит в том, чтобы получить дополнительные совпадения для тех терминов запроса и документа, которые отнесены к одним и тем же классам тезауруса. Сами эти термины могут быть и различными.
В информационно-поисковых системах в основном применяется два типа классификаций:
классификации терминов,
классификации документов.
Целью классификации терминов является группировка терминов в синонимические классы в расчете повысить вероятность совпадения терминов запроса и документа. Классификация документов способна улучшить результаты и оперативность поиска за счет обращения только к определенным частям информационного массива. Эти два типа классификаций взаимосвязаны: присваиваемые документам термины при формировании их поисковых образов служат основой для построения классов, получаемых в результате группировки документов.
При хорошей классификации терминов обычно удается сгруппировать различные низкочастотные родственные термины в общие классы тезауруса. Термины, входящие в один класс, могут заменять друг друга в процессе поиска, и при использовании такой классификации терминов можно ожидать улучшения полноты выдачи. Классификации документов позволяют сузить область поиска до наиболее существенных классов документов и обеспечить тем самым высокую точность. При совместном использовании систематизированных массивов данных и тщательно проработанного тезауруса можно получить высокие показатели и по полноте, и по точности поиска.
В основе любой классификации лежит принцип распределения информационных объектов (терминов или документов) по некоторым классам. Совокупность таких классов называется классификатором, а сами классы – разделами классификатора, или рубриками. Классификаторы обычно разрабатываются вручную. Примерами классификаций могут служить общепринятые библиотечные классификации УДК и ББК.
Класс определяется как множество терминов, обозначающих некоторую предметную область. В процессе классификации каждому информационному объекту для обозначения его смыслового содержания приписывается идентификатор какого-либо класса.
Разбиение на предметные классы или рубрики должно быть предсказуемым, а подчиненные тематические классы должны быть легко отличимы от вышестоящих. От четкости иерархической структуры, в которую входит каждый класс, зависит эффективность регулирования глубины поиска путем расширения или сужения запроса.
Маловероятно, чтобы можно было найти такую структуру, которая могла бы удовлетворять этим требованиям. Строго заданные иерархические отношения между тематическими классами призваны подчеркнуть определенные типы предметных ассоциаций и одновременно пренебречь другими. Статичный характер общепринятых классификационных схем порождает проблемы в случае расширение предметных областей и развития знаний.
Существующие иерархические схемы весьма сложны, и на практике часто оказываются обязательными ручные (неавтоматические) процессы классификации. Это приводит к тому, что согласованности между разными системами классификации и поиска в процессах анализа содержания и распределения документов по рубрикам добиться трудно.