- •1.Данные, информация, документы
- •1.1.Данные
- •1.2.Информация и документы
- •1.3.Информационные продукты и услуги
- •3.2.Информационные технологии
- •3.3.Тенденции развития информационных технологий
- •4.Компьютерные сети
- •4.1.Основные понятия
- •4.2.Глобальные сети
- •5.Понятие об Интернет
- •5.1.История создания Интернет
- •5.2.Основные организационные структуры Интернет
- •6.2.Адреса сетевого уровня
- •6.3.Адреса прикладного уровня служб www и ftp
- •6.4.Адрес электронной почты
- •6.5.Адрес группы новостей
- •7.Работа в Интернет
- •7.1.Работа с www
- •7.1.2.Способы открытия html документов
- •7.1.3.Сохранение документа
- •7.1.4.Учет url. Сохранение внешних ссылок
- •7.1.5.Обеспечение эффективности работы с Web сайтом
- •7.2.Работа с электронной почтой
- •7.2.1.Этапы работы с электронной почтой
- •7.2.2.Хранение сообщений
- •7.2.3.Учетные записи
- •7.2.4.Получение сообщений
- •7.2.5.Адресная книга
- •7.2.6.Создание сообщения.
- •7.3. Работа с телеконференциями
- •8.Основные ресурсы Интеренет
- •8.1.Классификация ресурсов
- •9.2.Основные принципы построения ипс
- •10.Представление информации в ипс
- •10.1.Индексирование документов
- •10.2.Векторная модель текста
- •10.3.Индексирование документов в Интернет
- •10.4.Хранение индексированных документов
- •11.Модели поиска информации
- •11.1.Булева модель поиска
- •11.2.Функции подобия "документ-запрос"
- •12.Классификация документов
- •12.1.Понятие классификации
- •12.2.Основные свойства классификации
- •12.3.Формирование рубрик
- •13.Современные информационно-поисковые системы
- •13.1.Словарные информационно-поисковые системы
- •13.2.Классификационные информационно-поисковые системы
- •13.3.Метапоисковые системы
- •13.4.Информационно-поисковые системы Internet
- •14.Средства разработки информационных ресурсов в Интернет
- •14.1.Язык разметки html
- •14.2.Сценарии
- •14.3.Среда программирования.
- •Иерархическая структура документов.
- •15.Правовое регулирование применения информационных и коммуникационных технологий
12.3.Формирование рубрик
Типичный процесс формирования рубрик (классов) включает три основных процесса, показанных на рис. Рис. 5.
Рис. 5. Процесс формирования рубрик
Во время начального процесса происходит определение рубрик классификации. Обычно эта операция сводится к выбору в качестве центра исходных классов определенных объектов, размещенных в плотных зонах пространства информационных объектов. Такими зонами обычно считают те, в окрестностях которых имеется большое количество подобных объектов.
В процессе распределения информационные объекты систематизируется и распределяются по имеющимся рубрикам. Этот процесс выполняется путем отнесения всех объектов к тем классам, с которыми они имеют достаточно высокий коэффициент подобия.
Завершающий этап связан с выполнением условий, при которых данный класс считается окончательным и полным. Здесь устанавливается, удовлетворяют ли сформированные рубрики заданному критерию классификации (например, обладают ли они описанными в предыдущем параграфе свойствами).
Существует два основных метода классификации:
Порождающие методы классификации по принципу снизу вверх,
Методы разбиения по принципу сверху вниз.
При использовании порождающих методов все объекты первоначально считаются несгруппированными. Формирование групп выполняется снизу вверх путем объединения двух, трех и т. д. объектов вплоть до образования более крупных групп,
Методы разбиения по принципу сверху вниз подразумевают, что все объекты первоначально относятся к одному и тому же глобальному классу. Затем этот класс разбивается на более мелкие подклассы, которые в свою очередь могут подвергаться делению на еще более мелкие подклассы вплоть до образования окончательных классов.
На практике также используется смешанный метод классифицирования по принципу сверху вниз. Количество исходных классов в таком случае задается заранее, и первоначальное деление объектов корректируется путем перегруппировки объектов. Целью перегруппировки является повышение качества рубрик таким образом, чтобы связанность классов стала максимальной, а подобие объектов, относящихся к разным группам – минимальным.
Большая часть методов классификации по принципу сверху вниз устроена таким образом, что они могут использоваться и для образования иерархических структур классов. При поуровневом построении классификации формируются классы, являющиеся подмножествами или компонентами какого-либо класса более высокого уровня. В результате образуется структура в виде дерева. Корень такого дерева (верхний уровень) содержит глобальный класс высшего уровня, представляющий все информационное пространство. Листья (нижний уровень) соответствуют конечным рубрикам документов или группам терминов.
При некоторых методах классификации по принципу снизу вверх также формируются иерархические структуры. Неиерархическими структурами считаются такие структуры, в которых между сформированными классами не выполняются свойства формального включения. При построении иерархии классов терминов в виде дерева часто стараются в нижней части помещать узкие специфичные термины, а в верхней – термины более общего характера.
На практике, особенно во время ручной классификации, часты случаи, когда документ или термин может быть одновременно отнесен к нескольким классам. В таких ситуациях используются различные перекрестные ссылки.
Информация о документах данной тематической направленности помещается в некоторый базовый раздел, а остальные классы, к которым также можно было бы отнести эти документы, содержат соответствующие ссылки. В описание пересекающихся классов добавляют ссылку типа "смотри", которая направляет пользователя к рубрике, признанной специалистами по классификации базовой.
Например, информация о картах стран может быть размещена в разделах "Наука–География–Страна", "Экономика–География–Страна" или "Справочники–Карты–Страна". Специалисты по классификации принимают решение о том, что сведения о картах стран размещаются в рубрике "Экономика–География–Страна". Тогда в остальные два раздела добавляется ссылка на данный.
Если выбор базового класса вызывает у специалистов по классификации затруднения, то вероятность отнесения объекта к тому или иному похожему (синонимическому) классу практически одинакова. В этих случаях применяются ссылки типа "смотри также". Они направляют пользователей системы к разделам, которые, возможно, содержат описания интересующих их документов.