
- •Тема 1. Основные понятия информации. Процессы преобразования информации
- •1.1 Информация и данные
- •1.2 Формы адекватности информации
- •1.3 Меры информации
- •1.3.1. Классификация мер
- •1.3.2 Синтаксическая мера информации
- •1.3.3 Семантическая мера информации
- •1.3.4 Прагматическая мера информации
- •1.4 Качество информации
- •2.1 Система классификации
- •2.1.1 Общие сведения
- •2.1.2 Иерархическая система классификации
- •2.1.3 Фасетная система классификации
- •2.1.4 Дескрипторная система классификации
- •2.2 Система кодирования
- •2.1.1 Общие понятия
- •2.1.2 Классификационное кодирование
- •2.1.3 Регистрационное кодирование
- •2.3 Классификация информации по разным признакам
2.1.4 Дескрипторная система классификации
Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов. Особенно широко она используется в библиотечной системе поиска.
Суть дескрипторного метода классификации заключается в следующем:
отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;
выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых;
создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.
Между дескрипторами устанавливаются связи, которые позволяют расширить область
поиска информации. Связи могут быть трех видов:
синонимические, указывающие некоторую совокупность ключевых слов как синонимы;
родовидовые, отражающие включение некоторого класса объектов в более представительный класс;
ассоциативные, соединяющие дескрипторы, обладающие общими свойствами.
Пример. Синонимическая связь: студент - учащийся - обучаемый.
Родовидовая связь: университет - факультет - кафедра.
Ассоциативная связь: студент - экзамен - профессор - аудитория.
2.2 Система кодирования
2.1.1 Общие понятия
Система кодирования применяется для замены названия объекта на условное обозначение (код) в целях обеспечения удобной и более эффективной обработки информации.
Система кодирования - совокупность правил кодового обозначения объектов.
Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется:
длиной - число позиций в коде;
структурой - порядок расположения в коде символов, используемых для обозначения классификационного признака.
Процедура присвоения объекту кодового обозначения называется кодированием. Можно выделить две группы методов, используемых в системе кодирования (рис. 5), которые образуют:
классификационную систему кодирования, ориентированную на проведение предварительной классификации объектов, либо на основе иерархической системы, либо на основе фасетной системы;
регистрационную систему кодирования, не требующую предварительной классификации объектов.

Рассмотрим представленную на рис. 3 систему кодирования.
Рис.
3. Система кодирования, использующая
разные методы
2.1.2 Классификационное кодирование
Классификационное кодирование применяется после проведения классификации объектов. Различают последовательное и параллельное кодирование.
Последовательное кодирование используется для иерархической классификационной структуры. Суть метода заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки.
Пример. В общем виде код можно записать как ХХХХ, где Х - значение десятичного разряда.
Рассмотрим структуру кода, начиная со старшего разряда:
1-й (старший) разряд выделен для классификационного признака "название факультета" и имеет следующие значения: 1 - коммерческий; 2 - информационные системы; 3 - для следующего названия факультета и т.д.;
2-й разряд выделен для классификационного признака "возраст" и имеет следующие значения: 1 - до 20 лет; 2 - от 20 до 30 лет; 3 - свыше 30 лет;
3-й разряд выделен для классификационного признака "пол" и имеет следующие значения: 1 - мужчины; 2 - женщины;
4-й разряд выделен для классификационного признака "наличие детей у женщин" и имеет следующие значения; 1 - есть дети; 2 - нет детей, 0 - для мужчин, так как подобной информации не требуется.
Принятая система кодирования позволяет легко расшифровать любой код группировки, например:
1310 - студенты коммерческого факультета, свыше 30 лет мужчины;
2221 - студенты факультета информационных систем, от 20 до 30 лет, женщины имеющие детей.
Параллельное кодирование используется для фасетной системы классификации. Суть метода заключается в следующем: все фасеты кодируются независимо друг от друга; для значений каждою фасета выделяется определенное количество разрядов кода. Параллельная система кодирования обладает теми же достоинствами и недостатками, что и фасетная система классификации.
Пример. Проведем кодирование информации, классифицированной с помощью фасетной схемы.
Количество кодовых группировок определяется количеством фасетов и равно 4.
Выберем десятичную систему счисления в качестве алфавита кодировки, что позволит для значений фасетов выделить один разряд и иметь длину кода, равную 4.
В отличие от последовательного кодирования для иерархической системы классификации в данном метоле не имеет значения порядок кодировки фасетов.
В общем виде код можно записать как ХХХХ, где Х - значение десятичного разряда.
Рассмотрим структуру кода, начиная со старшего разряда:
1-й (старший) разряд выделен для фасета "кол" и имеет следующие значения: 1 - мужчины; 2 - женщины;
2-й разряд выделен для фасета "наличие детей у женщин" и имеет следующие значения: 1 - есть дети; 2 - нет детей; 0 - для мужчин, так как подобной информации не требуется;
3-й разряд выделен для фасета "возраст" и имеет следующие значения: 1 - до 20 лет; 2 - от 20 до 30 лет; 3 - свыше 30 лет;
4-й разряд выделен для фасета "название факультета" и имеет следующие значения 1 - радиотехнический, 2 - машиностроительный, 3 - коммерческий; 4 - информационные системы; 5 - математический и т.д.
Принятая система кодирования позволяет легко расшифровать любой кол группировки, например:
2135 - женщины в возрасте свыше 30 лет, имеющие детей и являющиеся студентами математического факультета;
1021 - мужчины возраста от 20 до 30 лет, являющиеся студентами радиотехнического факультета.