
- •Уровни исследования информации
- •Уровни исследования информации
- •Уровни исследования информации
- •Тезаурусная мера измерения информации
- •Зависимость количества семантической информации, воспринимаемой потребителем, от
- •Классификация информации по разным признакам
- •Иерархическая система классификации
- •Иерархическая система классификации
- •Фасетная система классификации
- •Фасетная система классификации
- •Фасетная система классификации
- •Дескрипторная система классификации
- •Классификационное кодирование
- •Общероссийский классификатор управленческой документации (окуд)
Дескрипторная система классификации
· Для организации поиска информации, для ведения тезаурусов
(словарей) эффективно используется дескрипторная
(описательная) система классификации, язык которой
приближается к естественному языку описания
информационных объектов. Особенно широко она используется
в библиотечной системе поиска.
· Суть дескрипторного метода классификации заключается в
ллееддууюющщеемм::
– отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;
– выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых;
– создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.
СИСТЕМЫ КОДИРОВАНИЯ
СИСТЕМЫ КОДИРОВАНИЯ
Система кодирования применяется для замены названия объекта на условное обозначение (код) в целях обеспечения удобной и более эффективной обработки информации.
Система кодирования » совокупность правил одового обозначения объектов. Код строится на
азе алфавита, состоящего из букв, цифр и других символов. Код характеризуется:
· длиной - число позиций в коде;
· структурой » порядок расположения в коде символов, используемых для обозначения классификационного признака.
Процедура присвоения объекту кодового обозначения называется кодированием.
Можно выделить две группы методов, используемых в системе кодирования, которые образуют:
· классификационную систему кодирования, ррииееннттииррооввааннннууюю ннаа ппррооввееддееннииее
предварительной классификации объектов либо на основе иерархической системы, либо на основе фасетной системы;
· регистрационную систему кодирования, не требующую предварительной классификации объектов.
Система
кодирования,
использующая
разные
методы
Классификационное кодирование
Классификационное кодирование применяется после проведения классификации объектов. Различают последовательное и параллельное кодирование.
Последовательное кодирование используется для иерархической классификационной структуры.
Суть метода заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня,
ааттеемм ккоодд ггррууппппииррооввккии 33--ггоо ууррооввнняя ии тт..дд.. ВВ ррееззууллььттааттее ппооллууччааееттссяя кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры. Последовательная система кодирования обладает теми же достоинствами и недостатками, что и иерархическая система классификации.
· Х - класс
· ХХ - подкласс · ХХХ - группа
· ХХХХ – подгруппа
Пример. Проведем кодирование информации,
классифицированной с помощью
иерархической схемы. Количество кодовых группировок будет определяться глубиной классификации и равно 4. Прежде чем начать
кодирование, необходимо определиться с
алфавитом, т.е. какие будут использоваться
символы. Для большей наглядности выберем
десятичную систему счисления » 10 арабских
ииффрр..
Анализ показывает, что длина кода
определяется 4 десятичными разрядами, а
кодирование группировки на каждом уровне
можно делать путем последовательной
нумерации слева направо. В общем виде код
можно записать как ХХХХ, где Х » значение
десятичного разряда.
Рассмотрим структуру кода, начиная со старшего разряда:
· 1-й (старший) разряд выделен для классификационного
признака "название факультета" и имеет следующие значения:
1 » коммерческий; 2 » информационные системы; 3 » для
следующего названия факультета и т.д.; a
· 2-й разряд выделен для классификационного признака
"возраст" и имеет следующие значения: 1 » до 20 лет; 2 » от 20
до 30 лет; 3 » свыше 30 лет;
· 3-й разряд выделен для классификационного признака "пол" и
меет следующие значения: 1 » мужчины; 2 » женщины;
· 4-й разряд выделен для классификационного признака
"наличие детей у женщин" и имеет следующие значения: 1 »
есть дети; 2 » нет детей, 0 » для мужчин, так как подобной
информации не требуется.
Принятая система кодирования позволяет легко расшифровать
любой код группировки, например:
· 1310 » студенты коммерческого факультета, свыше 30 лет,
мужчины;
· 2221 » студенты факультета информационных систем, от 20 до
30 лет, женщины, имеющие детей.
Параллельное кодирование используется для фасетной системы классификации.
Суть метода заключается в следующем:
все фасеты кодируются независимо друг от друга;
– для значений каждого фасета выделяется определенное количество разрядов кода.
Параллельная система кодирования обладает теми же достоинствами и недостатками, что и фасетная система классификации.
ример. Проведем кодирование информации, классифицированной с помощью фасетной схемы. Количество кодовых группировок определяется количеством фасетов и равно 4. Выберем десятичную систему счисления в качестве алфавита кодировки, что позволит для значений фасетов выделить один разряд и иметь длину кода, равную 4. В отличие от последовательного кодирования для иерархической системы классификации в данном методе не имеет значения порядок кодировки фасетов. В общем виде код можно записать как ХХХХ, где Х » значение десятичного разряда.
аассссммооттрриимм ссттррууккттуурруу ккооддаа,, ннааччииннааяя ссоо ссттаарршшееггоо ррааззрряяддаа::
– 1-й (старший) разряд выделен для фасета "пол" и имеет следующие значения: 1 » мужчины; 2 » женщины;
– 2-й разряд выделен для фасета "наличие детей у женщин" и имеет следующие значения: 1 » есть дети; 2 » нет детей, 0 » для мужчин, так как подобной информации не требуется;
– 3-й разряд выделен для фасета "возраст" и имеет следующие значения: 1 » до 20 лет; 2 » от 20 до 30 лет; 3 » свыше 30 лет;
– 4-й разряд выделен для фасета "название факультета" и имеет следующие значения:
1 » радиотехнический, 2 » машиностроительный, 3 » коммерческий; 4 » информационные системы; 5 » математический и т.д.
Принятая система кодирования позволяет легко расшифровать любой код группировки, например:
135 » женщины в возрасте свыше 30 лет, имеющие детей и являющиеся студентами математического факультета;
· 1021 » мужчины возраста от 20 до 30 лет, являющиеся студентами радиотехнического факультета.
Регистрационное кодирование
· Регистрационное кодирование используется для однозначной идентификации объектов и не требует предварительной классификации объектов. Различают порядковую и серийно-
порядковую систему.
· Порядковая система кодирования
предполагает последовательную нумерацию
бъектов числами натурального ряда. Этот
порядок может быть случайным или определяться после предварительного
упорядочения объектов, например по
алфавиту. Этот метод применяется в том
случае, когда количество объектов невелико,
например кодирование названий
факультетов университета, кодирование
студентов в учебной группе.
· Серийно-порядковая система кодирования предусматривает предварительное выделение групп объектов, которые составляют серию, а затем в каждой серии производится порядковая нумерация объектов. Каждая серия также будет иметь порядковую нумерацию. По своей сути
ееррииййнноо оорряяддккооввааяя ссииссттееммаа яяввлляяееттссяя ссммеешшаанннноойй:: классифицирующей и идентифицирующей. Применяется тогда, когда количество групп невелико.
· Пример. Все студенты одного факультета разбиваются на учебные группы (в данной терминологии » серии), для которых используется порядковая нумерация. Внутри каждой группы производится упорядочение фамилий студентов по алфавиту и каждому студенту присваивается номер.
Обнаружения ошибок кодирования
Практически все методы обнаружения ошибок в кодовых комбинациях используют избыточное кодирование, связанное с введением дополнительных контрольных разрядов в кодовую комбинацию. Имеется целый ряд алгоритмов вычисления контрольного числа записываемого в контрольный разряд. Эти алгоритмы основаны на суммировании цифр кода (с весовыми коэффициентами или без них) и деления полученной суммы на определенное число.
акие методы получили название онтроля по модулю. На основе роведенных исследований была разработана методика для расчета
контрольных чисел в кодах ОК ТЭИ (общероссийский классификатор технико-экономической и социальной информации).
Для защиты кодов общесоюзных классификаторов (в 80-е годы) использовался метод расчета контрольного числа по модулю 11.
Для расчета контрольного числа значение каждой цифры умножается на весовой коэффициент, сумма произведений делится на 11, а остаток от деления записывается в контрольный разряд. Для кодов общесоюзных классификаторов принят один контрольный разряд и единая последовательность весов для разрядов кодовой комбинации.
Понятие Единой системы классификации и кодирования (ЕСКК)
Для обеспечения информационной совместимости ЭИС разных уровней разработана Единая система классификации и кодирования (ЕСКК). ЕСКК предназначена для выполнения следующих функций:
- централизованной разработки общесистемных ((ооббщщееггооссууддааррссттввеенннныыхх)) ккллаассссииффииккааттоорроовв
- пополнения и обновления, своевременного и систематического оповещения организаций обо всех изменениях, внесенных в классификаторы;
- ответов на разовые запросы;
- оптимизации структуры классификаторов;
- проведению работы по созданию информационно -поисковых языков
Схема
структуры
ЕСКК
Все общесистемные классификаторы в зависимости от
используемой системы классификации в процессе их
проектирования построены по двум принципам.
· Первый принцип основывается на идентификации
объектов внутри классификационных группировок с
использованием иерархической системы классификации.
ля примера рассмотрим структуру общесистемного
классификатора промышленной и сельскохозяйственной
продукции (ОКП), который основывается на использовании
иерархической системы классификации и состоит из двух
блоков: блока наименования и блока идентификации. Блок
идентификации состоит из классификационной,
регистрационной и контрольной части кода
Схема
структуры
ОКП
Второй принцип основывается на использовании фасетной системы классификации. Для примера
аассссммооттрриимм ссттррууккттуурруу ооббщщеессииссттееммннооггоо классификатора предприятий и организаций (ОКПО ). Этот классификатор состоит из трех блоков.
Структура
общесистемного
классификатора
предприятий
и
организаций
(ОКПО
)