Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИО_ИС_3лекция.doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
9.38 Mб
Скачать

Дескрипторная система классификации

· Для организации поиска информации, для ведения тезаурусов

(словарей) эффективно используется дескрипторная

(описательная) система классификации, язык которой

приближается к естественному языку описания

информационных объектов. Особенно широко она используется

в библиотечной системе поиска.

· Суть дескрипторного метода классификации заключается в

ллееддууюющщеемм::

– отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;

– выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых;

– создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.

СИСТЕМЫ КОДИРОВАНИЯ

СИСТЕМЫ КОДИРОВАНИЯ

Система кодирования применяется для замены названия объекта на условное обозначение (код) в целях обеспечения удобной и более эффективной обработки информации.

Система кодирования » совокупность правил одового обозначения объектов. Код строится на

азе алфавита, состоящего из букв, цифр и других символов. Код характеризуется:

· длиной - число позиций в коде;

· структурой » порядок расположения в коде символов, используемых для обозначения классификационного признака.

Процедура присвоения объекту кодового обозначения называется кодированием.

Можно выделить две группы методов, используемых в системе кодирования, которые образуют:

· классификационную систему кодирования, ррииееннттииррооввааннннууюю ннаа ппррооввееддееннииее

предварительной классификации объектов либо на основе иерархической системы, либо на основе фасетной системы;

· регистрационную систему кодирования, не требующую предварительной классификации объектов.

Система кодирования, использующая разные методы

Классификационное кодирование

Классификационное кодирование применяется после проведения классификации объектов. Различают последовательное и параллельное кодирование.

Последовательное кодирование используется для иерархической классификационной структуры.

Суть метода заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня,

ааттеемм ккоодд ггррууппппииррооввккии 33--ггоо ууррооввнняя ии тт..дд.. ВВ ррееззууллььттааттее ппооллууччааееттссяя кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры. Последовательная система кодирования обладает теми же достоинствами и недостатками, что и иерархическая система классификации.

· Х - класс

· ХХ - подкласс · ХХХ - группа

· ХХХХ – подгруппа

Пример. Проведем кодирование информации,

классифицированной с помощью

иерархической схемы. Количество кодовых группировок будет определяться глубиной классификации и равно 4. Прежде чем начать

кодирование, необходимо определиться с

алфавитом, т.е. какие будут использоваться

символы. Для большей наглядности выберем

десятичную систему счисления » 10 арабских

ииффрр..

Анализ показывает, что длина кода

определяется 4 десятичными разрядами, а

кодирование группировки на каждом уровне

можно делать путем последовательной

нумерации слева направо. В общем виде код

можно записать как ХХХХ, где Х » значение

десятичного разряда.

Рассмотрим структуру кода, начиная со старшего разряда:

· 1-й (старший) разряд выделен для классификационного

признака "название факультета" и имеет следующие значения:

1 » коммерческий; 2 » информационные системы; 3 » для

следующего названия факультета и т.д.; a

· 2-й разряд выделен для классификационного признака

"возраст" и имеет следующие значения: 1 » до 20 лет; 2 » от 20

до 30 лет; 3 » свыше 30 лет;

· 3-й разряд выделен для классификационного признака "пол" и

меет следующие значения: 1 » мужчины; 2 » женщины;

· 4-й разряд выделен для классификационного признака

"наличие детей у женщин" и имеет следующие значения: 1 »

есть дети; 2 » нет детей, 0 » для мужчин, так как подобной

информации не требуется.

Принятая система кодирования позволяет легко расшифровать

любой код группировки, например:

· 1310 » студенты коммерческого факультета, свыше 30 лет,

мужчины;

· 2221 » студенты факультета информационных систем, от 20 до

30 лет, женщины, имеющие детей.

Параллельное кодирование используется для фасетной системы классификации.

Суть метода заключается в следующем:

все фасеты кодируются независимо друг от друга;

– для значений каждого фасета выделяется определенное количество разрядов кода.

Параллельная система кодирования обладает теми же достоинствами и недостатками, что и фасетная система классификации.

ример. Проведем кодирование информации, классифицированной с помощью фасетной схемы. Количество кодовых группировок определяется количеством фасетов и равно 4. Выберем десятичную систему счисления в качестве алфавита кодировки, что позволит для значений фасетов выделить один разряд и иметь длину кода, равную 4. В отличие от последовательного кодирования для иерархической системы классификации в данном методе не имеет значения порядок кодировки фасетов. В общем виде код можно записать как ХХХХ, где Х » значение десятичного разряда.

аассссммооттрриимм ссттррууккттуурруу ккооддаа,, ннааччииннааяя ссоо ссттаарршшееггоо ррааззрряяддаа::

– 1-й (старший) разряд выделен для фасета "пол" и имеет следующие значения: 1 » мужчины; 2 » женщины;

– 2-й разряд выделен для фасета "наличие детей у женщин" и имеет следующие значения: 1 » есть дети; 2 » нет детей, 0 » для мужчин, так как подобной информации не требуется;

– 3-й разряд выделен для фасета "возраст" и имеет следующие значения: 1 » до 20 лет; 2 » от 20 до 30 лет; 3 » свыше 30 лет;

– 4-й разряд выделен для фасета "название факультета" и имеет следующие значения:

1 » радиотехнический, 2 » машиностроительный, 3 » коммерческий; 4 » информационные системы; 5 » математический и т.д.

Принятая система кодирования позволяет легко расшифровать любой код группировки, например:

135 » женщины в возрасте свыше 30 лет, имеющие детей и являющиеся студентами математического факультета;

· 1021 » мужчины возраста от 20 до 30 лет, являющиеся студентами радиотехнического факультета.

Регистрационное кодирование

· Регистрационное кодирование используется для однозначной идентификации объектов и не требует предварительной классификации объектов. Различают порядковую и серийно-

порядковую систему.

· Порядковая система кодирования

предполагает последовательную нумерацию

бъектов числами натурального ряда. Этот

порядок может быть случайным или определяться после предварительного

упорядочения объектов, например по

алфавиту. Этот метод применяется в том

случае, когда количество объектов невелико,

например кодирование названий

факультетов университета, кодирование

студентов в учебной группе.

· Серийно-порядковая система кодирования предусматривает предварительное выделение групп объектов, которые составляют серию, а затем в каждой серии производится порядковая нумерация объектов. Каждая серия также будет иметь порядковую нумерацию. По своей сути

ееррииййнноо оорряяддккооввааяя ссииссттееммаа яяввлляяееттссяя ссммеешшаанннноойй:: классифицирующей и идентифицирующей. Применяется тогда, когда количество групп невелико.

· Пример. Все студенты одного факультета разбиваются на учебные группы (в данной терминологии » серии), для которых используется порядковая нумерация. Внутри каждой группы производится упорядочение фамилий студентов по алфавиту и каждому студенту присваивается номер.

Обнаружения ошибок кодирования

Практически все методы обнаружения ошибок в кодовых комбинациях используют избыточное кодирование, связанное с введением дополнительных контрольных разрядов в кодовую комбинацию. Имеется целый ряд алгоритмов вычисления контрольного числа записываемого в контрольный разряд. Эти алгоритмы основаны на суммировании цифр кода (с весовыми коэффициентами или без них) и деления полученной суммы на определенное число.

акие методы получили название онтроля по модулю. На основе роведенных исследований была разработана методика для расчета

контрольных чисел в кодах ОК ТЭИ (общероссийский классификатор технико-экономической и социальной информации).

Для защиты кодов общесоюзных классификаторов (в 80-е годы) использовался метод расчета контрольного числа по модулю 11.

Для расчета контрольного числа значение каждой цифры умножается на весовой коэффициент, сумма произведений делится на 11, а остаток от деления записывается в контрольный разряд. Для кодов общесоюзных классификаторов принят один контрольный разряд и единая последовательность весов для разрядов кодовой комбинации.

Понятие Единой системы классификации и кодирования (ЕСКК)

Для обеспечения информационной совместимости ЭИС разных уровней разработана Единая система классификации и кодирования (ЕСКК). ЕСКК предназначена для выполнения следующих функций:

- централизованной разработки общесистемных ((ооббщщееггооссууддааррссттввеенннныыхх)) ккллаассссииффииккааттоорроовв

- пополнения и обновления, своевременного и систематического оповещения организаций обо всех изменениях, внесенных в классификаторы;

- ответов на разовые запросы;

- оптимизации структуры классификаторов;

- проведению работы по созданию информационно -поисковых языков

Схема структуры ЕСКК

Все общесистемные классификаторы в зависимости от

используемой системы классификации в процессе их

проектирования построены по двум принципам.

· Первый принцип основывается на идентификации

объектов внутри классификационных группировок с

использованием иерархической системы классификации.

ля примера рассмотрим структуру общесистемного

классификатора промышленной и сельскохозяйственной

продукции (ОКП), который основывается на использовании

иерархической системы классификации и состоит из двух

блоков: блока наименования и блока идентификации. Блок

идентификации состоит из классификационной,

регистрационной и контрольной части кода

Схема структуры ОКП

Второй принцип основывается на использовании фасетной системы классификации. Для примера

аассссммооттрриимм ссттррууккттуурруу ооббщщеессииссттееммннооггоо классификатора предприятий и организаций (ОКПО ). Этот классификатор состоит из трех блоков.

Структура общесистемного классификатора предприятий и организаций (ОКПО )