Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Практическая работа 1 Упорядочение систем путе...docx
Скачиваний:
0
Добавлен:
11.02.2020
Размер:
85.28 Кб
Скачать

Практическая работа № 8

Упорядочение систем путем кодировки и нумерации элементов

1. Теоретический материал

Информация, ее виды и свойства

Качество информации – обобщенная положительная характеристика информации, отражающая степень ее полезности для пользователя.

Показатель качества – это характеристика отношения «информация – потребитель», одно из важных положительных свойств информации. С научной точки зрения показатель качества характеризует отношение «информация – отражаемый объект» (явление).

По способу внутренней организации информацию делят на две группы: 1. Данные (неупорядоченный набор сведений). 2. Наборы данных (логически упорядоченные сведения).

Знания представляют собой (в отличие от данных) информацию не о каком-то единичном и конкретном факте, а о том, как устроены все факты определенного типа.

Свойства информации: • релевантность (способность соответствовать запросам потребителя); • полнота; • своевременность; • достоверность; • доступность; • защищенность; • эргономичность (удобство формы или объема с точки зрения потребителя); • адекватность (однозначное соответствие отражаемому объекту или явлению); • живучесть (способность сохранять свое качество с течением времени); • уникальность (эталонная информация должна храниться в единственном экземпляре).

Отражение информации Не важна природа исходной информации, если существует принципиальная возможность ее преобразования в текст на конечном алфавите. Формальные двухбуквенные системы, в силу их тривиальности, составляют основу хранения и обработки информации в современных вычислительных устройствах.

Аналоговая и дискретная информация.

С позиций субъективного подхода информация – это знания, сведения, которыми обладает человек, которые он получает из окружающего мира. С позиций кибернетического подхода информация – это содержание последовательности символов (сигналов) из некоторого алфавита. Информативным называется сообщение, которое пополняет знания человека, т.е. несет для него информацию.

Количество информации 1. С содержательной точки зрения, это – количество информации в сообщении о событии:

i = log2 1/p,

где i – количество информации в сообщении о событии; p – вероятность события. Если Р = 1/2, то I =1 (эта единица названа битом от английского binary digit).

2. С кибернетической точки зрения, это – количество информации в символьном сообщении:

I = ik,

где i – информационный вес символа:

i = log2 N;

к – число символов в сообщении; N – мощность алфавита:

Если N = 2, то I = 1 [бит].

3. Теоретическое определение (Шеннон К.) Информационная энтропия – оценка неопределенности некоторого опыта А, имеющего К исходов:

Свойства энтропии: • энтропия всегда положительна; • энтропия детерминированного события (его вероятность равна единице) равна нулю; • наибольшей энтропией, равной единице, обладает событие с равновероятными исходами.

Единица измерения энтропии – это неопределенность события, имеющего два равновероятных исхода:

Максимальное количество информации, которое может быть получено из некоторого опыта (события), равняется его неопределенности:

Неопределенность опыта В понижается после проведения опыта А.

Количество информации в битах равно количеству вопросов типа «да/нет», необходимых для полного выяснения состояния системы.

Единицы количества информации:

Основные информационные процедуры

Абстрактная информация передается с помощью конкретных сообщений и извлекается из конкретных сообщений.

Сообщения (сигналы) имеют реальное материальное выражение в виде различных состояний некоторого материального носителя (текст в некотором алфавите, электромагнитные колебания, воздушные колебания).

Информация – это то, что улавливается из сообщения. Один и тот же сигнал может быть истолкован по-разному в зависимости от целей и условий его интерпретации (пример – лампа на пульте), т.е. понятие это является субъективным.

Кодирование(представление информации) – это представление сообщений и сигналов в виде, удобном для конкретных целей. Виды кодирования: логическое, физическое, программное, машинное.

Источник – объект, генерирующий информацию. Приемник – объект, который принимает информацию от других объектов.

Носитель – объект (предмет), в котором произошли какие-то изменения, вызванные воздействием на него других объектов, предметов, явлений, процессов, систем.

Сигнал – это явление (процесс), являющийся материальным носителем информации и способный изменить внутреннюю структуру некоторой кибернетической системы.

Классификация и кодирование информации 

Системы классификации

Классификация – система распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенными признаками. Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств.

Классификация объектов – это процедура группировки на качественном уровне, направленная на выделение однородных свойств. Применительно к информации как к объекту классификации выделенные классы называют информационными объектами.

Свойства информационного объекта определяются информационными параметрами, называемыми реквизитами. Реквизит – логически неделимый информационный элемент, описывающий определенное свойство объекта, явления и т.п.  Реквизиты представляются либо числовыми данными (вес, стоимость, год), либо признаками (цвет, марка машины, фамилия).

Кроме выявления общих свойств информационного объекта классификация нужна для разработки правил (алгоритмов) и процедур обработки информации, представленной совокупностью реквизитов.

При любой классификации желательно, чтобы соблюдались следующие требования: * полнота охвата объектов; * однозначность реквизитов; * возможность включения новых реквизитов. В каждой стране разработаны и применяются государственные, отраслевые, региональные классификаторы. Классифицированы, например, отрасли промышленности, оборудование, единицы измерения, статьи затрат и т.д.

Классификатор – это систематизированный свод наименований и кодов классификационных группировок.

При классификации применяются понятия классификационный признак и его значение, которые позволяют установить сходство или различие объектов. Возможен подход к классификации с объединением этих двух понятий в одно, названное признак классификации (синоним – основание деления).

Разработаны три метода классификации объектов: иерархический, фасетный, дескрипторный. Эти методы различаются разной стратегией применения классификационных признаков.

Иерархическая система классификации

Эта система строится следующим образом: 1. Исходное множество элементов составляет нулевой уровень и делится в зависимости от выбранного классификационного признака на классы (группировки), которые образуют первый уровень. 2. Каждый класс первого уровня в соответствии с характерным для него классификационным признаком делится на подклассы, которые образуют второй уровень. 3. Каждый класс второго уровня аналогично делится на группы, которые образуют третий уровень и т.д.

Учитывая достаточно жесткую процедуру построения структуры классификации, необходимо перед началом работы определить ее цель, т.е. какими свойствами должны обладать объединяемые в классы объекты. Эти свойства применяются в дальнейшем за признаки классификации.

В иерархической системе классификации каждый объект на любом уровне должен быть отнесен к одному классу, который характеризуется конкретным значением выбранного классификационного признака. Для последующей группировки в каждом новом классе необходимо задать свои классификационные признаки и их значения. Таким образом, выбор классификационного признака будет зависеть от семантического содержания того класса, для которого необходима группировка на последующем уровне классификации.

Достоинства иерархической системы классификации: * простота построения; * использование независимых классификационных признаков в различных ветвях иерархической структуры.

Недостатки иерархической системы классификации: * жесткая структура, которая приводит к сложности внесения изменений, т.к. приходится перераспределять все классификационные группировки; * невозможность группировать объекты по заранее не предусмотренным сочетаниям признаков.

Пример: иерархическая система классификации для информационного объекта «Факультет».

Фасетная система классификации

Эта система классификации позволяет (в отличие от иерархической) выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называют фасетами (faset – рамка). Каждый фасет содержит совокупность значений данного классификационного признака (например, фасет цвет содержит значения: красный, белый, зеленый, черный, желтый). Значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.

Процедура классификации состоит в присвоении каждому объекту соответствующих значений из фасетов. При этом могут использоваться не все фасеты.  Для каждого объекта задается конкретная группировка фасетов структурной формулой, в которой отражается порядок их следования:

Здесь Fi – i-й фасет; n – количество фасетов. При построении фасетной системы классификации необходимо, чтобы значения, используемые в различных фасетах, не повторялись.

Достоинства фасетной системы классификации: * возможность создания классификации большой емкости без изменения структуры существующих группировок; * возможность простой модификации всей системы классификации без изменения структуры существующих группировок.

Недостатком фасетной системы классификации является сложность ее построения, т.к. необходимо учитывать все разнообразие классификационных признаков.

Дескрипторная система классификации

Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов. Особенно широко она используется в библиотечной системе поиска.

Суть дескрипторного метода заключается в следующем: 1. Отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов, причем среди ключевых слов могут находиться синонимы. 2. Выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребляемых. 3. Создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.

Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов: * синонимические, указывающие на некоторую совокупность ключевых слов как синонимов («студент – учащийся – обучаемый»); * родовидовые, отображающие включение некоторого класса объектов в более представительный класс («университет – факультет – кафедра»); * ассоциативные, соединяющие дескрипторы, обладающие общими свойствами («студент – экзамен – профессор – аудитория»).

Система кодирования. Общие понятия

Система кодирования – это совокупность правил кодового обозначения объектов. Кодирование применяется для замены названия объекта на условное значение (код) в целях обеспечения удобной и эффективной обработки информации.

Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется: * диной – числом позиций в коде; * структурой – порядком расположения в коде символов, используемых для обозначения классификационного признака. Процедура присвоения объекту кодового обозначения называется кодированием.

Можно выделить две группы методов, используемых в системе кодирования: * классификационную систему кодирования, ориентированную на проведение предварительной классификации объектов либо на основе иерархической системы, либо на основе фасетной системы; * регистрационную систему кодирования, не требующую предварительной классификации объектов.

В системе классификационного кодирования различают последовательное и параллельное кодирование.

Последовательное кодирование используется для иерархической классификационной структуры. Суть метода заключается в следующем: сначала записывается код старшей группировки первого уровня, затем код группировки второго уровня, затем код группировки третьего уровня и т.д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры. Последовательная система кодирования обладает теми же достоинствами и недостатками, что и иерархическая система классификации.

Пример. Коды группировок (смотри схему в п. 4.1): 131 – студенты педагогического факультета, свыше 30 лет, мужчины; 222 – студенты педагогического факультета, от 20 до 30 лет, женщины.

Параллельное кодирование используется для фасетной системы классификации. Суть метода заключается в следующем: все фасеты кодируются независимо друг от друга; для значений каждого фасета выделяется определенное количество разрядов кода. Параллельная система кодирования обладает теми же достоинствами и недостатками, что и фасетная система классификации.

Регистрационное кодирование используется для однозначной идентификации объектов и не требует их предварительной классификации. Различают порядковую и серийно-порядковую системы.

Порядковая система кодирования предполагает последовательную нумерацию объектов числами натурального ряда. Этот порядок может быть случайным или определяться после предварительного упорядочения объектов, например по алфавиту. Этот метод применяется в том случае, когда количество объектов невелико, например кодирование названий факультетов университета, кодирование студентов в учебной группе.

Серийно-порядковая система кодирования предусматривает предварительное выделение групп объектов, которые составляют серию, а затем в каждой серии производится порядковая нумерация объектов. Каждая серия также будет иметь порядковую нумерацию. По своей сути серийно-порядковая система является смешанной – классифицирующей и идентифицирующей одновременно. Ее применение целесообразно, когда количество групп невелико.

Системы счисления

Система счисления – это способ наименования и изображения чисел с помощью символов, имеющих определенные количественные значения. Систему счисления образует совокупность правил и приемов представления чисел с помощью набора знаков (цифр).

Различают следующие системы счисления: натуральные; аддитивные; позиционные.

Натуральная система счисления: множество из одного символа (абак, счеты). Пример: 3 - > III.

Аддитивная система счисления: любое число получается путем сложения и вычитания базисных чисел. Пример:  40 - > XL; 146 - > CXLVI. Это – римская система (I = 1, V = 5, X = 10, L = 50, D = 500, M = 1000).

Позиционная система счисления: значение каждой цифры (ее вес) изменяется в зависимости от ее положения (позиции) в последовательности цифр (полиноме), изображающих число:

Примеры: 1) десятичная система: {0, 1, 2,…, 9} – 97; 2) двоичная система: {0,1} – 110. Простота реализации двоичного кода определила его использование для представления информации в вычислительных устройствах; 3) восьмеричная система: {0, 1, 2,…, 7} – 45; 4) шестнадцатеричная система: {0, 1, 2,…, 9, A, B, C, D, E, F) – 2A8D.

Перевод чисел из любой позиционной системы в десятичную определяется ее разложением в полином. Пример:

Обратный перевод для целых чисел осуществляется по алгоритму деления исходного десятичного числа на основание требуемой системы счисления. Для дробных чисел применяется алгоритм умножения.

Пример: