
- •Основы информатики после изучения главы вы должны знать:
- •Переход к информационному обществу
- •Информационная культура
- •Информационные ресурсы
- •Информационные продукты и услуги
- •Информатика, ее цель и задачи
- •Структура информатики
- •Измерение и представление информации
- •Измерение информации
- •Свойства информации
- •Классификация информации
- •Кодирование информации
- •Ключевые понятия
- •Вопросы для самопроверки
- •Информационные системы и технологии после изучения главы вы должны знать:
- •Информационные системы
- •Процессы в информационной системе
- •Структура информационной системы
- •Классификация информационных систем
- •Информационные технологии
- •Инструментарий информационной технологии
- •Соотношение информационной технологии и информационной системы
- •Составляющие информационной технологии
- •Этапы развития информационных технологий
- •Виды информационных технологий
- •Ключевые понятия
- •Вопросы для самопроверки
Классификация информации
Важным понятием при работе с информацией является классификация объектов.
Классификация – система распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенным признаком.
Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств. Таким образом, классификация объектов – это процедура группировки на качественном уровне, направленная на выделение однородных свойств. Применительно к информации как к объекту классификации выделенные классы называют информационными объектами.
Пример 1.5. Всю информацию об университете можно классифицировать по многочисленным информационным объектам, которые будут характеризоваться общими свойствами:
информация о студентах – в виде информационного объекта «Студент»;
информация о преподавателях – в виде информационного объекта «Преподаватель»;
информация о факультетах – в виде информационного объекта «Факультет» и т. п.
Свойства информационного объекта определяются информационными параметрами, называемыми реквизитами. Реквизиты представляются либо числовыми данными (например, вес, стоимость, год), либо признаками (например, цвет, марка автомобиля, фамилия).
Реквизит – логически неделимый информационный элемент, описывающий определенное свойство объекта, процесса, явления и т. п.
Пример 1.6. Информация о каждом студенте может быть представлена посредством одинаковых реквизитов:
фамилия, имя, отчество;
пол;
год рождения;
место рождения;
адрес проживания;
факультет, на котором обучается студент, и т. д.
Кроме выявления общих свойств информационного объекта, классификация нужна для разработки правил и процедур обработки информации, представленной совокупностью реквизитов.
При любой классификации желательно, чтобы соблюдались следующие требования:
полнота охвата объектов рассматриваемой области;
однозначность реквизитов;
возможность включения новых объектов.
В любой стране разработаны и применяются государственные, отраслевые, региональные классификаторы. В частности, классифицированы отрасли промышленности, оборудование, профессии, единицы измерения, статьи затрат и т. д.
Классификатор – систематизированный свод наименований и кодов классификационных группировок.
При классификации широко используются понятия классификационный признак и значение классификационного признака, которые позволяют установить сходство или различие объектов. Возможен подход к классификации с объединением этих двух понятий в одно, называемое признаком классификации.
Пример 1.7. В качестве признака классификации выбирается возраст, который состоит из трех значений: до 20 лет, от 20 до 30 лет, свыше 30 лет.
Также можно сказать, что выбраны три признака классификации: возраст до 20 лет, возраст от 20 до 30 лет, возраст свыше 30 лет.
Существуют три метода классификации объектов: иерархический, фасетный и дескрипторный. Они различаются разной стратегией применения классификационных признаков.
Иерархическая система классификации (рис. 1.5) строится следующим образом:
исходное множество элементов составляет 0-й уровень и делится в зависимости от выбранного классификационного признака на классы, которые образуют 1-й уровень;
каждый класс 1-го уровня в соответствии со своим классификационным признаком делится на подклассы, которые образуют 2-й уровень;
каждый класс 2-го уровня аналогично делится на группы, которые образуют 3-й уровень, и т. д.
Учитывая достаточно жесткую процедуру построения иерархической структуры, необходимо перед выполнением классификации определить, какими свойствами должны обладать объединяемые в классы объекты. Эти свойства будут являться признаками классификации.
Рис. 1.5. Иерархическая система классификации
В иерархической системе классификации каждый объект на любом уровне должен быть отнесен к одному классу, который характеризуется конкретным значением выбранного классификационного признака. Для последующей группировки в каждом новом классе необходимо задать свои классификационные признаки и их значения. Таким образом, выбор классификационных признаков будет зависеть от семантического содержания того класса, для которого необходима группировка на последующем уровне иерархии. Количество уровней, соответствующее числу признаков классификации, характеризует глубину классификации.
Достоинства иерархической системы классификации:
простота построения;
использование независимых классификационных признаков в различных ветвях иерархической структуры.
Недостатки иерархической системы классификации:
жесткая структура, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки;
невозможность группировать объекты по заранее не предусмотренным сочетаниям признаков.
Пример 1.8. Создать иерархическую систему классификации для информационного объекта «Факультет», которая позволит классифицировать информацию обо всех студентах по следующим классификационным признакам: факультет, на котором он обучается, возрастной состав студентов, пол студента, для женщин – наличие детей.
Система классификации представлена на рис. 1.6 и будет иметь следующие уровни:
0-й уровень. Информационный объект «Факультет»;
1-й уровень. Выбирается классификационный признак – название факультета, что позволяет выделить несколько классов с разными названиями факультетов, в которых хранится информация обо всех студентах.
2-й уровень. Выбирается классификационный признак – возраст, который имеет три значения: моложе 20 лет, от 20 до 30 лет, старше 30 лет. В результате по каждому факультету, выделяются три возрастных подкласса студентов.
3-й уровень. Выбирается классификационный признак – пол. В результате каждый подкласс 2-го уровня разбивается на две группы – женщин и мужчин.
4-й уровень. Выбирается классификационный признак – наличие детей у женщин (есть или нет).
Созданная иерархическая система классификации имеет глубину, равную четырем.
Фасетная система классификации в отличие от иерархической позволяет выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасетами. Каждый фасет содержит совокупность однородных значений данного классификационного признака. При этом значения в фасете могут располагаться в произвольном порядке, хотя желательно, чтобы они были упорядочены.
Рис. 1.6. Пример иерархической системы классификации для информационного объекта «Факультет»
Схема
построения фасетной системы классификации
в виде таблицы отображена на рис. 1.7.
Названия столбцов соответствуют
выделенным фасетам, которые обозначены
,
, …,
,
…,
.
В каждой ячейке столбца хранится одно
определенное значение фасета.
Рис. 1.7. Фасетная система классификации
Процедура классификации состоит в присвоении каждому объекту соответствующих значений фасетов. При этом могут быть использованы не все фасеты. Для каждого объекта задается конкретная группировка фасетов с помощью структурной формулы, в которой отражается порядок их следования:
,
где
–
-й
фасет;
– количество фасетов.
При построении фасетной системы необходимо, чтобы значения, используемые в различных фасетах, не повторялись. Фасетную систему легко можно модифицировать, внося изменения в значениях любого фасета.
Достоинства фасетной системы классификации:
возможность создания классификации большой емкости, т. е. использования большого числа признаков классификации и их значений для создания группировок;
возможность простой модификации всей системы классификации без изменения структуры существующих группировок.
Недостатком фасетной системы классификации является сложность ее построения, так как необходимо учитывать все многообразие классификационных признаков.
Пример 1.9. Для иерархической системы, представленной на рис. 1.5, разработать фасетную систему классификации.
Сгруппируем и представим в виде таблицы (рис. 1.8) все классификационные признаки по фасетам:
фасет Факультет с двумя значениями;
фасет Возраст с тремя значениями;
фасет Пол с двумя значениями;
фасет Дети с двумя значениями.
Факультет |
Возраст |
Пол |
Дети |
Коммерческий |
Моложе 20 лет |
М |
Есть |
Информационные системы |
От 20 до 30 лет |
Ж |
Нет |
|
Старше 30 лет |
|
|
Рис. 1.8. Пример фасетной системы классификации для информационного объекта «Факультет»
Структурную формулу любого класса можно представить в виде
(Факультет,
Возраст, Пол, Дети).
Присваивая конкретные значения каждому фасету, можно получить следующие классы:
(Факультет информационных систем, в возрасте моложе 20 лет, мужчина, дети есть);
(Коммерческий факультет, в возрасте от 20 до 30 лет, мужчина, детей нет);
( Коммерческий факультет, в возрасте моложе 20 лет, женщина, детей нет) и т. д.
Для организации поиска информации и ведения тезаурусов эффективно использовать дескрипторную (описательную) систему классификации, язык которой приближается к естественному языку описания информационных объектов. Суть дескрипторного метода классификации заключается в следующем:
отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов, причем среди ключевых слов могут быть синонимы;
выбранные ключевые слова и словосочетания подвергаются нормализации, т. е. из совокупности синонимов выбирается один или несколько наиболее употребляемых;
создается словарь дескрипторов, т. е. ключевых слов и словосочетаний, отобранных в результате выполнения нормализации.
Пример 1.10. В качестве предметной области выбирается учебная деятельность в высшем учебном заведении.
В качестве ключевых слов могут быть выбраны: ассистент, аудитория, доцент, занятие, коллега, комната, лектор, лекция, обучаемый, педагог, подразделение университета, практическое занятие, преподаватель, профессор, студент, учащийся, учитель, факультет.
Среди указанных ключевых слов встречаются синонимы: студент, обучаемый, учащийся; преподаватель, учитель, педагог; факультет, подразделение университета.
После нормализации словарь дескрипторов будет состоять из следующих слов: ассистент, аудитория, доцент, лектор, лекция, практическое занятие, преподаватель, профессор, студент, факультет.
Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов:
синонимические, указывающие на то, что ключевые слова являются синонимами;
родо-видовые, отражающие включение некоторого класса объектов в более представительный класс;
ассоциативные, соединяющие дескрипторы, которые обладают общими свойствами.
Пример 1.11. Синонимическая связь: студент – учащийся – обучаемый.
Родо-видовая связь: университет – факультет – кафедра.
Ассоциативная связь: студент – экзамен – профессор – аудитория.