Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Глава 2. Економічна інформація як об'єкт автома...doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
388.61 Кб
Скачать

Фасетна система класифікації

Назва факультету

Вік

Стать

Діти

Менеджменту

До 20 років

Ж

Є

Інженерно-будівельний

20–30 років

Ж

Ні

Юридичний

До 20 років

Ж

Ні

Переваги фасетної системи класифікації:

– можливість створення досить великих рівнів класифікації, тобто використання великої кількості ознак та їх значень для створення угруповань;

– можливість здійснення простої модифікації всієї системи класифікації, без зміни структури існуючих угруповань.

Недоліки фасетної системи класифікації:

– складність побудови самої системи класифікації, у зв’язку з необхідністю урахування всього різноманіття класифікаційних ознак.

2.5.3. Дескрипторна система класифікації

Для організації можливості пошуку інформації, для ведення тезаурусів (словників) ефективно використовується дескрипторна2 (описова) система класифікації, мова якої наближається до мови опису інформаційних об’єктів. Створюється словник дескрипторів, тобто словник ключових слів та словосполучень, відібраних в результаті процедури нормалізації. Наприклад, в якості об’єкту класифікації розглянемо успішність студентів. Ключовими словами можуть бути обрані: оцінка, іспит, залік, викладач, студент, семестр, назва предмету. Оскільки тут відсутні синоніми, то дані ключові слова можуть використовуватись в якості словника дескрипторів.

Дана система класифікації досить поширена у бібліотечній системі пошуку.

Сутність дескрипторного методу класифікації полягає в наступному:

– відбирається сукупність ключових слів або словосполучень, які описують конкретну предметну область або сукупність однорідних об’єктів. Причому серед ключових слів і словосполучень, можуть знаходитись синоніми;

– обрані ключові слова та словосполучення підлягають нормалізації, тобто зі всієї сукупності синонімів, вибираються найбільш поширені;

Між дескрипторами встановлюються зв’язки, які дозволяють розширити область пошуку інформації. Зв’язки можуть бути трьох видів:

– синонімічні, що вказують на певну сукупність ключових слів як синонімів;

– родо-видові, які відображують включення певного класу об’єктів в більш представницький клас;

– асоціативні, які поєднують дескриптори, котрі володіють спільними властивостями.

Наприклад, синонімічний зв’язок: студент – учень – аспірант; родо-видовий зв’язок: інститут – факультет – кафедра; асоціативний зв’язок: студент – екзамен – професор – аудиторія.

2.6. Системи кодування

Під кодуванням розуміють процес створення кодів (набору цифр, букв та цифр і букв) та присвоєння їх підмножинам об'єктів, отриманих у ході класифікації.

2.6.1. Класифікаційне кодування

Класифікаційне кодування застосовується після проведення класифікації об'єктів. Воно ділиться на послідовне і паралельне кодування.

Послідовне кодування використовується для ієрархічної класифікаційної структури і передбачає виділення певних розрядів коду під певні ознаки. Суть методу полягає в наступному: спочатку записується код старшого угрупування 1-го рівня, потім код угрупування 2-го рівня, потім код угрупування 3-го рівня тощо. В результаті виходить кодова комбінація, кожний розряд якої містить інформацію про специфіку виділеної групи на кожному рівні ієрархічної структури. Послідовна система кодування володіє тими ж достоїнствами і недоліками, як і ієрархічна система класифікації.

Приклад. Проведемо кодування інформації, класифікованої за допомогою ієрархічної схеми. Кількість кодових угрупувань визначатиметься глибиною класифікації і дорівнює 4. Перш ніж почати кодування, необхідно визначитися з алфавітом, тобто які використовуватимуться символи. Для більшої наочності виберемо десяткову систему числення – 10 арабських цифр. Аналіз схеми на рис. 2.6 свідчить, що довжина коду визначається 4 десятковими розрядами, а кодування угрупування на кожному рівні можна робити шляхом послідовної нумерації зліва направо. В загальному вигляді код можна записати як ХХХХ, де X – значення десяткового розряду.

Розглянемо структуру коду, починаючи із старшим розрядом:

1-й (старший) розряд виділений для класифікаційної ознаки ”назва факультету” і має наступні значення: 1 – менеджменту; 2 – інженерно-будівельний; 3 – для наступної назви факультету тощо;

2-й розряд виділений для класифікаційної ознаки ”вік” і має наступні значення: 1 – до 20 років; 2 – від 20 до 30 років; 3 – понад 30 років;

3-й розряд виділений для класифікаційної ознаки ”стать” і має наступні значення: 1 – чоловіки; 2 – жінки.

4-й розряд виділений для класифікаційної ознаки ”наявність дітей у жінок” і має наступні значення: 1 – є діти; 2 – немає дітей, 0 – для чоловіків, оскільки подібної інформації не вимагається.

Прийнята система кодування дозволяє легко розшифрувати будь-який код угрупування, наприклад: 1310 – студенти факультету менеджменту, понад 30 років, чоловіки; 2221 – студенти інженерно-будівельного факультету, від 20 до 30 років, жінки, не мають дітей.

Паралельне кодування використовується для фасетної системи класифікації. Суть методу полягає в наступному: усі фасети кодуються незалежно один від одного; для значень кожного фасета виділяється певна кількість розрядів коду. Паралельна система кодування володіє тими ж достоїнствами і недоліками, що і фасетна система класифікації.

Приклад. Проведемо кодування інформації, класифікованої за допомогою фасетної схеми (табл. 2.1). Кількість кодових угрупувань визначається кількістю фасетів і дорівнює 4. Виберемо десяткову систему числення в якості алфавіту кодування, що дозволить для значень фасетів виділити один розряд і мати довжину коду, рівну 4. На відміну від послідовного кодування для ієрархічної системи класифікації в даному методі не має значення порядок кодування фасетів. В загальному вигляді код можна записати як ХХХХ, де X – значення десяткового розряду.

Розглянемо структуру коду, починаючи із старшим розрядом:

1-й (старший) розряд виділений для фасета ”стать” і має наступні значення: 1 – чоловіки; 2 – жінки;

2-й розряд виділений для фасета ”наявність дітей у жінок” і має наступні значення: 1 – є діти; 2 – немає дітей, 0 – для чоловіків, оскільки подібної інформації не вимагається;

3-й розряд виділений для фасета ”вік” і має наступні значення: 1 – до 20 років; 2 – від 20 до 30 років; 3 – понад 30 років;

4-й розряд виділений для фасета ”назва факультету” і має наступні значення: 1 – менеджменту, 2 – інженерно-будівельний, 3 – юридичний; 4 – фінансів; 5 – природокористування тощо.

Прийнята система кодування дозволяє легко розшифрувати будь-який код угрупування, наприклад: 2135 – жінки у віці понад 30 років, мають дітей і є студентами інженерно-будівельного факультету; 1021 – чоловіки віку від 20 до 30 років, є студентами юридичного факультету.