Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
mini-WPORKA.docx
Скачиваний:
3
Добавлен:
04.09.2019
Размер:
61.73 Кб
Скачать

21.Інтеграція різнорідних джерел даних

Інтеграція різнорідних джерел даних - фундаментальна проблема, що виникла в останні десятиліття перед спільнотою розробників БД. Мета інтеграції даних полягає в тому, щоб надати єдиний інтерфейс до різних джерел і дозволити користувачам зосередитися на визначенні того, що вони хочуть дізнатися. В результаті інтеграція повинна звільнити користувача від пошуку релевантних джерел даних, взаємодії з ними окремо, відбору та комбінування даних з різних джерел. Проектування системи інтеграції даних - дуже складна задача.

Розглянемо "класичні" підходи до її вирішення. Перший з них полягає у використанні федеративних БД, які незалежно зберігають одну й ту ж інформацію, періодично синхронізуючи свої статки. Для синхронізації федеративних БД потрібно визначити зв'язків. Інший підхід полягає в створенні єдиного централізованого сховища даних.Дані з різнорідних джерел періодично копіюються в сховище (необхідне зв'язків для БД). Третій підхід (найбільш ефективний, але і трудомісткий) використовує технологію створення програмних оболонок, або медіаторів (mediators, wrappers), що забезпечують єдиний інтерфейс доступу до різних БД.

Завдання "проектування системи інтеграції даних" складається з декількох підзадач. Онтологічний підхід може успішно застосовуватися для вирішення двох підзадач:

-специфікації вмісту різнорідних джерел даних у вигляді онтології;

-отримання відповідей на запити, адресовані інтегруючої системі і засновані на специфікації джерел

22. Рубрикатори як вид онтологій

Під рубрикатором розуміється класифікаційна таблиця ієрархічної класифікації, що містить повний перелік включених в систему класів і призначена для систематизації інформаційних фондів, масивів і видань, а також для пошуку в них (ГОСТ 7.74-96).

Є головне теоретичне відміну термінів тезауруса від рубрик рубрикатора. Терміни тезауруса є фундаментально мовними, в той час як рубрики відповідають концептуальним категоріями. Мета розробки інформаційно-пошукового тезауруса - знайти хороші, компактні слова і фрази для опису основних тем документів, звівши синоніми і квазісіноніми до дескрипторів тезауруса.

Мета створення рубрикаторів, яка не завжди досягається, але завжди ставиться, - це розробити абсолютно окремі концептуальні категорії, які взаємно не перетинаються. В ідеалі не повинно бути перетинань між рубриками і не повинно бути проміжків, тобто жодна підобласть не повинна залишитися поза рубрик рубрикатора. Для досягнення таких строгих цілей рубрикатор структурується, що може бути виконано двома основними способами - ієрархічної організацією рубрикатора і фасетної організацією рубрикатора.

Щоб визначити рубрики досить строго і виключити перетин значень, часто необхідно називати рубрики довгими і "незграбними" іменами, наприклад, "Тропічні та субтропічні фрукти та горіхи"; "Польові культури (Plantation crop)". Призначення такого словосполучення - чітко визначити окрему концептуальну категорію; подібне словосполучення не зустріти в тезаурусі. Оскільки працювати з такими складно сформульованими сутностями досить важко, їм зазвичай присвоюється певна система класифікаційних кодів.

Ще одним наслідком такого роду формулювань рубрик є те, що в такому вигляді їх практично не зустріти в реальних текстах і на інтернет-сайтах, тому якщо потрібно автоматизувати обробку переліків товарів, то необхідно кожній рубриці зіставити набори слів і словосполучень, на основі яких можна буде виводити приналежність документа даній рубриці.

23. Архітектура метаданих в Word Wide WebМетадані - це дані (іншими словами, інформація про інформацію - це тежінформація).Оскільки метадані - це дані, то вони можуть зберігатися в ресурсі (можуть бутипредставлені як ресурс). Тобто будь-який ресурс Мережі може зберігати як дані,так і метадані про себе або про інших ресурсах. На практиці в Мережі існує 3 способи передачі / отримання метаданих:-метадані зберігаються і передаються всередині документа (тег HEAD в HTML, дані про документ MS Word);-повідомлення метаданих відбувається під час HTTP (GET, POST або PUT) передачі;-метадані зберігаються в якомусь іншому документі.О тже, метадані можуть зберігатися всередині самого документа, усередині іншогодокумента або передаватися разом з документом засобами протоколу HTTP. Метадані складаються з висловлювань про дані і при поданні мають форму імені (або типу висловлювання) і набору параметрів. Архітектура, яка надається метаданими, є набором незалежних висловлювань (тверджень).Як наслідок, при угрупованню двох і більше висловлювань про один ресурс вони об'єднаються логічним "І". Альтернативні висловлювання є незалежними, а їх набори представляють собою невпорядковані множини. Звичайно, висловлювання можна комбінувати і іншим способом, використовуючи складні синтаксичні правила, але основною формою подання є невпорядкований список, елементи якого пов'язані логічним "І".Найбільш поширеною формою висловлювання є наступна модель:"Ресурс - атрибут - значення".Тут ресурс - це об'єкт, про який фіксується висловлювання, атрибут - деяке властивість чи параметр об'єкта, значення представляє деяке значення з області значень атрибута (або діапазону значень атрибута даного об'єкта).

Значення атрибутів і відносин можуть сильно варіюватися, вони можуть задаватися специфікацією архітектури або протоколу. Але значення атрибутів можуть бути визначені для потреб одного конкретного додатка. Тому набір відносин та імен атрибутів повинен бути легко розширюваним, а отже, він повинен бути розширюваним децентралізовано. Простір URI підходить для визначення імен атрибутів.

Зв'язки є основою навігації в Мережі. Вони можуть використовуватися для побудови структур всередині WWW, а також для створення семантичної Мережі, в якій можуть бути представлені знання про навколишній світ. Іншими словами, зв'язкиможуть застосовуватися для визначення структури даних (у цьому випадку вони єметаданими), але можуть бути використані і як форма представлення даних.

RDF - мова представлення інформації про ресурси WWW. Зокрема, RDF служить для представлення метаданих, пов'язаних з ресурсами Мережі, таких як "заголовок", "автор", "дата останнього зміни сторінки". Але RDF можевикористовуватися і для подання інформації про ресурси "другого типу", на які можна тільки посилатися (або ідентифікувати в Мережі за допомогою URI), але неможливо безпосередньо отримати до них доступ через Мережу.

Модель даних RDF. RDF-граф

Базовою структурною одиницею RDF є колекція трійок (або триплетів), кожна з яких складається з суб'єкта, предиката і об'єкта (S, P, O). Набір триплетів називаєтьсяRDF-графом. В якості вершин графа виступають суб'єкти та об'єкти, як дуг -предикати (або властивості). Напрямок дуги, що відповідає предикату в даній трійці(S, P, O), завжди вибирається так, щоб дуга вела від суб'єкта до об'єкта.

RDF-літерали бувають двох видів: типізовані і не типізовані.

Кожен літерал в RDF-графі містить одну або дві іменовані компоненти.

Всі літерали мають лексичну форму у вигляді рядка символів Unicode.

Прості літерали складаються з лексичної форми і необов'язковою посилання намова (ru, en, :).

Типізовані літерали складаються з лексичної форми і URI-посилання на тип даних, що задається в форматі RDF URI..