Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Конспект и план / конспект.doc
Скачиваний:
85
Добавлен:
03.06.2014
Размер:
1.88 Mб
Скачать
    1. Архитектура федеративных баз данных

Федеративные базы данных - механизм доступа и управления разнородными данными, скрывающий от пользователей особенности обращения к конкретному источнику данных, а вместо этого предоставляющий единый интерфейс, аналогичный классическим реляционным СУБД.

Наиболее применимым подходом к созданию платформы для федеративных баз данных, является подход с доработкой существующей реляционной СУБД, для обеспечения ее взаимодействия с внешними источниками данных. Эта СУБД становится центральным звеном федеративной БД, хранящим всю необходимую информацию об источниках данных, и перенаправляющим источникам запросы по их части.

Системный каталог базы данных центрального узла должен содержать всю необходимую информацию об источниках данных в целом и о каждом из объектов в частности. Такая информация должна использоваться оптимизатором SQL-запросов для построения наиболее эффективного плана выполнения запроса.

    1. Сравнение федеративного и централизованного подходов

Особенностью федеративных баз данных является логическая интеграция данных, когда пользователь имеет единый доступ ко всей совокупности данных, однако сами данные физически остаются в первоначальном источнике. Эта особенность является ключевым отличием федеративного подхода от централизованного, использующего физическую интеграцию, когда данные из разнородных источников дублируются на общем узле, к которому обращаются все пользователями. Федеративный же подход предполагает хранение данных в самих источниках, когда центральный узел осуществляет транслирование запросов с учетом особенностей конкретного источника.

В случае с вычислительным облаком, федеративная база данных является более правильным выбором по следующим причинам:

  1. Федеративные технологии менее подвержены ошибкам с искажениями и целостностью, потому что данные остаются на своих исходных местах.

  2. В федеративную архитектуру проще добавлять новые источники, что особенно важно в динамично развивающихся системах.

  3. Федеративный подход, в отличии от централизованного, всегда гарантирует получение актуальных данных от первоисточника, тогда как при централизованном подходе копии данных в центральном узле могут устаревать.

Стоит отметить, что в сложных случаях, когда требуется пересечение больших массивов данных из разных источников, федеративные базы данных должны предоставлять возможность хранить часть информации централизованно, обеспечивая, таким образом, гибридный подход.

    1. Требования к программному обеспечению федеративных баз данных

В силу гетерогенности и распределенности источников данных в облаке, управление единой информационной средой является сложной задачей. Источники данных могут быть реляционными СУБД, бизнес-приложениями, плоскими файлами, веб-сервисами и т.д. Каждый из них имеет собственный формат хранения данных, вызовы и способ выдачи результатов. Кроме того, источники могут располагаться на значительном удалении друг от друга, в разных сетях с различными протоколами доступа.

Программное обеспечение, осуществляющее управление федеративной базой данных, в обязательном порядке должно отвечать следующим требованиям:

  1. Прозрачность

Доступ к данным федеративной БД осуществляется через центральный узел, скрывающий от пользователей расположение данных и особенности взаимодействия с их источником. Таким образом, пользователи могут осуществлять SQL-запросы к данным, которые на самом деле являются нереляционными, или располагаются во внешней СУБД, не поддерживающей синтаксис этих запросов.

  1. Гетерогенность

Источники данных в вычислительном облаке могут иметь самую различную структуру и способы доступа, например:

  1. Текстовые файлы с табличной структурой

  2. СУБД семейства Oracle,DB2,Sybase,Informix,MicrosoftSQLServer,MySQLи т.д.

  3. Веб-сервисы

  4. Источники данных XML

  5. Файлы Microsoft Excel

  6. Источники данных ODBC, OLE DB и многие другие

Задача центрального узла заключается в обеспечении доступа ко всем источникам с учетом требований к прозрачности, производительности и безопасности.

  1. Расширяемость

Под расширяемостью подразумевается возможность создания средств для подключения новых источников данных к федеративной БД. Это могут быть любые источники структурированной информации.

Для обеспечения расширяемости программные средства федеративной БД должны поддерживать стандарт ANSISQL/MED-ManagementofExternalData(управление внешними данными). Данный стандарт реализует расширениеSQL, позволяющее реляционным СУБД обращаться к внешним данным и управлять ими.

  1. Поддержка специфической функциональности

Внешние источники могут предоставлять набор функциональности по обработке данных, которая не поддерживается в СУБД центрального узла. В этом случае, программное обеспечение федеративной БД должно корректно транслировать запрос к данной функциональности на источник данных, предоставляя ему возможность выполнить эти действия самостоятельно.

В некоторых случаях может оказаться необходимым создание так называемых сквозных сессий. В этом случае все запросы будут сразу передаваться на источник данных без какой либо обработки на центральном узле.

У данного требования есть и обратная сторона, называемая компенсацией функциональности. В том случае, если фрагмент запроса содержит действия, не поддерживаемые непосредственным источником данных, центральный сервер замещает данные действия собственной функциональностью. Все это так же осуществляется прозрачно для пользователей.

  1. Высокая производительность

Одной из главных проблем в решении задачи объединения распределенных источников данных является проблема обеспечения производительности. Интеграционное ПО должно учитывать возможности внешних источников данных, такие, как наличие индексов у таблиц реляционных СУБД, типы данных, а также доступные количественные показатели – число строк, средняя длина строки, число узловых и листовых элементов в индексах и т.д. Другим важным показателем является топология сети.

Для достижения максимальной производительности программное обеспечение федеративной базы данных должно уметь извлекать эту информацию из источников, хранить ее в системном каталоге и учитывать при составлении плана выполнения распределенного запроса.

  1. Разделение прав доступа

Поскольку в федеративной БД пользователь получает доступ ко всем источникам через центральный узел, интеграционное программное обеспечение должно обеспечивать сквозную авторизацию и разделять права между пользователями на доступ к тем или иным ресурсам. Управление доступом должно осуществляться для каждой комбинации пользователь – источник данных. Такая комбинация хранит в себе имя пользователя на центральном узле, идентификатор внешнего источника данных, а также имя пользователя и пароль, которые будут использоваться при доступе к этому источнику для авторизации. Если имя пользователя и его пароль на центральном узле совпадают с удаленным, то не должно быть необходимости создавать такую комбинацию.

Соседние файлы в папке Конспект и план