Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Конспект и план / конспект.doc
Скачиваний:
85
Добавлен:
03.06.2014
Размер:
1.88 Mб
Скачать
  1. Консолидация данных

Идея "вычислительного облака" состоит в объединении множества компьютеров и серверов в единую среду, предназначенную для решения определённого рода задач, например, научных проблем или сложных расчётов. Со временем в такой структуре накапливается множество данных, распределенных по вычислительным узлам и хранилищам. Обычно приложения, исполняемые в распределенной вычислительной среде, обращаются только к одному из источников данных. Однако, при возникновении необходимости в одновременном доступе к нескольким источникам, возникают трудности, так как эти источники могут содержать разнородные данные и методы доступа к ним, а также располагаться на удалении друг от друга. Кроме того, пользователям, осуществляющим анализ накопленных данных, удобно обращаться к единому источнику информации, формируя запросы и получая результаты в одинаковом формате.

Таким образом, главной проблемой подхода к хранению информации в распределенных вычислительных системах является разнородность и удаленность источников данных. Решением проблемы является создание точки централизованного доступа, обеспечивающей единый интерфейс обращения ко всем источникам данных вычислительного облака в режиме реального времени. Необходимо выбрать наиболее подходящий подход и соответствующую платформу, обеспечивающую такую консолидацию.

    1. Существующие подходы к консолидации

Все существующие подходы к консолидации распределенных источников данных можно разделить на два вида:

  1. Централизованный подход

Данные из всех внешних источников переносятся в центральное хранилище и периодически обновляются. Все пользователи работают напрямую с центральным хранилищем.

  1. Федеративный подход

Данные хранятся непосредственно в источниках, центральное звено обеспечивает прозрачное перенаправление запросов пользователей и формирование результатов. В данном случае все пользователи также обращаются только к центральному узлу, который транслирует запросы далее к источникам данных.

Каждый из этих подходов обладает своими преимуществами, необходимо рассмотреть каждый и выявить наиболее подходящий для консолидации данных в вычислительном облаке.

    1. Архитектура централизованных баз данных

Централизованный подход к консолидации распределенных источников данных, заключается дублировании данных из всех источников в центральной БД. Такие БД называются хранилищами данных.

Обычно в качестве хранилища данных используются реляционные СУБД с расширенными средствами для интеграции с внешними источниками.

Наличие данных, объединенных в одном источнике, данных ускоряет пользовательский доступ к данным и упрощает нормализацию и другие подобные процессы по сравнению с данными, разбросанными по разным системам. Однако объединение информации в централизованном источнике требует, чтобы данные, которые часто бывают в разных форматах, были приведены к единому формату, а этот процесс может привести к ошибкам.

Также для хранилища может быть трудным работать с новыми источниками данных в незнакомых форматах. Более того, стоимость обработки часто повышается из-за необходимости дублировать данные и обрабатывать два набора данных.

Соседние файлы в папке Конспект и план