- •Развитие централизованных и распределенных бд
- •Распределенные бд - веяние времени
- •Среди основных направлений использования распределенных бд можно выделить:
- •Требования к реализации распределенных бд
- •Проектные решения по созданию распределенных бд
- •Примеры реализации распределенных систем
- •Р исунок 2 - Структура есимо
Примеры реализации распределенных систем
В настоящее время основным направлением развития распределенных подходов хранения данных является создание GRID - систем. Например, NASA реализует для своих нужд сеть высокопроизводительных компьютеров, роботизированных устройств массовой памяти, высокоскоростных каналов связи, научных инструментов и продвинутых интерфейсов для пользователя под названием Information Power GRID, Проект Legion (http://www.cs.virginia.edu/~legion) нацелен на разработку объектно-ориентированной программной среды, объединяющей несколько тысяч различных компьютеров в сети. Проект Grid Physics Network (http://www.phys.ufl.edu/~avery/mre/) ставит своей задачей создание вычислительной инфраструктуры для научных исследований, где приходится иметь дело с большим объемом данных.
Целью проекта DataGRID (http://grid.web.cern.ch/grid/proposal/ august/DataGridAnnex1V1.8.doc) является разработка программных компонент. В рамках проекта DataGrid построена тестовая инфраструктура вычислений и обмена данными в Европе.
Проект Enabling Grids for E-Science in Europe (EGEE) направлен на создание сервисной панъевропейской grid-инфраструктуры с максимальным уровнем готовности; объединение существующих национальных, региональных и тематических разработок в области GRID в единую инфраструктуру для поддержки научных исследований. Сейчас сформированная инфраструктура успешно применяется в физике высоких энергий, биомедицине и геомониторинге. В максимальной конфигурации тестовая платформа объединяет более 1000 компьютеров и свыше 15 Тбайт данных, размещенных в 25 организациях Европы, России и Тайваня. Россия, получившая статус одного из пяти центров базовой инфраструктуры EGEE, объединила в консорциум по развитию GRID такие институты, как Объединенный институт ядерных исследований, Институт физики высоких энергий в Протвино, НИИ ядерной физики МГУ и др. Одна из центральных задач проекта EGEE — поддержка GRID-инфраструктуры для хранения и анализа реальных и смоделированных данных экспериментов, ведущихся в CERN.
В 2005 г. запущена в эксплуатацию магистральная инфраструктура научно-образовательных сетей России производительностью 2,5 Гбит/с, включающая узлы в Москве, Санкт-Петербурге и Стокгольме. Эта инфраструктура используется совместно сетями RUNNet (http://www.runnet.ru) и RBnet (http://www.rbnet.ru) для обеспечения связности всех российских научно-образовательных сетей и международной связности, подключившись к единой европейской научно-образовательной сети GEANT. Емкость сети в канале в дальнейшем будет достигать 10 Гб/с. GEANT объединяет 3500 научных центров мира. В этой сети работают 3 миллиона ученых. GEANT является основой многих крупных проектов, осуществляемых в Европе.
GRID-сеть Управления охраны окружающей среды США создана на базе IBM Grid Toolbox, ОС Red Hat Linux Enterprise, серверов IBM. В развернутой GRID - среде производится моделирование процессов загрязнения воздуха, исполняются другие вычислительные задачи для нужд экологии. GRID используется в среде разработки программного обеспечения мобильных коммуникаций.
Проект MegaGrid призван повысить эффективность использования ИТ-инфраструктуры для GRID- вычислений, что должно привести в конечном итоге к снижению стоимости, а также улучшению качества предоставления услуг и управления.
В области океанографии в рамках проекта SeaDataNet (http://www.seadatanet.org/ создается распределенная инфраструктура обмена данных между Национальными центрами океанографических данных Европы.
Создается национальная информационная система ЕСИМО, содержащая данные наблюдений за морской средой и морской активностью, объединяются уже накопленные и собираемые географические данные, проводится их анализ. Наблюдательная сеть и системы сбора данных о состоянии природной среды содержат тысячи компьютеров (процессоров) во всей стране, которые являются неотъемлемой частью распределенной среды. ЕСИМО позволяет непрерывно отслеживать ситуацию в Мировом океане (мониторинг), прогнозировать ее, получать аномалии в любом пространственно – временном масштабе представления информации и выдавать сведения о воздействиях среды на экономику и рекомендации по уменьшению или предотвращению этого влияния. Этот этап характеризуется не столько объемом получаемой информации от всех источников данных, сколько последовательной замкнутостью отдельных, тесно связанных процессов сбора, обработки данных, объединенных в единую технологическую линию, которая направлена на повышение эффективности производства и уменьшение убытков от гидрометеорологических явлений. В ЕСИМО идет постоянное усвоение новых данных.
В ЕСИМО сосредоточены огромные массивы данных в сотни терабайт. В анализе этих данных могут принимать участие сотни исследователей из разных стран мира, необходимой предпосылкой успешного выполнения анализа данных о состоянии природной среды является максимально широкий доступ к данным наблюдений. В настоящее время для этих целей используется международный обмен данными по каналам Глобальной сети телесвязи (оперативные данные), на сменных носителях данных, с помощью Web - технологий. Сложность и масштабность вычислительных проблем впечатляют, например, для прогноза поля давления по всему Земному шару требуется несколько часов работы супер-ЭВМ. Для получения климатических характеристик в отдельных квадратах Мирового океан требуются:
-
крупномасштабные преобразования существующих структур данных (например, единичные, иногда случайные данные, собранные в 40 тыс. рейсах необходимо упорядочить по одноградусным квадратам);
-
сложные вычислительные алгоритмы интерполяции данных (собранные данные предварительно сортируются по времени, интерполируются на стандартные горизонты, а затем проводится интерполяция по пространству, например, от фиксированных точек до макрорайонов, временном масштабах - от нескольких часов до многолетних значений).
В ЕСИМО работает распределенная структура, в составе которой действуют центры, обеспечивая развитие единой информационной среды. В качестве базовых узлов предложены научные учреждения, имеющие наиболее продвинутые технологии и опыт эксплуатации систем. В ЕСИМО создана инфраструктура, позволяющая использовать информацию на всех уровнях управления экономикой.
Технической основой такой интегрированной информационной среды является единая телекоммуникационная сеть учреждений и бюджетных организаций. В Обнинске (ФГБУ «ВНИИГМИ-МЦД») создан современный телекоммуникационный узел, обеспечивающий подключение учреждений к широкополосному внешнему каналу для связи с Москвой. Созданная сеть является базой для информационной структуры ЕСИМО, и в дальнейшем она будет развиваться и совершенствоваться. Имеющаяся в настоящий момент телекоммуникационная инфраструктура позволяет уже сейчас решать многие содержательные информационные задачи, такие как, зеркалирование центрального узла в ФГБУ «ГВЦ Росгидромета».
Основой распределенной системы является портал ЕСИМО (http://www.esimo.ru/), выполняющий функции виртуального центра данных. Здесь созданы типовые сервисные функции: информационная часть, доставка персонифицированной информации, возможность совместной работы, мониторинг ИР и другие службы.
В организационном плане можно выделить зональные (территориальные), региональные, тематические и ведомственные центры данных, рис.2. Для ЕСИМО, как составной части международных систем МООД, GOOS и других должно быть предусмотрено сотрудничество с МОК, ВМО, ЮНЕП, МЦД-А, МЦД-В, МЦД-С и другими международными организациями.