Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
KS_LK_AllInOne.docx
Скачиваний:
175
Добавлен:
23.11.2019
Размер:
28.78 Mб
Скачать
  • Средства защиты данных

В Symmetrix DMX обеспечен непрерываемый доступ к данным даже в том случае, если выходит из строя диск [3]. Для этой цели предусмотрен ряд технологических приемов.

  • Зеркалирование (RAID 1), обеспечивающее наивысший уровень производительности и готовности для критических с позиций бизнеса операций. Это ни что иное, как дублирование копии тома.

  • Parity RAID, т. е. организация дискового массива на паритетных началах для текущих операций в бизнесе. Существует две разновидности RAID (3+1) и RAID (7+1), отличающиеся тем, что один дополнительный диск прибавляется к группе из трех или из семи дисков. Утверждается, что по уровню производительности и готовности эти формы организации дисковых массивов превосходят RAID 5.

  • SRDF (Symmetrix Remote Data Facility), поддержание зеркальных образов данных на географически разнесенных системах Symmetrix.

  • Dynamic Sparing, создание подменных дисков на период замены основного.

Ревизионизм и фон-неймановская архитектура

Образованная в 1998 году компания BlueArc, которую, заметим, возглавил известный менеджер, бывший вице-президент корпорации Compaq Энрико Песатори, пару лет назад рассматривалась как один из самых многообещающих «стартапов». Очень энергичное начало деятельности компании на какое-то время сформировало ощущение, что она без промедления сможет войти в клуб ведущих производителей систем хранения данных. Этого не произошло. Сегодня по понятным экономическим причинам столь быстрый успех невозможен, но это вовсе не снижает интереса к технологиям, которые могли бы обеспечить BlueArc стремительный взлет. Скорее всего, он просто отложен.

Оценивая принадлежащее BlueArc «ноу-хау», признанный гуру сетевого мира Джордж Гилдер писал в 2000 году, что этой компании удастся преодолеть узкие места между системами хранения и Web. Под «бутылочным горлом» Internet обычно понимают хорошо известную проблему: традиционные серверы, подключенные к Сети, уже с трудом справляются с сетевым трафиком. Та же проблема существует и в самих системах хранения; здесь «бутылочное горло» формируют ограничения на производительность решений на базе подключаемых к сети устройств хранения (network attached storage, NAS), накладываемые входящими в их состав компьютерами. Очевидный выход из этой ситуации в приложении к Internet состоит в увеличении числа серверов. Однако как у любого простого решения, в данном подходе обнаруживается побочный эффект. Возникает диспропорция: по совокупности серверы обладают слишком большой вычислительной мощностью, которая в данном случае избыточна, попросту не нужна. Следовательно, растут непроизводительные расходы. То же самое происходит и при создании, например, высокопроизводительных NAS-накопителей: хоть и есть в их архитектуре специализированное ядро (appliance kernel), но все равно, из-за необходимости повышать пропускную способность приходится делать излишне мощными их вычислительные компоненты, а вычислять-то попросту нечего.

Проанализировав эту дилемму, инженеры BlueArc пришли к разумному выводу о том, что разрешение парадокса пропускной способности стоит искать не в количественном росте числа серверов и не в наращивании вычислительной мощности, а в качественном изменении архитектуры самих серверов. Это относится как к сети вообще, так и архитектуре NAS в частности. Рассуждая так, в BlueArc посягнули на святое, на то, что не подвергалось сомнению на протяжении всей истории компьютеров. Более пятидесяти лет все без исключения вычислительные системы строились по схеме, которую принято называть «архитектурой фон Неймана». Открытием Дж. Преспера Эккерта и Джона Мочли стала идея хранения в оперативной памяти и обрабатываемых данных, и управляющих машиной программ. До этого, в немногочисленных предшественниках компьютеров, начиная с машины Чарльза Бэббиджа, программа была внешней по отношению к вычислительному устройству. Так уж случилось, что архитектура с хранимой в памяти программой получила имя великого математика Джона фон Неймана, поскольку именно он придал ее гласности. Надо учесть, что изначально она разрабатывалась только для автоматизации вычислений, т. е. задумывалась как универсальный программируемый инструмент для расчетов. Идея хранения данных и программы в единой памяти не есть результат серьезной аналитической работы, а изобретение двух инженеров, которое благодаря усилиям многочисленных ученых мужей заметно обросло наукообразием. Уже позже оказалось, что она вполне соответствует и специфике работы с текстовыми данными. Однако она, по определению, имеет серьезные врожденные ограничения при обработке потоков данных поступающих с высокой скоростью. Если вдуматься, такой универсализм нужен далеко не всегда. Но так или иначе, сегодня по фон-неймановской схеме строятся все без исключения процессоры, даже используемые в сотовых телефонах.

Для того чтобы продемонстрировать эффективность специализации, стоит вспомнить один из первых компьютеров, созданный на несколько лет раньше, чем ENIAC Эккерта и Мочли. Естественно, в нем не использовалась фон-неймановская схема. Во время

Второй мировой войны для расшифровки немецких шифров англичане создали несколько экземпляров специализированного компьютера Colossus. Этот компьютер использовал самую примитивную, доступную на тот момент аппаратную базу; естественно, в нем данные и программы хранились порознь. Судя по используемым деталям, скорость работы процессора Colossus составляла максимум несколько сотен герц. Однако он оказался чрезвычайно эффективен, настолько, что проект на десятилетия был засекречен. Когда в 90-е годы гриф секретности был снят, и Colossus стали реставрировать, моделируя его работу современными средствами, то неожиданно оказалось, что его реальная производительность на обработке потока входных данных вполне соответствовала возможностям актуального в то время процессора Intel 386, тактовая частота которого составляла несколько десятков килогерц. Вот что значит специализация!

Современные серверы не приспособлены для выполнения простых стандартных алгоритмов обработки мощных потоков данных. В этом отношении они напоминают грузовики, которые, конечно же, можно использовать для перевозки пассажиров вместо автобусов, но нужно ли? В серверах, которые с равным успехом можно применять и для математических вычислений, и для бизнеса, все процессы выполняются последовательно, в том числе обработка пакетов на сетевом уровне, обработка запросов к файловой системе. Последовательными являются и все драйверы, работающие с устройствами хранения данных. В нынешних архитектурах все эти процедуры проходят через шины или коммутаторы, по которым подключены дисковые устройства; в них, собственно, и образуется пробка. Даже при переходе к Infiniband теоретически бутылочное горло смещается, но остается, поскольку весь обмен идет через память, хотя прямой доступ к памяти (Direct Memory Access) снижает нагрузку на центральный процессор.

Выход из сложившейся ситуации можно искать, повторяя эволюционный путь, которым прошли производители сетевых маршрутизаторов и коммутаторов [4]. В начале 90-х годов производителям сетевого оборудования стало ясно, что построение таких устройств на основе обычных процессоров несет в себе ограничения на объемы перемещаемых данных. После этого началась миграция в направлении устройств, построенных на специализированных интегральных схемах (ASIC), где используется «зашитое в железо» программное обеспечение.

Вообще говоря, ревизионизм, проявленный инженерами из BlueArc, заслуживает к себе особого внимания. Давно не появлялось качественно новых архитектурных решений. Сейчас, когда весь мир работает на нескольких десятках типов процессоров, забыли, что выбор оптимального разделения функций между аппаратным и программным обеспечением — вопрос далеко не праздный.

Итак, компания BlueArc предложила архитектуру SiliconServer Architecture, ядром которой является структура с массовым параллелизмом, выполняющая те же функции, что и обычная операционная система обычного сервера, но с большей производительностью и надежностью. Можно сказать, что это сервер с «прошитой» операционной системой. Эта альтернативная архитектура использует стандартные протоколы и может взаимодействовать с обычными компьютерами-клиентами. SiliconServer Architecture состоит из трех подсистем (на рис. 2 они расположены слева направо):

  • сетевой подсистемы, реализующей протокол TCP/IP;

  • файловой подсистемы, реализующей NFS, CIFS и FTP, а также собственно файловую систему;

  • подсистемы управления кэш-памятью и подключенными устройствами.

Все три подсистемы прошиты двумя высокоскоростными шинами, каждая из которых способна передавать 1 гигабит данных в секунду в одном направлении. Таким образом, SiliconServer является полнодуплексным по своей природе. Естественно, что существуют еще и другие вспомогательные шины, связывающие отдельные компоненты и выполняющие служебные функции.

Первая из подсистем архитектуры SiliconServer почти полностью обеспечивает функциональность TCP/IP аппаратными средствами. На сегодняшний день только небольшая часть функций передана вспомогательному процессору, который реассемблирует трафик пакетов, он же контролирует обнаружение ошибок. Вторая подсистема получает файловые запросы и преобразует их в команды, аналогичные обращению к SCSI, которые далее транслируются клиенту. На начальном уровне здесь тоже не все переведено на железный уровень, но то, что относится к перемещению данных, реализовано аппаратными средствами в SiliconServer. Благодаря этому на нынешнем уровне уже удалось выйти на гигабитные скорости обмена с летами и дисками. Оставшиеся программными компоненты построены так, что со временем могут быть реализованы на аппаратном уровне. Система BlueArc сейчас способна работать с томами большого размера, в том числе и с томами с организацией RAID. Обычно размер тома становится проблемой в средах NAS с традиционной архитектурой. Между тем, в BlueArc уже обеспечена поддержка томов до 1,75 Тбайт, максимум же составит 16 Тбайт. Также программно реализована работа с метаданными, в BlueArc используется модифицированный алгоритм B+ Tree, называемый Nary Tree, а не более традиционный I-node. С использованием Nary Tree все файлы и каталоги, поступающие в файловую систему, связываются вместе в древовидную структуру метаданных. Использование деревьев существенно эффективнее обычной табличной формы хранения метаданных.

Первой практической реализацией SiliconServer стал накопитель Si7500. В декабре 2002 года он появился в модернизированной версии Si8000. В нем поддерживается иерархическая система виртуальных томов, управляемая средствами единого интерфейса. Общее количество виртуальных томов на физическом томе ограничено показателем 2032. При работе с двунаправленным каналом Gigabit Ethernet скорость обмена составляет 2 Гбит/с.

Семейство Si8000 состоит их трех членов: Si8300 имеет максимальную емкость 7 Тбайт, Si8700 — 98 Тбайт, а Si8900 — 228 Тбайт. Устройство Si8900 использует диски с интерфейсом Fibre Channel.

Среди дополнительных свойств Si8000 стоит отметить ускоренное создание копий с тома на том Accelerated Data Copy. Для выполнения этой процедурой добавлено управляющее устройство на стандартном ультратонком сервере форм-фактора 1U (1U = 1,75 дюйма), который используется еще и для антивирусной проверки данных. Стоимость младших моделей Si8000 — от 50 тыс. долл.

* * *

Помимо описанных существует еще достаточно много новых решений, предлагаемых в основном небольшими компаниями, выходящими на рынок систем хранения данных. К числу наиболее интересных новинок можно отнести универсальное устройство хранения Network Unified Storage (NUS), разрабатываемое компанией LeftHand Networks, и распределенный подход к хранению данных Distributed Storage Software (DSS), предложенный компанией Scale Eight. Обзор деятельности начинающих компаний, специализирующихся на системах хранения, можно найти в [5].

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]