Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
90
Добавлен:
11.05.2015
Размер:
970.75 Кб
Скачать

Отказоустойчивые IT–системы

1

Стремление к повышению функциональности устройств значительно опережает темпы развития и усовершенствования существующих методов повышения надежности.

В такой ситуации единственным эффективным средством защиты от

сбоев в работе является построение отказоустойчивых систем.

Отказоустойчивой вычислительной системой называют среду, которая предоставляет постоянное, непрерывное обслуживание — доступ к данным и приложениям — даже в случае возникновения сбоев в аппаратных, программных или сетевых компонентах.

Старый лозунг службы Federal Express звучит так:

«В любом случае почта должна быть доставлена за ночь».

Примерно таковы и требования к современным компьютерным системам, за исключением того, что доставка информации должна гарантироваться не за одну ночь, а постоянно, вне зависимости от проблем, которые могут возникнуть в конкретных аппаратных или программных компонентах информационной системы, сбоев в сети электропитания или неприятностей другого рода.

Такая концепция называется отказоустойчивостью.

Физика компьютеров 2011 Л.А. Золоторевич

Отказоустойчивые IT–системы

2

Средства обеспечения отказоустойчивости встраиваются в программное обеспечение, входят в состав аппаратных средств либо являются комбинированными.

Важно отличать отказоустойчивость и высокую готовность — термины, которые, как отмечают аналитики, часто путают между собой. И отказоустойчивые системы, и конфигурации высокой готовности предназначены для того, чтобы обеспечить максимальную готовность системы. В обоих случаях используются ресурсы резервного копирования (такие как зеркалированные серверы и диски) как основной подход к восстановлению после сбоя.

Существует качественное и количественное различие между этими двумя подходами. Средства отказоустойчивости позволяют сократить время простоя до пяти минут в год или даже меньше. При поддержке высокой готовности время восстановления после сбоя может значительно меняться в зависимости от конфигурации. Отказоустойчивость

обеспечивается избыточностью на физическом уровне, где в любом из компонентов может возникнуть сбой и никто этого не заметит.

Физика компьютеров 2011 Л.А. Золоторевич

Отказоустойчивые IT–системы

3

Но цель конфигураций высокой готовности состоит в том, чтобы помочь компаниям быстро восстановить работу после сбоя, что не годится для поддержки отказоустойчивости (или постоянной готовности), цель которой — свести к нулю время восстановления.

Здесь необходимо добиться почти мгновенного «подхвата» приложений.

В итоге все системы в отказоустойчивой конфигурации отличаются

высоким уровнем аппаратной избыточности, обслуживаемости и возможностей удаленного управления. Все основные аппаратные элементы, такие как процессоры, память и диски, дублируются. Все

избыточные компоненты выполняют любой процесс все вместе. Реплицированные компоненты выполняют одни и те же команды

одновременно, поэтому даже если на одном из компонентов возникнет ошибка, приложение будет работать без изменений. В результате

администраторы могут наращивать систему, осуществлять повседневную поддержку и удалять компоненты, на которых возник сбой, без отключения всей системы.

Физика компьютеров 2011 Л.А. Золоторевич

Отказоустойчивые IT–системы

4

Компьютеры NonStop Himalaya компании Compaq — один из примеров. Эти системы состоят из кластера серверов, каждый со своей памятью и копией операционной системы; все они работают вместе, но независимо

друг от друга.

В серверах используется концепция, получившая название «пары процессов». Суть ее в том, что основной процесс и резервный процесс выполняются на различных узлах. Резервный процесс зеркалирует всю информацию из основного узла и способен в любой момент «подменить» основной процесс в случае возникновения в нем ошибки.

Избыточность дополняют высоконадежные операционные системы,

встроенные инструментальные средства диагностики и разнообразное программное обеспечение управления потоками работ.

Помимо всего прочего, такое отказоустойчивое программное обеспечение призвано предотвратить потерю данных в случае возникновения сбоя и управлять выполнением таких задач, как принудительное переключение с системы, где возник сбой. Цель состоит в том, чтобы выявить

аппаратные проблемы, которые могут привести к отключению системы, и быстро перераспределить рабочую нагрузку на другие системы.

Физика компьютеров 2011 Л.А. Золоторевич

Отказоустойчивые IT–системы

5

Программное обеспечение отказоустойчивости компании Stratus, к примеру, выполняет мониторинг использования процессора, памяти и дисковых ресурсов и постоянно сравнивает полученные показатели с определенными пользователем пороговыми значениями.

Системы способны передавать администраторам или непосредственно производителям сообщения о возможном сбое.

Сегодня спрос на широкую функциональность ИТ-систем уходит на второй план, уступая место требованиям максимальной надежности.

Особенно актуально это для бизнеса, где ошибка в работе системы или временной ее простой (составляющий порой секунды) оборачиваются более чем внушительными финансовыми потерями.

Особенно сильно от такого рода аварий страдает финансовая индустрия, час неработоспособного простоя которой может исчисляться несколькими миллионами долларов убытка.

Физика компьютеров 2011 Л.А. Золоторевич

Финансовые потери по вине отключения электричества

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ядерная энергетика, военная и авиационная промышленность представляют собой наивысшую потенциальную угрозу человеческой жизни и окружающей среде, и по этой причине особенно нуждаются в наличии максимально надежных и безотказных систем, исключающих в работе сбои по вине человеческого фактора. Такие решения не только возможны, но и уже активно используются.

Физика компьютеров 2011 Л.А. Золоторевич

Физическая природа отказов

7

Необходимо наличие решений, повышающих вероятность того, что система в момент времени t будет находиться в работоспособном состоянии.

Элегантным примером ремонтопригодности системы, может послужить модульный принцип построения промышленных компьютеров, при котором вышедшие из строя модули, заменяются исправными, без воздействия на другие компоненты.

Разработка отказоустойчивой системы (fault-tolerant system) или отказоустойчивая эксплуатация последней, должны основываться на знании и понимании природы тех видов отказов, вероятность которых, при данных условиях эксплуатации устройства, имеют максимально большую вероятность возникновения.

По времени воздействия на объект отказы подразделяются на постоянные

(permanent fault - однократное воздействие без возможности последующего использования системы), перемежающиеся отказы (intermittent fault - многократное повторение ситуации без возможности определения ее закономерности) и проходные отказы (transient fault - однократный кратковременный отказ без возможности его повторения при рестарте системы).

Физика компьютеров 2011 Л.А. Золоторевич

Основные направления построения отказоустойчивых систем 8

Существует два основных направления при построении отказоустойчивых систем.

Первый способ - использование только отказоустойчивых компонентов. При реализации этого направления каждый компонент системы может продолжать свое функционирование, даже если один/ несколько подкомпонентов системы, выходят из строя.

Физика компьютеров 2011 Л.А. Золоторевич

Основные направления построения отказоустойчивых систем 9

Второй способ - разработка методов, гарантирующих построение отказоустойчивой системы из компонентов, не являющихся отказоустойчивыми. В таких системах отказоустойчивость реализована за счет введения избыточности и разработки специального программного обеспечения, элементных взаимосвязей и алгоритмов функционирования.

Физика компьютеров 2011 Л.А. Золоторевич

Основные направления построения отказоустойчивых систем 10

Введение отказоустойчивости в систему или отдельно взятый компонент всегда нуждается в появлении некоторой избыточности.

Избыточность - это наличие в структуре устройства возможностей сверх тех, которые могли бы обеспечить его нормальное функционирование.

Избыточность вводится для повышения надёжности работы и для исключения влияния на достоверность передаваемой информации помех и сбоев (в телекоммуникационных устройствах).

В основном используется четыре вида избыточности:

Аппаратная избыточность (Hardware

Redundancy);

Программная избыточность (Software

Redundancy);

Информационная избыточность (Information

Redundancy);

Временная избыточность (Time Redundancy).

Физика компьютеров 2011 Л.А. Золоторевич

Соседние файлы в папке Лекции в БГУИР