- •Отказоустойчивые IT–системы
- •Отказоустойчивые IT–системы
- •Отказоустойчивые IT–системы
- •Отказоустойчивые IT–системы
- •Отказоустойчивые IT–системы
- •Финансовые потери по вине отключения электричества
- •Физическая природа отказов
- •Основные направления построения отказоустойчивых систем 8
- •Основные направления построения отказоустойчивых систем 9
- •Основные направления построения отказоустойчивых систем 10
- •Избыточность
- •Избыточность
- •Избыточность
- •Общепринятые определения
- •Общепринятые определения
- •Требования к системам высокой готовности
- •Требования к системам высокой готовности
- •Требования к системам высокой готовности
- •Требования к системам высокой готовности
- •Требования к системам высокой готовности
- •Задачи контроля и диагностирования
- •Задачи контроля и диагностирования
- •Задачи контроля и диагностирования
- •Задачи контроля и диагностирования
- •Задачи контроля и диагностирования
- •Модели неисправностей
- •Модели неисправностей
- •Модели неисправностей
- •Модели неисправностей
- •Модели неисправностей
- •Функциональный и тестовый контроль
- •Функциональный и тестовый контроль
- •Функциональный и тестовый контроль
- •Таблица функций неисправностей
- •Таблица функций неисправностей (ТФН)
- •Таблица функций неисправностей (ТФН)
- •Построение тестов
- •Методы направленного построения тестов
- •Моделирование неисправностей
- •Методы случайного построения тестов
- •Симптомы неисправностей
- •Методы моделирования неисправностей
- •Анализ тестов на полноту контроля
- •Моделирование неисправностей
- •Моделирование одиночной неисправности
- •Параллельное моделирование неисправностей
- •Параллельное моделирование неисправностей
- •Параллельное моделирование неисправностей
- •Параллельное моделирование неисправностей
- •Параллельное моделирование неисправностей
- •Дедуктивное моделирование неисправностей
- •Дедуктивное моделирование неисправностей
- •Дедуктивное моделирование неисправностей
- •Дедуктивное моделирование неисправностей
- •Дедуктивное моделирование неисправностей
- •Дедуктивное моделирование неисправностей
Избыточность |
11 |
Аппаратная избыточность (Hardware Redundancy, более известна как резервирование). Существуют методы постоянного резервирования (синтез избыточных устройств, нечувствительных к определенному количеству ошибок) и методы резервирования замещением (использование системы контроля, которая может действовать непрерывно или периодически, в этом случае говорят, о так называемом функциональном диагностировании). Исключая даже кратковременный простой, постоянное резервирование имеет относительное преимущество по сравнению со второй группой методов.
Программная избыточность (Software Redundancy) используется для контроля и обеспечения достоверности наиболее важных решений по управлению и обработке информации. Она заключается в сопоставлении результатов обработки одинаковых исходных данных разными программами и исключении искажения результатов,
обусловленных различными аномалиями.
Физика компьютеров 2011 Л.А. Золоторевич
Избыточность |
12 |
Информационная избыточность (Information Redundancy) наиболее присуща телекоммуникационным системам, в которых информация передается многократно. Информационная избыточность заключается в дублировании накопленных исходных и промежуточных данных.
Временная избыточность (Time Redundancy) заключается в
использовании некоторой части производительности компьютера для контроля за исполнением программ и восстановления (рестарта) вычислительного процесса (запас времени для повторного выполнения операции (например, двойного или тройного просчёта на вычислительной машине).
Физика компьютеров 2011 Л.А. Золоторевич
Избыточность |
13 |
Наглядным примером введения многоуровневой избыточности в систему, для достижения отказоустойчивости, может послужить
система контроля и управления авиалайнера Airbus 320 (fly-by- wire flight control system).
В процессе функционирования системы управления, и обеспечения взаимосвязей между различными компонентами и контроля за последними, в Airbus 320 задействовано 5 различных независимых
компьютеров.
Система управления авиалайнером строилась из расчета, что
обнаружение ошибок должно осуществляться как в аппаратной, так и в программной части системы.
По этой причине, в процессе управления полетом, дополнительно
задействовано два типа программного обеспечения, от двух независимых разработчиков.
Физика компьютеров 2011 Л.А. Золоторевич
Общепринятые определения |
14 |
Высокая Готовность (High Availability). Длительность задержки, в течение которой программа, отдельный компонент или система простаивает, может находиться в диапазоне от нескольких секунд до нескольких часов, но более часто в диапазоне от 2 до 20 минут.
Эластичность к отказам (Fault Resiliency).
Ключевым моментом в определении эластичности к отказам является более короткое время восстановления, которое позволяет системе быстро откатиться назад после обнаружения неисправности.
Устойчивость к отказам (Fault Tolerance). Время восстановления после обнаружения неисправности для переключения отказавших
компонентов на избыточные для таких систем обычно меньше одной секунды.
Непрерывная готовность (Continuous Availability).
Устойчивость к стихийным бедствиям (Disaster Tolerance). В более сложных случаях устойчивость к стихийным бедствиям может означать полное (зеркальное) дублирование системы вне основного местоположения, позволяющее принять на себя работу немедленно
после отказа системы на основной площадке.
Физика компьютеров 2011 Л.А. Золоторевич
Общепринятые определения |
15 |
Кластер (cluster) - это объединение двух и более серверов в единую систему для достижения высокой готовности (HA-cluster) и для распределения нагрузки на сервисы.
Failover (также fail-over) - обход отказа, обработка [ситуации] отказа (в кластерных конфигурациях). Процесс перевода ресурсов с неисправного сервера на резервный.
Failback - восстановление (откат) после отказа (в кластерных конфигурациях).
Уязвимое место (single point of failure, SPOF, SPF) – компонент, отказ которого приводит к отказу всей системы. Чем меньше уязвимых мест имеет система, тем выше её надёжность. Основным способом их устранения является дублирование.
Зеркалирование файловой системы (mirroring) – это процесс, при котором изменения в файлах, сделанные на том сервере, где приложение или ресурс активны, автоматически пересылаются на другой сервер. Зеркалирование происходит в режиме реального времени.
Физика компьютеров 2011 Л.А. Золоторевич
Требования к системам высокой готовности |
16 |
ИТАК главными характеристиками систем высокой готовности
по сравнению со стандартными системами являются пониженная частота отказов и более быстрый переход к нормальному режиму функционирования после возникновения неисправности посредством быстрого восстановления приложений и сетевых сессий до того состояния, в котором они находились в момент отказа системы.
Следует отметить, что во многих случаях пользователей вполне может устроить даже небольшое время простоя в обмен на меньшую стоимость системы высокой готовности по сравнению со значительно более высокой стоимостью обеспечения режима непрерывной готовности.
Физика компьютеров 2011 Л.А. Золоторевич
Требования к системам высокой готовности |
17 |
Конфигурации систем высокой готовности, предлагаемые современной компьютерной промышленностью, простираются в широком диапазоне от "простейших" жестких схем, обеспечивающих дублирование основной системы отдельно стоящим горячим резервом в соотношении 1:1, до весьма свободных кластерных схем, позволяющих одной системе подхватить работу любой из нескольких систем в кластере в случае их неисправности.
Термин "кластеризация" на сегодня в компьютерной промышленности имеет много различных значений.
Строгое определение могло бы звучать так:
"реализация объединения машин, представляющегося единым целым для операционной системы, системного программного обеспечения, прикладных программ и пользователей".
Физика компьютеров 2011 Л.А. Золоторевич
Требования к системам высокой готовности |
18 |
Машины, кластеризованные вместе таким способом могут при
отказе одного процессора очень быстро перераспределить работу на другие процессоры внутри кластера.
Это, возможно, наиболее важная задача многих поставщиков систем высокой готовности. Имеются несколько поставщиков, которые называют свои системы высокой готовности "кластерами" или "простыми кластерами", однако на сегодняшний день реально доступны только несколько кластеров, которые подпадают под строгое определение.
Современные конструкции систем высокой готовности
предполагают использование горячего резерва (Fail-Over), включая переключение прикладных программ и пользователей на другую машину с гарантией отсутствия потерь или искажений данных во время отказа и переключения.
Физика компьютеров 2011 Л.А. Золоторевич
Требования к системам высокой готовности |
19 |
Системы высокой готовности связаны со своими резервными системами посредством очень небольшого программного демона "сердечный пульс", который позволяет резервной системе управлять основной системой или системами, которые она резервирует. Когда "пульс" пропадает, кластер переходит в режим переключения на резервную систему.
Отказоустойчивая архитектура Switchover/UX компании Hewlett Packard
Физика компьютеров 2011 Л.А. Золоторевич
Требования к системам высокой готовности |
20 |
При построении любой системы высокой готовности требуются технологии построения тестов для проведения диагностического эксперимента по определению состояния технического объекта.
Физика компьютеров 2011 Л.А. Золоторевич
