Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
переклад - відредаговано.doc
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
5.67 Mб
Скачать

Стаття III Використання лінійок Голомбо для оптимальних відновлюючих системах в розподілених обчисленнях толерантних до помилок

Каміла Клоновська, Ларс Люмберг, Хаккан Леннерстад Робота 17-го Інтернаціонального симпозіуму Паралельних та Розподілених обчислень IPDPS 2003, Ніса, Франція, квітень 2003

Резюме

Кластери і розподілені системи дозволяють толерантність до помилок і високу продуктивність завдяки спільному використанню. Коли усі комп'ютери ввімкнені і працюють, ми захотіли б, щоб навантеження було порівну розподілене серед комп'ютерів. Коли один або більше комп'ютерів ламаються, навантаження яке було на цих комп'ютерах має бути перерозподілене на інші комп'ютери в кластері. Перерозподіл визначає схема відновлення. Схема відновлення повинна тримати навантаження, найоптимальніше, як тільки можливо, навіть, коли найнесприятливіші комбінації з комп'ютерів ламаються, тобто ми хочемо оптимізувати найгіршу з можливих варіантів поведінку. У цій статті ми визначаємо схеми відновлення, які оптимальні для ряду важливих випадків. Ми також показуємо, що задача виявлення оптимальних схем відновлення відповідає математичній задачі під назвою Лінійка Голомбо. Вони забезпечують оптимальне відновлення схеми для аж до 373 комп'ютерів в кластрі.

1 Вступ

Єдиний шлях отримання високої придатності і толерантності до помилки - виконувати додаток на кластерній або розподіленій системі. Є головний комп'ютер, який виконує додаток за нормальних умов і вторинний комп'ютер, який приймає задачу, коли головний комп'ютер вимикається. Можливо, також є третій комп'ютер, який приймає задачу, коли головний і вторинний комп'ютери - вимкнені, і так далі. Порядок в якому комп'ютери використані названий порядком відновлення, отриманий списком відновлення. Багато кластерних виконувачів підтримують цей вид виправлення помилок, наприклад: Sun Cluster [14] MC/ServiceGuard (HP) [9], TruCluster (DEC) [15], HACMP (IBM) [1], and MSCS (Microsoft) [10,16].

Перевага користування кластерами, окрім толерантності до помилок, − навантаження, розподілене між комп'ютерами. Коли усі комп'ютери працюють, ми захотіли б, щоб навантаження було розподілене порівну. Проте навантаження на деяких комп'ютерах буде, зростати, коли один або більше комп'ютерів вимикаються, але і за цих умов, ми захотіли б розподілити навантаження якомога порівну на комп'ютерах, що залишилися.

Поширення навантаження, коли комп'ютер вимкнений вирішене порядком відновлення процесів, що проходять на дефолтному комп'ютері. Безліч усіх порядків відновлення є так званою схемою відновлення, тобто поширенням навантаження у разі коли один або більше дефектів визначається схемою відновлення. Задача виявлення оптимальних (або навіть кращих) схем відновлення раніше не була вивчена іншими дослідниками.

У попередній статті [8] ми визначили схеми відновлення, які оптимальні для деяких випадків. У цій статті ми подали нові схеми відновлення, для яких оптимальним є значно більше число пошкоджених комп'ютерів. Деякі з схем засновані на так званій лінійці Голомбо, яка була використана в радіоастрономії.