Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Организация и исследование эффективных вычислений для решения задач аэроакустики на кластерных архитектурах (магистерская диссерта / Буренков С. Организация и исследование эффективных вычислений для решения задач аэроакустики на кластерных архитектурах.doc
Скачиваний:
92
Добавлен:
28.06.2014
Размер:
2.27 Mб
Скачать

4.2. Исследование эффективности параллельной модификации перезапускаемогоGmres

Для рассматриваемого профиля RAE2822 была получена СЛАУ из 132150 уравнений с долей ненулевых элементовс точностью. Вычислительный эксперимент проводился на вычислительном кластере Центрального института авиационного моторостроения им. П.И. Баранова на базе 36 процессоровAMDOpteron6272 с тактовой частотой 2.1 Ггц, и сетиGigabitEthernetпод управлением операционной системыLinuxKernel3.12.13.

В результате использования описанного в разделе 3.3 формата для хранения разреженных матриц при решении полученной СЛАУ потребовалось (см. формулу 3.1) на 130 Гб меньше памяти, чем для хранения всех элементов матрицы.

На рис. 4.7 представлены графики теоретического и практического ускорений в зависимости от числа используемых процессоров при решении системы для тестовой задачи.

Рис.4.7. Зависимости теоретического и практического ускорений от числа используемых ресурсов

Начиная с 6 процессоров, реальное ускорение начинает отличаться от теоретического, причем с ростом числа процессоров отличие нарастает. Это объясняется тем, что при выводе теоретической оценки не учитывались временные затраты на передачу данных. Чем больше число используемых процессоров, тем выше затраты на обменные взаимодействия между ними.

На временные характеристики решения, а также на эффект от применения параллельных вычислений, большое влияние оказывает размерность системы и степень разреженности ее матрицы коэффициентов. На рис. 4.8 приведены графики зависимостей ускорения параллельного решения СЛАУ, размерность которых составляют , а доли ненулевых элементов.

Рис. 4.8. Зависимость ускорения решения СЛАУ с матрицами коэффициентов разной степени разреженности

Как можно заметить по графику, изображенному на рис. 4.8, при решении СЛАУ разработанной параллельной модификацией с использованием 20 процессоров и более ускорение для матриц с большим количеством ненулевых элементов растет интенсивнее, чем для матриц с меньшим числом ненулевых элементов. Это объясняется тем, что трудоемкость решения системы с матрицами коэффициентов меньшей степени разреженности ниже. Также поведение кривых ускорения можно также объяснить теоретически. В выведенной оценке параллельной модификации (3.2) степень разреженности матрицы коэффициентов является одним из параметров, от которого зависит трудоемкость метода: чем она меньше, тем ниже трудоемкость. Зависимость эффективности использования вычислительных ресурсов при решении систем одной размерности, но с разной степенью разреженности матрицы коэффициентов, от количества используемых процессоров, изображена на рис. 4.9.

Рис. 4.9. Зависимость эффективности использования процессоров от их количества для СЛАУ с матрицей разной степени разреженности

Теперь рассмотрим случай, когда степень разреженности матрицы коэффициентов фиксируется, а размерность системы изменяется. Результаты экспериментов графически представлены на рис. 4.10 и 4.11.

Рис. 4.10. Зависимость ускорения решения СЛАУ разной размерности

Рис. 4.11. Зависимость эффективности использования процессоров от их количества для систем разной размерности

Для разреженной системы уравнений небольшой размерности ускорение и, как следствие, эффективность с ростом количества процессоров убывают. Это явление закономерно и объясняется тем, что выигрыш от применения распределенных вычислений не компенсирует затрат на их организацию. Для систем уравнений большей размерности кривые ускорения с ростом количества процессоров возрастают, а эффективность убывает не так круто. Исходя из полученных результатов можно рекомендовать использовать метод перезапускаемогоGMRESв последовательном варианте для систем уравнений малой размерности, а для систем большой размерности– в параллельном. При этом больший эффект от применения параллельных вычислений будет получен при решении систем, матрица коэффициентов которых содержит больше ненулевых элементов.

В разработанной параллельной модификации заложена возможность изменения размерности подпространства Крылова. Как отмечалось в главе 2 при описании алгоритма перезапускаемого метода GMRES, дополнительные затраты памяти при реализации метода оцениваются величиной, гдеn– размерности системы,m– размерность подпространства Крылова, в которое производится проектирование. Поэтому, с одной стороны, для экономии памятиmследует выбирать небольшим. С другой стороны, если размерность подпространства Крылова будет слишком малой, а спектральные характеристика матрицы коэффициентов – неблагоприятными, очень вероятно появление стагнации в ходе итерационного процесса. Выбор размерности подпространства – отдельная нетривиальная задача [6, 9].

Для системы уравнений, полученной в ходе решения задачи аэродинамического обтекания профиля, получены зависимости ускорения относительно времени решения на восьми процессорах от вычислительных ресурсов. При этом применялось проектирование в подпространства размерности . Результаты эксперимента представлены на рис. 4.12.

Рис. 4.12.Зависимость ускорения* параллельного решения СЛАУ от вычислительных ресурсов при проектировании на подпространства разной размерности

Из графиков зависимостей, представленных на рис. 4.9 можно сделать вывод, что, несмотря на существенное влияние, которое оказывает размерность mподпространства Крылова на скорость сходимости метода [5, 6], ускорение параллельного решения СЛАУ слабо зависит от выбранного параметраm.