Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пособие_CUDA.docx
Скачиваний:
1
Добавлен:
01.07.2025
Размер:
5.04 Mб
Скачать

Модель программирования cuda.

Вычислительная архитектура CUDA основана на концепции «одна команда на множество данных» (Single Instruction Multiple Data, SIMD). Концепция SIMD подразумевает, что одна инструкция позволяет одновременно обработать множество данных. Мультипроцессор – это многоядерный SIMD-процессор, позволяющий в каждый определенный момент времени выполнять на всех своих ядрах только одну инструкцию.

Важно понимать, что использовать мощности графического процессора уместно далеко не всегда. Графический процессор предназначен для вычислений с большим параллелизмом и интенсивной арифметикой. Это объясняется тем, что у него гораздо большее число транзисторов отведено на обработку данных, а не на управление исполнением. Поэтому GPU демонстрируют хорошие результаты в параллельной обработке данных, когда с помощью одной и той же последовательности действий обрабатывается большой объем данных. Именно по этой причине всю мощь от использования CUDA можно ощутить, когда требуется выполнять одни и те же действия над огромными массивами данных.

Перечислим основные термины, используемые в технологии CUDA:

  • хост (host) – центральный процессор (CPU), управляющий выполнением программы;

  • устройство (device) – видеоадаптер (GPU), выступающий в роли сопроцессора центрального процессора;

  • ядро (kernel) – последовательность операций, выполняемых множество раз над разными данными. Ядро выполняется на графическом процессоре, и в любой момент может исполняться только одно ядро;

  • поток (нить, thread) – экземпляр ядра. Каждая нить имеет свой уникальный идентификатор. Количество одновременно исполняемых потоков может достигать несколько тысяч;

  • блок (block) – совокупность потоков. Внутри одного блока потоков возможна синхронизация потоков. Также все потоки внутри одного блока имеют доступ к общей разделяемой памяти, используемой в качестве кэша или для коммуникаций между потоками;

  • cетка (grid) – каждый блок потоков принадлежит некоторой сетке. Все блоки потоков внутри сетки представляют полную модель исполнения ядра;

  • варп (warp) – исполняемая единица CUDA-программы. Это количество потоков, исполняемых параллельно на одном мультипроцессоре. Размер warp составляет 32 потока.

На центральном процессоре выполняются только последовательные части алгоритма программы: подготовка и копирование данных на устройство, задание параметров для ядра и его запуск. Параллельные части алгоритма оформляются в ядра, которые выполняются на большом количестве потоков на устройстве.

Для выполнения на устройстве задача разбивается на множество потоков, которые объединяются в блоки, а блоки объединяются в сетку. Каждый поток выполняет одну и ту же последовательность процедур (ядро) для разного набора данных.

На рис. 3.4 изображен пример организации потоков. В примере потоки и блоки потоков объединены в двумерные массивы, в общем же случае потоки внутри блока могут быть объединены в одно-, двух- или трехмерный массив, а блоки потоков внутри сетки в одно- или двухмерный массив. Каждый поток имеет идентификатор внутри блока. Идентификаторы различны для разных потоков, а их значения соответствуют координатам потока внутри блока потоков и координатам блока потоков внутри сетки.

Рис. 3.4. Потоковая модель

Порядок выполнения блоков не определён, блоки должны быть не зависимыми друг от друга. При запуске ядра блоки сетки нумеруются и распределяются по мультипроцессорам, имеющим определенное количество регистров и определенный размер разделяемой памяти. Планировщик команд последовательно разбивает потоки активного блока на группы (warps). Для исполнения одной команды варпа мультипроцессор должен загрузить операнды, выполнить команду и записать результат для всех потоков группы. Если доступ к памяти вызывает задержку (до 600 циклов), то планировщик может перейти к следующему варпу. По завершении всех потоков блока ресурсы SM освобождаются, и на выполнение поступает следующий блок.

Следует отметить, что в архитектурах, поддерживающих технологию CUDA, число потоковых процессоров внутри одного мультипроцессора варьируется от 8 до 48 штук. Также в состав мультипроцессора архитектуры Fermi входит 2 планировщика задач, что позволяет выполнять одновременно два варпа. Из всего этого следует, что не весь warp исполняется одновременно, он разбивается на части, которые выполняются последовательно. Количество частей зависит от числа потоковых процессоров в составе мультипроцессора. Также стоит отметить, что для доступа к памяти используется half-warp (половина варпа), т.е. вначале к памяти обращаются первые 16 нитей, а затем вторая половина из 16 нитей.

Планировщик мультипроцессора имеет ограничения по максимальному числу одновременно запущенных блоков, максимальному числу потоков в блоке и максимальному числу варпов. Данные ограничения зависят от вычислительных возможностей (compute capability) конкретного GPU.

Для всех версий аппаратуры мультипроцессор может одновременно исполнять не более 8 блоков потоков. Это связано с тем, что регистры мультипроцессора делятся между всеми потоками всех блоков, одновременно исполняемых этим мультипроцессором. Количество регистров, необходимых одному потоку, определяется на этапе компиляции, а количество регистров мультипроцессора зависит от архитектуры графического процессора. Таким же образом разделяемая память распределяется между одновременно исполняемыми блоками. Объем разделяемой памяти, необходимый одному блоку потоков, определяется на этапе компиляции или при вызове ядра.

      1. Отчет по практической работе

Отчет по практической работе должен соответствовать порядку выполнения работы и содержать конспект изученного материала, данные о вычислительных возможностях видеокарты учебного компьютера:

  • Количество CUDA-ядер.

  • Максимальное количество потоков в блоке.

  • Количество активных потоков на мультипроцессоре.

  • Максимальную размерность блока.

  • Максимальную размерность сетки.

    1. Практическая работа №2. Работа с памятью в технологии CUDA

      1. Цель работы

Целью работы является ознакомление с моделью памяти в технологии CUDA и изучение механизма оптимизации приложений с использованием глобальной и разделяемой памяти.

      1. Порядок выполнения работы

  1. Изучить сравнительные характеристики разных типов памяти, выделяемых в CUDA.

  2. Выяснить вычислительные возможности установленной в системе видеокарты:

  • объем глобальной памяти;

  • объем разделяемой памяти;

  • максимальную размерность текстуры (x,y,z);

  • КЭШ текстурной памяти на мультипроцессор.

  1. Изучить особенности глобальной памяти. Обратить внимание на два способа оптимизации в работе с глобальной памятью.

  2. Разобраться с особенностями разделяемой памяти.