Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный физико-технический университет (МФТИ)

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

CUDA Intro

.pdf

Скачиваний:

25

Добавлен:

03.06.2015

Размер:

4.16 Mб

Скачать

☆

<<< < Предыдущая 1 23 / 73 4 5 6 7 > Следующая >>>

Ветвление (branching)

APC | 21

Глобальная синхронизация

В общем случае, из-за ограничений по числу нитей и блоков на одном SM не удаётся разместить сразу все блоки программы на GPU

•Часть блоков ожидает выполнения

Поэтому в общем случае невозможна глобальная синхронизация

•Блоки выполняются по мере освобождения ресурсов

Нельзя предсказать порядок выполнения блоков

APC | 22

SIMT и масштабирование

Виртуальная часть

•GPU может поддерживать миллионы виртуальных нитей

•Виртуальные блоки независимы

Программу можно запустить на любом количестве SM

Аппаратная часть

•Мультипроцессоры независимы

Можно «нарезать» GPU c различным количеством SM

APC | 23

Программа

Блок

MIMD

Выводы

Warp

SIMD

Нить

NVIDIA SIMT

все нити из одного warp-а

одновременно выполняют одну инструкцию, warp-ы выполняются независимо

SIMD — все нити	MIMD — каждая нить
SIMD — все нити	выполняется независимо от
одновременно выполняют	других, SMP — все нити
одну инструкцию	имеют равные возможности
	для доступа к памяти
	APC \| 24

CUDA: Гибридное программирование

CPU+GPU

APC | 25

Вычисления с использованием GPU

Программа, использующая GPU, состоит из:

•Кода для GPU, описывающего необходимые вычисления и работу с памятью устройства

•Кода для CPU, в котором осуществляется

Управление памятью GPU — выделение/освобождение

Обмен данными между GPU/CPU

Запуск кода для GPU

Обработка результатов и прочий последовательный код

APC | 26

Вычисления с использованием GPU

GPU рассматривается как периферийное устройство, управляемое центральным процессором

•GPU «пассивно», т.е. не может само загрузить себя работой

Код для GPU можно запускать из любого места программы как обычную функцию

•«Точечная», «инкрементная» оптимизация/портирование программ

APC | 27

Используемая терминология

CPU = «хост» (от англ. host)

•код для CPU — код для хоста, «хост-код» (host-code)

GPU = «устройство» или «девайс» (от англ. device)

•код для GPU — «код для устройства», «девайс-код»

(device-code)

Код для GPU (device-code)

Код для GPU пишется на C++ с некоторыми надстройками:

•Атрибуты функций, переменных и структур

•Встроенные функции

Математика, реализованная на GPU

Синхронизации, коллективные операции

•Векторные типы данных

•Встроенные переменные

threadIdx, blockIdx, gridDim, blockDim

•Шаблоны для работы с текстурами

•…

Компилируется специальным компилятором cicc

APC | 29

Код для CPU (host-code)

Код для CPU дополняется вызовами специальных функций для работы с устройством

Код для CPU компилируется обычным компилятором

• Кроме конструкции запуска ядра <<<...>>>

Функции линкуются из динамических библиотек

APC | 30

<<< < Предыдущая 1 23 / 73 4 5 6 7 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
08.11.201895.23 Кб200CONDITIONALS.doc
#
03.06.20152.9 Mб36Conspect.doc
#
01.04.202526.79 Кб0Copy of Квинтэссенция философии.docx
#
01.04.2025121.86 Кб0CPP_NOW.doc
#
01.05.2025164.35 Кб0crystal_phylosophy.doc
#
03.06.20154.16 Mб25CUDA Intro.pdf
#
03.06.20151.72 Mб25CUDA Memory.pdf
#
27.03.2016276.18 Кб15Curve.pdf
#
03.06.2015180.02 Кб12Describing graphs.pdf
#
03.06.2015713.59 Кб15devcpp_2.pdf
#
03.06.2015529.83 Кб21Diff.pdf