Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Нижегородский Государственный Университет им. Н.И. Лобачевского

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

CUDA_full / L03_Threads_Memory

.pdf

Скачиваний:

Добавлен:

27.03.2015

Размер:

1.11 Mб

Скачать

☆

1 / 71 2 3 4 5 6 7 > Следующая >>>

Нижегородский государственный университет им. Н.И. Лобачевского

Факультет Вычислительной математики и кибернетики

Исполнение потоков. Иерархия памяти

Бастраков С.И. ВМК ННГУ sergey.bastrakov@gmail.com

Содержание

Архитектура GPU NVIDIA

Исполнение потоков

Иерархия памяти

Пример: параллельная редукция

Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	2
		2

Архитектура GPU NVIDIA

Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	3
		3

Архитектура CPU и GPU

CPU	GPU

“cache-oriented”	“cache-miss oriented”

[NVIDIA CUDA C Programming Guide v. 3.2]

Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	4
		4

Архитектура CPU и GPU

GPU предназначен для вычислений,

–параллельных по данным: одна и та же операция выполняется над многими данными параллельно,

–в которых отношение вычислительных операций к числу операций по доступу к памяти велико.

Вместо кэша и сложных элементов управления на кристалле размещено большее число вычислительных элементов.

Латентность памяти покрывается за счет большого количества легковесных потоков.

Постепенно сложность архитектуры GPU повышается.

Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	5
		5

Архитектура GPU: общие сведения

GPU – массивно-параллельный многоядерный процессор.

Состоит из мультипроцессоров (streaming multiprocessor,

MP), каждый из которых содержит несколько CUDA-ядер (CUDA core) и общую для них память.

–В архитектурах до Fermi аналоги CUDA-ядер назывались скалярными процессорами (scalar processor, SP).

CUDA-ядра внутри одного мультипроцессора работают как SIMD.

Чрезвычайно легковесные потоки, встроенный планировщик.

Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	6
		6

Архитектура Tesla 8/10

[А.В. Боресков, А.А. Харламов «Архитектура и программирование массивнопараллельных вычислительных систем»

Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	7
		7

Мультипроцессор Tesla 8

[А.В. Боресков, А.А. Харламов «Архитектура и программирование массивнопараллельных вычислительных систем»

Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	8
		8

Мультипроцессор Tesla 10

[А.В. Боресков, А.А. Харламов «Архитектура и программирование массивнопараллельных вычислительных систем»

Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	9
		9

Иерархия памяти Tesla 10

Глобальная (device/global) – общая для устройства.

Разделяемая (shared) – общая для всех CUDA-ядер в одном MP.

Константный кэш (constant cache) – только чтение,

общий для всех CUDA-ядер в одном MP.

Текстурный кэш (texture cache) – только чтение, общий для всех CUDA-ядер в одном MP.

Регистры (register) – (логически) эксклюзивны для

CUDA-ядер.

Локальная (local) – (логически) эксклюзивна для CUDAядер.

Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	10
		10

1 / 71 2 3 4 5 6 7 > Следующая >>>

Соседние файлы в папке CUDA_full

#
27.03.2015592.52 Кб90L01_Intro_to_GPGPU.pdf
#
27.03.2015571.44 Кб95L01_Intro_to_GPGPU.pptx
#
27.03.2015822.51 Кб89L02_Intro_to_CUDA.pdf
#
27.03.2015611.89 Кб88L02_Intro_to_CUDA.pptx
#
27.03.20151.11 Mб88L03_Threads_Memory.pdf
#
27.03.2015804.55 Кб88L03_Threads_Memory.pptx
#
27.03.2015540.62 Кб89L04_Optimization_Libraries.pdf
#
27.03.2015263.1 Кб92L04_Optimization_Libraries.pptx