Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Нижегородский Государственный Университет им. Н.И. Лобачевского

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

CUDA_full / L03_Threads_Memory.pptx

Скачиваний:

Добавлен:

27.03.2015

Размер:

804.55 Кб

Скачать

☆

1 / 71 2 3 4 5 6 7 > Следующая >>>

Нижегородский государственный университет им. Н.И. Лобачевского

Факультет Вычислительной математики и кибернетики

Исполнение потоков. Иерархия памяти

Бастраков С.И. ВМК ННГУ sergey.bastrakov@gmail.com

Содержание

Архитектура GPU NVIDIA

Исполнение потоков

Иерархия памяти

Пример: параллельная редукция

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

Архитектура GPU NVIDIA

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

Архитектура CPU и GPU

CPU	GPU
“cache-oriented”	“cache-miss oriented”

[NVIDIA CUDA C Programming Guide v. 3.2]

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

Архитектура CPU и GPU

GPU предназначен для вычислений,

–параллельных по данным: одна и та же операция выполняется над многими данными параллельно,

–в которых отношение вычислительных операций к числу операций по доступу к памяти велико.

Вместо кэша и сложных элементов управления на кристалле размещено большее число вычислительных элементов.

Латентность памяти покрывается за счет большого количества легковесных потоков.

Постепенно сложность архитектуры GPU повышается.

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

Архитектура GPU: общие сведения

GPU – массивно-параллельный многоядерный процессор.

Состоит из мультипроцессоров (streaming multiprocessor,

MP), каждый из которых содержит несколько CUDA-ядер (CUDA core) и общую для них память.

–В архитектурах до Fermi аналоги CUDA-ядер назывались скалярными процессорами (scalar processor, SP).

CUDA-ядра внутри одного мультипроцессора работают как SIMD.

Чрезвычайно легковесные потоки, встроенный планировщик.

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

Архитектура Tesla 8/10

[А.В. Боресков, А.А. Харламов «Архитектура и программирование массивно- параллельных вычислительных систем»

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

Мультипроцессор Tesla 8

[А.В. Боресков, А.А. Харламов «Архитектура и программирование массивно- параллельных вычислительных систем»

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

Мультипроцессор Tesla 10

[А.В. Боресков, А.А. Харламов «Архитектура и программирование массивно- параллельных вычислительных систем»

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

Иерархия памяти Tesla 10

Глобальная (device/global) – общая для устройства.

Разделяемая (shared) – общая для всех CUDA-ядер в одном MP.

Константный кэш (constant cache) – только чтение, общий для всех CUDA-ядер в одном MP.

Текстурный кэш (texture cache) – только чтение, общий для всех CUDA-ядер в одном MP.

Регистры (register) – (логически) эксклюзивны для CUDA-ядер.

Локальная (local) – (логически) эксклюзивна для CUDA- ядер.

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

1 / 71 2 3 4 5 6 7 > Следующая >>>

Соседние файлы в папке CUDA_full

#
27.03.2015592.52 Кб24L01_Intro_to_GPGPU.pdf
#
27.03.2015571.44 Кб29L01_Intro_to_GPGPU.pptx
#
27.03.2015822.51 Кб24L02_Intro_to_CUDA.pdf
#
27.03.2015611.89 Кб23L02_Intro_to_CUDA.pptx
#
27.03.20151.11 Mб23L03_Threads_Memory.pdf
#
27.03.2015804.55 Кб21L03_Threads_Memory.pptx
#
27.03.2015540.62 Кб23L04_Optimization_Libraries.pdf
#
27.03.2015263.1 Кб26L04_Optimization_Libraries.pptx