Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Нижегородский Государственный Университет им. Н.И. Лобачевского

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

CUDA_full / L03_Threads_Memory.pptx

Скачиваний:

Добавлен:

27.03.2015

Размер:

804.55 Кб

Скачать

☆

<<< < Предыдущая 1 2 34 / 74 5 6 7 > Следующая >>>

Использование глобальной памяти

Выделение и освобождение памяти на устройстве:

–cudaError_t cudaMalloc (void** devPtr, size_t count) – выделяет память на устройстве и возвращает указатель на нее;

–cudaError_t cudaFree (void* devPtr) – освобождает память на устройстве.

Копирование данных между хостом и устройством:

–cudaError_t cudaMemcpy (void* dst, const void* src, size_t count, enum cudaMemcpyKind kind),

kind может принимать значения cudaMemcpyHostToDevice и cudaMemcpyDeviceToHost.

– cudaMemcpyAsync – неблокирующий вариант.

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

Пример: выделение памяти и копирование вектора

Выделение памяти на хосте и устройстве: int n = 1000;

float * a = new float[n], * a_gpu; cudaMalloc((void**)&a_gpu, n *

sizeof(float));

Копирование с хоста на устройтво: cudaMemcpy(a_gpu, a, n * sizeof(float),

cudaMemcpyHostToDevice);

Копирование с устройства на хост: cudaMemcpy(a, a_gpu, n * sizeof(float),

cudaMemcpyDeviceToHost);

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

Эффективная работа с глобальной памятью

L1/L2 кэш для глобальной памяти появился в архитектуре Fermi.

Латентность 400-600 тактов (без учета кэша или в случае кэш-промаха).

Оптимизация работы с глобальной памятью обычно имеет очень большое значение.

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

Эффективная работа с глобальной памятью

Доступ в глобальную память осуществляется полуварпами.

Каждый поток обращается к 32-, 64- или 128-битным словам.

При выполнении определенных условий происходит

объединение запросов (коалесцирование, coalescing) к памяти всех потоков полуварпа в одну операцию доступа к непрерывному блоку памяти и выполнение их одной инструкцией.

В противном случае доступ полуварпа к памяти разбивается на несколько последовательных доступов к непрерывным блокам памяти.

Условия для объединения запросов зависят от вычислительных возможностей, постепенно они становятся все более мягкими.

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

Эффективная работа с глобальной памятью

Условия, необходимые для объединения запросов:

–Доступ в пределах одного последовательного участка памяти определенного размера.

–Выровненность адресов, с которыми работает каждый поток, по размеру типа. Выровненность автоматически обеспечивается для встроенных векторных типов, для обеспечения выровненности структур используется __align__ (newsize) при их объявлении.

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

Пример доступа к глобальной памяти

[NVIDIA CUDA C Programming Guide v. 4.0]

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

Пример доступа к глобальной памяти

[NVIDIA CUDA C Programming Guide v. 4.0]

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

Пример доступа к глобальной памяти

[NVIDIA CUDA C Programming Guide v. 4.0]

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

Пример

/* Одна итерация метода Якоби для системы размера n на n: x0

– текущее приближение, x1 – следующее, матрица a хранится по строкам, f – правая часть. Каждый поток вычисляет свой

элемент вектора x1, общее число потоков равно n. */

__global__ void kernel (float * a, float * f, float * x0, float * x1, int n)

{

int idx = blockIdx.x * blockDim.x + threadIdx.x; int ia = n * idx;

float sum = 0.0f;

for (int i = 0; i < n; i++)

sum += a[ia + i] * x0[i]; /* плохой вариант доступа к a, лучше хранить ее по столбцам */

float alpha = 1.0f / a[ia + idx];

x1[idx] = x0[idx] + alpha * (f[idx] - sum);

}	Использованы материалы: А.В. Боресков, А.А. Харламов «Архитектура и

		программирование массивно-параллельных вычислительных систем»
	Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	40

<<< < Предыдущая 1 2 34 / 74 5 6 7 > Следующая >>>

Соседние файлы в папке CUDA_full

#
27.03.2015592.52 Кб80L01_Intro_to_GPGPU.pdf
#
27.03.2015571.44 Кб85L01_Intro_to_GPGPU.pptx
#
27.03.2015822.51 Кб80L02_Intro_to_CUDA.pdf
#
27.03.2015611.89 Кб79L02_Intro_to_CUDA.pptx
#
27.03.20151.11 Mб79L03_Threads_Memory.pdf
#
27.03.2015804.55 Кб77L03_Threads_Memory.pptx
#
27.03.2015540.62 Кб79L04_Optimization_Libraries.pdf
#
27.03.2015263.1 Кб82L04_Optimization_Libraries.pptx

Использование глобальной памяти

Пример: выделение памяти и копирование вектора

Эффективная работа с глобальной памятью

Эффективная работа с глобальной памятью

Эффективная работа с глобальной памятью

Пример доступа к глобальной памяти

Пример доступа к глобальной памяти

Пример доступа к глобальной памяти

Рекомендации по эффективной работе с глобальной памятью

Пример