Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Нижегородский Государственный Университет им. Н.И. Лобачевского

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

CUDA_full / L03_Threads_Memory

.pdf

Скачиваний:

Добавлен:

27.03.2015

Размер:

1.11 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 56 / 76 7 > Следующая >>>

Постановка задачи

Дано:

–Массив a0 , a1 ,..., an 1

–Ассоциативная операция «+» (например, +, *, min, max)

Необходимо найти: A a0 a1 ... an 1

Лимитирующий фактор – доступ к памяти.

Источник материала данного раздела: пример reduction в GPU Computing SDK и соответствующая статья; А.В. Боресков, А.А. Харламов «Иерархия памяти CUDA. Shared-память и ее эффективное использование. Параллельная редукция».

Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	51
		51

Иерархическое суммирование

Распределяем исходный массив между блоками.

Каждый блок производит иерархическое суммирование в разделяемой памяти.

5	3	7	-2	2	0	4	-5 -6	2	1	-3	4	5	-6	3
	8		5		2	-1		-4		-2		9		-3
		13			1				-6				6

Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	52
		52

Вариант 1

Thread	0	1	2	3	4	5	6	7	8	2	10	11	12	13	14	15
	0	1	2	3	4	5	6	7	8	2	10	11	12	13	14	15
a	5	3	7	-2	2	0	4	-5	-6	2	1	-3	4	5	-6	3
s=1
	8	3	5	-2	2	0	-1	-5	-4	2	-2	-3	9	5	-3	3
s=2
	13	3	5	-2	1	0	-1	-5	-6	2	-2	-3	6	5	-3	3
s=4
	14	3	5	-2	1	0	-1	-5	0	2	-2	-3	6	5	-3	3
s=8
	14	3	5	-2	1	0	-1	-5	0	2	-2	-3	6	5	-3	3

Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	53
		53

Вариант 1

__global__ void reduce1 ( int * inData, int * outData )

{

__shared__ int data [BLOCK_SIZE];

int tid	=	threadIdx.x;
int i	=	blockIdx.x *	blockDim.x + threadIdx.x;
data [tid] = inData [i];				// load into shared memory
__syncthreads ();
for ( int		s = 1; s < blockDim.x; s *= 2 ) {
if ( tid % (2*s) == 0 )				// heavy branching !!!
data [tid] += data			[tid + s];
__syncthreads ();

}

if ( tid == 0 ) // write result of block reduction outData[blockIdx.x] = data [0];

}

Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	54
		54

Вариант 2

__global__ void reduce2 ( int * inData, int * outData )

{


__shared__ int data				[BLOCK_SIZE];
int	tid	=	threadIdx.x;
int	i	=	blockIdx.x * blockDim.x			+ threadIdx.x;
data [tid] = inData				[i];	// load into shared memory

__syncthreads ();

for ( int s = 1; s < blockDim.x; s <<= 1 )

{

int index = 2 * s * tid; if ( index < blockDim.x )

data [index] += data	[index + s];
__syncthreads ();
}
if ( tid == 0 )	// write result of block reduction
outData [blockIdx.x] =	data [0];

}

Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	55
		55

Вариант 2

Отличие второго варианта от первого лишь в том, какие потоки выполняют (ту же самую) работу.

Во втором варианте почти полностью избавились от ветвления.

Однако на каждой следующей итерации циклов число конфликтов страниц памяти удваивается:

–s = 1: конфликт страниц 2го порядка (index = 1 при tid = 0 и index = 17 при tid = 8);

–s = 2: конфликт страниц 4го порядка (index = 2 при tid = 0, index = 18 при tid = 4, index = 34 при tid = 8, index = 50 при tid = 12);

–…

Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	56
		56

Вариант 3

Изменим порядок суммирования: будем начинать его не с ближайших, а с удаленных на blockDim.x/2 элементов и будем уменьшать это расстояние вдвое на каждом шаге.

Thread	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
Thread	5	3	7	-2	2	0	4	-5	-6	2	1	-3	4	5	-6	3
a	5	3	7	-2	2	0	4	-5	-6	2	1	-3	4	5	-6	3
s=1
	-1	5	8	-5	6	5	-2	-2	-6	2	1	-3	4	5	-6	3

s=2

5 10

-7

-2 -2 -6

-3

-6

s=4

11 3

-7

-2 -2 -6

-3

-6

s=8

14 3

-2 -2 -6

-3

-6

Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	57
		57

Вариант 3

__global__ void reduce3 ( int * inData, int * outData )

{

__shared__ int data [BLOCK_SIZE]; int tid = threadIdx.x;

int i = blockIdx.x * blockDim.x + threadIdx.x;

data [tid] = inData [i]; __syncthreads ();

for ( int s = blockDim.x / 2; s > 0; s >>= 1 )

{

if ( tid < s )

data [tid] += data [tid + s]; __syncthreads ();

}

if ( tid == 0 )

outData [blockIdx.x] = data [0];

}

Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	58
		58

Вариант 4

В варианте 3 избавились от конфликтов банков.

На первой итерации половина потоков простаивает, для избежания этого сделаем первое суммирование при загрузке.

Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	59
		59

Вариант 4

__global__ void reduce4 ( int * inData, int * outData )

{

__shared__ int data [BLOCK_SIZE]; int tid = threadIdx.x;

int i = 2 * blockIdx.x * blockDim.x + threadIdx.x;

data [tid] = inData [i] + inData [i+blockDim.x]; // sum __syncthreads ();

for ( int s = blockDim.x / 2; s > 0; s >>= 1 )

{

if ( tid < s )

data [tid] += data [tid + s]; __syncthreads ();

}

if ( tid == 0 )

outData [blockIdx.x] = data [0];

}

Н. Новгород, 2012 г.	Исполнение потоков. Иерархия памяти	60
		60

<<< < Предыдущая 1 2 3 4 56 / 76 7 > Следующая >>>

Соседние файлы в папке CUDA_full

#
27.03.2015592.52 Кб61L01_Intro_to_GPGPU.pdf
#
27.03.2015571.44 Кб66L01_Intro_to_GPGPU.pptx
#
27.03.2015822.51 Кб61L02_Intro_to_CUDA.pdf
#
27.03.2015611.89 Кб60L02_Intro_to_CUDA.pptx
#
27.03.20151.11 Mб60L03_Threads_Memory.pdf
#
27.03.2015804.55 Кб58L03_Threads_Memory.pptx
#
27.03.2015540.62 Кб60L04_Optimization_Libraries.pdf
#
27.03.2015263.1 Кб63L04_Optimization_Libraries.pptx