Вариант 5

При s <= 32 в блоке работает только один варп.

Можно развернуть цикл, избавившись от синхронизации и проверки условия.

for ( int s = blockDim.x / 2; s > 32; s >>= 1 ) { if ( tid < s )

data [tid] += data [tid + s];

__syncthreads ();

}

if ( tid < 32 ) { // unroll last iterations data [tid] += data [tid + 32];

data [tid] += data [tid + 16]; data [tid] += data [tid + 8]; data [tid] += data [tid + 4]; data [tid] += data [tid + 2]; data [tid] += data [tid + 1];

}

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

Результаты

Вариант	Время
алгоритма	выполнения
	(миллисекунды
	)
1	19.09
2	11.91
3	10.62
4	9.10

Возможна дальнейшая5 оптимизация: 8полное.67 разворачивание на этапе компиляции при помощи параметров шаблонов. В примере в SDK данный вариант

реализован.

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

Материалы

Линев А.В., Боголепов Д.К., Бастраков С.И. «Технологии параллельного программирования для процессоров новых архитектур» / Учебник.

Дополнительная подготовка магистров по программе «Суперкомпьютерные технологии»: http://hpcc.unn.ru/?doc=493

NVIDIA CUDA C Programming Guide v. 4.1.

А.В. Боресков, А.А. Харламов «Основы работы с технологией CUDA» и материалы курса по CUDA в МГУ: https://sites.google.com/site/cudacsmsusu/file-cabinet

Д. Сандерс, Э. Кэндрот «Технология CUDA в примерах: введение в программирование графических процессоров» (пер. с англ.).

Н. Новгород, 2012 г.

Исполнение потоков. Иерархия памяти

<<< < Предыдущая 1 2 3 4 5 67 / 77

Соседние файлы в папке CUDA_full

#
27.03.2015592.52 Кб61L01_Intro_to_GPGPU.pdf
#
27.03.2015571.44 Кб66L01_Intro_to_GPGPU.pptx
#
27.03.2015822.51 Кб61L02_Intro_to_CUDA.pdf
#
27.03.2015611.89 Кб60L02_Intro_to_CUDA.pptx
#
27.03.20151.11 Mб60L03_Threads_Memory.pdf
#
27.03.2015804.55 Кб58L03_Threads_Memory.pptx
#
27.03.2015540.62 Кб60L04_Optimization_Libraries.pdf
#
27.03.2015263.1 Кб63L04_Optimization_Libraries.pptx