Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный физико-технический университет (МФТИ)

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

CUDA Memory

.pdf

Скачиваний:

Добавлен:

03.06.2015

Размер:

1.72 Mб

Скачать

☆

<<< < Предыдущая 1 23 / 33

Синхронизация

void __syncthreads()

•Локальная барьерная синхронизация для всех нитей блока

•Может вызываться только из Device-кода

•Может вызываться в условном операторе только если все нити блока дойдут до этой строчки

•Стоит вставлять синхронизацию между операциями чтения и записи в разделяемую память

APC | 21

Типичное использование

Нити блока совместно загружают данные в разделяемую память

__syncthreads()

Работа с разделяемой памятью

• В том числе синхронизации, если нужно

__syncthreads()

Выгрузка результатов расчета в глобальную память

APC | 22

Умножение матриц

Постоянно используются элементы матриц A и B, которые формируют полосы

Размер полос для реальных задач превышает размер разделяемой памяти

APC | 23

Умножение матриц

Разбиваем каждую полосу на квадратные матрицы (например, 16х16)

Cij Aik Bkj k 1

Для работы нужны всего две матрицы 16х16 в разделяемой памяти

APC | 24

Умножение матриц

На каждый элемент результата: Прошлая реализация:

•2N арифметических операций

•2N обращений к глобальной памяти

Реализация с разделяемой памятью

•2N арифметических операций

•2N / 16 обращений к глобальной памяти

•Нужна явная синхронизация

APC | 25

Умножение матриц

__global__ void matmul2(float* a, float* b, int n, float* c) { int bx = blockIdx.x, by = blockIdx.y;

int tx = threadIdx.x, ty = threadIdx.y;

int aBegin = n * BLOCK_SIZE * by; // Индекс начала первой

// подматрицы A

int aEnd = aBegin + n - 1; int aStep = BLOCK_SIZE;

int bBegin = BLOCK_SIZE * bx; int bStep = BLOCK_SIZE * n; float sum = 0.0f;

//Шаг перебора подматриц A

//Индекс первой подматрицы B

//Шаг перебора подматриц B

//Вычисляемый элемент C’

__shared__ float as [BLOCK_SIZE][BLOCK_SIZE]; __shared__ float bs [BLOCK_SIZE][BLOCK_SIZE];

APC | 26

Умножение матриц

for (int ia = aBegin, ib = bBegin; ia <= aEnd;

ia += aStep, ib += bStep) { // Цикл по всем подматрицам

//Загрузить по одному элементу A и B в shared-память. as [ty][tx] = a [ia + n * ty + tx];

bs [ty][tx] = b [ib + n * ty + tx];

//Дождаться, пока обе матрицы будут загружены

__syncthreads();

//Вычислить элемент произведения загруженных подматриц. for (int k = 0; k < BLOCK_SIZE; k++)

sum += as [ty][k] * bs [k][tx];

//Дождаться пока все нити блока вычислят свои элементы

__syncthreads();

}

int ic = n * BLOCK_SIZE * by + BLOCK_SIZE * bx; c [ic + n * ty + tx] = sum; // Записать результат

}

APC | 27

	Быстродействие

Метод	Время, мс

Без использования	324.63
разделяемой памяти

С использованием	93.26
разделяемой памяти

С использованием	30.84
CUBLAS

Время решения задачи 2048х2048, GPU: Tesla C2070

APC | 28

Спасибо за внимание!

Шевченко Александр aleksandr.shevchenko@phystech.edu

APC | 29

<<< < Предыдущая 1 23 / 33

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
03.06.20152.9 Mб36Conspect.doc
#
01.04.202526.79 Кб0Copy of Квинтэссенция философии.docx
#
01.04.2025121.86 Кб0CPP_NOW.doc
#
01.05.2025164.35 Кб0crystal_phylosophy.doc
#
03.06.20154.16 Mб25CUDA Intro.pdf
#
03.06.20151.72 Mб25CUDA Memory.pdf
#
27.03.2016276.18 Кб15Curve.pdf
#
03.06.2015180.02 Кб12Describing graphs.pdf
#
03.06.2015713.59 Кб15devcpp_2.pdf
#
03.06.2015529.83 Кб21Diff.pdf
#
27.03.20161.89 Mб19diploma_0.0.2.pdf