CUDA_full / P03_MatrixMultiplication / MMult
.pptxНижегородский государственный университет им. Н.И. Лобачевского
Факультет Вычислительной математики и кибернетики
Реaлизация матричного произведения с использованием CUDA
Бастраков С.И. ВМК ННГУ sergey.bastrakov@gmail.com
Постановка задачи
Вычислить произведение матриц размера m x n и n x k.
Матрицы хранятся в одномерных массивах по строкам.
Необходимо создать 3 версии для GPU:
–mmult_gpu_1: считаем, что размеры матриц кратны BLOCK_SIZE, в теле ядра вычисляем один элемент, используем блоки размера BLOCK_SIZE x BLOCK_SIZE.
–mmult_gpu_2: размеры матриц не обязательно кратны BLOCK_SIZE, в теле ядра вычисляем один элемент, используем блоки размера BLOCK_SIZE x BLOCK_SIZE.
–mmult_gpu_3: размеры матриц не обязательно кратны BLOCK_SIZE, в теле ядра вычисляем несколько элементов, используем 2 x 2 блока потоков размера 16 x 8.
Н. Новгород, 2011 г. |
Реaлизация и оптимизация матричного произведения с использованием CUDA |
2 |