Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Харьковский Национальный Университет им. В. Н. Каразина

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

cuda.doc

Скачиваний:

Добавлен:

01.05.2025

Размер:

651.26 Кб

Скачать

☆

<<< < Предыдущая 1 2 3 4 56 / 96 7 8 9 > Следующая >>>

2.7 Создание ‘.Cu‘ файла

Необходимо создать файл с расширением ‘.cu‘, который затем редактируется программой ‘Блокнот‘ или другим текстовым редактором. Можно открыть ‘.txt‘ файл ‘Блокнотом‘ и сохранить его как ‘.cu‘ файл, добавив после имени файла ‘.cu‘ и указать в типе файла ‘Все файлы‘ вместо ‘Текстовые документы (.txt)‘.

В ‘.cu‘ файле пишется код на языке программирования С с расширениями для CUDA в виде функций, которые вызываются либо из Java-программы, либо из других функций ‘.cu‘ файла.

Перед объявлением функции указывается директива ‘extern "C"‘. Затем указывается тип функции ‘__device__‘ (выполняется на GPU, вызывается из ‘.cu‘ файла), ‘__global__‘ (выполняется на GPU, вызывается из Java-программы) или ‘__host__‘ (выполняется на СPU, вызывается из Java-программы).

Например, необходимо выполнить на GPU функцию ‘func‘, вызываемую из Java-программы (как вызвать такую функцию из Java-программы было рассмотрено выше):

extern "C" __global__void func(<... список входящих переменных ...>){

<... тело функции ....>

}

Входящими переменными являются переменные Java-программы. При описании входящих переменных функции указывается их тип и имя через запятую (если входящей переменной является массив, то перед его именем указывается ‘*‘):

extern "C" __global__ func(int N,float two_pi,float *input,float *output){ <... тело функции ....>}

Затем необходимо задать сетку и индексы потоков (переменными ‘threadIdx.x‘, ‘blockDim.x‘, ‘blockIdx.x‘). Данные переменные действительны только в пределах функции, которая выполняется на GPU. Также желательно провести синхронизацию потоков с помощью функции ‘__syncthreads()‘. Например, следующая функция вычисляет косинус для каждого элемента массива ‘input‘ и записывает результат в массив ‘output‘.

extern "C" __global__ void func(float *input, float *output){

int b = threadIdx.x + blockDim.x*blockIdx.x;

output[b]=cos(input[b]);

__syncthreads();

}

При более сложной структуре функции сложно описать параллельные вычисления в одной функции, поэтому создается вторая вспомогательная функция, которая вызывается из первой:

extern "C" __device__ float loop(int b,int N, float two_pi, float *input){

<... тело функции ....>

return (float) <... возвращаемое значение ...>;

}

extern "C" __global__ void func(int N, float two_pi, float *input, float *output){

int b = threadIdx.x + blockDim.x*blockIdx.x;

output[b]=loop(b,N,two_pi,input);

__syncthreads();

}

Таким образом получается готовый ‘.cu‘ файл, в котором все вычисления происходят в функции ‘loop‘:

extern "C" __device__ float loop(int b,int N, float two_pi, float *input){

float sum=0;

for(int a=0;a<N;a++)

if(input[a]>=input[b])sum+=cosf(two_pi*(input[b]-input[a]));

return (float)(-2*sum)/(float)N;

}

extern "C" __global__ void func(int N,float two_pi,float *input,float *output){

int b = threadIdx.x + blockDim.x*blockIdx.x;

output[b]=loop(b,N,two_pi,input);

__syncthreads();

}

<<< < Предыдущая 1 2 3 4 56 / 96 7 8 9 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.202561.15 Кб0CL_20_0__NLP_modern speech technologies_short_S.docx
#
01.07.2025114.18 Кб0CL_26_ПР Интернет-ресурсы переводчика-1.doc
#
01.05.202529.07 Mб0Colletotrichum_orbiculare_yavlyaetsya_osnovnym_...docx
#
09.11.201957.86 Кб30Complex Object.doc
#
09.11.20194.07 Mб6const_r.rtf
#
01.05.2025651.26 Кб0cuda.doc
#
01.05.2025224.77 Кб0cімінари ЗП Азії.doc
#
24.12.2018300.03 Кб6Cборник по инклюзии1.doc
#
24.12.2018399.36 Кб13Cборник по инклюзии2.doc
#
23.02.20151.77 Mб13Danilov.docx
#
30.04.20191.26 Mб36Dashenkova-Psihologija-Kh-HNURE-2008-ukr.doc