Теоретическая часть

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Уральский Федеральный университет им. Б.Н. Ельцина «УПИ»

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Пособие_CUDA.docx

Скачиваний:

Добавлен:

01.07.2025

Размер:

5.04 Mб

Скачать

☆

<<< < Предыдущая 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 3940 / 4740 41 42 43 44 45 46 47 > Следующая >>>

Теоретическая часть

Разработка приложения с использованием архитектуры CUDA ничем не отличается от создания компьютерной программы на любом языке программирования. Важно лишь разбираться в принципах организации параллельных вычислений.

Любое CUDA-приложение, должно включать следующие этапы:

Выбор и инициализацию видеокарты;
Выделение массивов данных в памяти GPU;
Загрузки данных на устройство;
Вычисление в GPU через функцию ядра;
Копирование вычисленных данных из GPU памяти в ОЗУ;
Освобождение выделенных ресурсов GPU.

Инициализация устройства.

Для управления устройствами, поддерживающими технологию CUDA, можно использовать функцию cudaGetDeviceCount, возвращающую количество устройств и функцию cudaGetDeviceProperties, описывающую свойства каждого устройства.

Функция cudaSetDevice используется для выбора устройства: cudaSetDevice(device). Устройство должно быть выбрано раньше любого вызова __global__ функции, если этого не произошло, по умолчанию ставится устройство с номером 0. Если требуется работать с несколькими устройствами, то необходимо использовать несколько потоков в программе.

Выделение памяти на gpu

Одним из способов выделения памяти в CUDA является использование функций cudaMalloc и cudaMallocPitch.

Функция cudaMalloc имеет следующий прототип:

cudaError_t cudaMalloc(void** devPtr, size_t count); где devPtr – указатель, в который записывается адрес выделенной памяти;

count – размер выделяемой памяти в байтах.

Возвращает:

cudaSuccess – при удачном выделении памяти;

cudaErrorMemoryAllocation – при ошибке выделения памяти.

Для выделения памяти под двухмерные массивы более подходящей является функция cudaMallocPitch, которая осуществляет выравнивание строк массива для более эффективного доступа к памяти. При этом в параметре pitch возвращается размер строки в байтах:

cudaError_t cudaMallocPitch (void ** devPtr, size_t * pitch,size_t width, size_t height)

Для выделения памяти на центральном процессоре помимо стандартных функций операционной системы можно воспользоваться функцией cudaMallocHost.

cudaError_t cudaMallocHost(void** hostPtr, size_t count);

Функция выделяет память на CPU в режиме блокировки от подкачки. Данный способ выделения памяти сильно ускоряет обмен данными с GPU. Однако частое использование данной функции может привести к падению производительности центрального процессора.

Пересылка данных между cpu и gpu.

Для взаимодействия CPU и GPU используется глобальная память, размеры которой могут варьироваться от нескольких сотен мегабайт до нескольких гигабайт. Скорость передачи данных с хоста на устройство ограничивается пропускной способностью шины PCI Express.

Рассмотренные выше функции управляют выделением памяти на GPU, к которой центральный процессор не имеет непосредственного доступа. Поэтому CUDA API предоставляет специальные функции, которые позволяют копировать память как между CPU и GPU, так и в пределах GPU.

Для копирования данных между хостом и устройством используются функции cudaMemcpy и cudaMemcpyAsync, которые имеют следующий прототип:

cudaError_t cudaMemcpy( void * dst, const void * src, size_t count, enum cudaMemcpyKind kind );

cudaError_t cudaMemcpyAsync ( void * dst, const void * src, size_t count, enum cudaMemcpyKind kind, cudaStream_t stream );

где dst – указатель, содержащий адрес места назначения копирования;

src – указатель, содержащий адрес источника копирования;

count – размер копируемого ресурса в байтах;

kind – направление копирования может принимать значения:

cudaMemcpyHostToDevice – c хоста на устройство,
cudaMemcpyDeviceToHost – с устройства на хост,
cudaMemcpyDeviceToDevice – с устройства на устройство,
cudaMemcpyHostToHost – с хоста на хост.

stream – описение потока, в котором запускается функция.

Возвращает:

cudaSuccess – при удачном копировании,

cudaErrorInvalidValue – неверный указатель памяти в видеокарте,

cudaErrorInvalidMemcpyDirection – неверное направление.

Функция cudaMemcpyAsync ассинхронная, т.е. управление в основную программу хоста возвратится до реального ее выполнения. Для завершения работы функции необходимо использовать средства синхронизации, например функцию cudaThreadSynchronize().

Функция cudaMemcpyAsync работает только с памятью выделенной с помощью функции cudaMallocHost.

Для очистки выделенных ресурсов служат следующие функции:

cudaFreeHost (void * ptr) – очищает память с адреса, на который указывает ptr.

cudaFree (void *devPtr) – очищает память с адреса, указанного в devPtr.

<<< < Предыдущая 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 3940 / 4740 41 42 43 44 45 46 47 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
22.02.20156.39 Mб23ПОСОБИЕ по ЭКОНОМЕТРИКЕ 2010-11-01.doc
#
01.07.2025271.36 Кб0Пособие си ИГА без решения.doc
#
01.07.2025166.45 Mб0Пособие УСБД.docx
#
01.07.20256.36 Mб0Пособие Федоровой Т.Н..docx
#
12.08.20193.91 Mб59Пособие-Электроснабжение и электрооборудование.doc
#
01.07.20255.04 Mб0Пособие_CUDA.docx
#
01.07.20253.63 Mб0Пособие_по_выбору_Схем_ПС_2013.docx
#
22.02.2015503.3 Кб14Постмодернизм. Суслов.docx
#
01.05.2025502.25 Кб0Постников БЖД готово на подпись.docx
#
01.05.2025106.14 Кб0Постников Экономика готово на подпись.docx
#
01.07.2025434.66 Кб0Постоянный ток-1 ФИПИ 1 вариант.docx