Отладка программ в режиме эмуляции устройства

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Уральский Федеральный университет им. Б.Н. Ельцина «УПИ»

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Пособие_CUDA.docx

Скачиваний:

Добавлен:

01.07.2025

Размер:

5.04 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 1112 / 4712 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Отладка программ в режиме эмуляции устройства

Для ОС Linux предусмотрен специальный отладчик CUDA-GDB, который является расширением стандартного отладчика GDB (GNU Project Debugger) версии 6.6 для платформы i386/AMD64. Он разработан для предоставления разработчику гетерогенной среды отладки, поддерживающей как хостовый код, так и CUDA-код.

Кроме того, компилятор и интерфейс времени выполнения поддерживают режим эмуляции CUDA-устройства, предназначенный для отладки, который может быть использован даже при отсутствии CUDA-совместимого устройства. При компиляции программы в этом режиме (с опцией “–deviceemu”) код CUDA-функций будет скомпилирован для запуска на хосте, позволяя задействовать стандартные инструменты отладки, как в программе, изначально предназначеной для выполнения на хосте. В коде этот режим можно обнаруживать по наличию макроса __DEVICE_EMULATION__.

Существует ограничение: весь код приложения, включая используемые библиотеки, должен быть скомпилирован только в одном из двух режимов: с выполнением на CUDA-устройствах или с их эмуляцией. В противном случае, линковка двух модулей, скомпилированных в обоих режимах, приведет к возникновению ошибки времени выполнения при инициализации: cudaErrorMixedDeviceExecution.

При запуске программы в режиме эмуляции интерфейс времени выполнения будет эмулировать программную модель CUDA. Для каждого потока из связки потоков будет создан отдельный поток на хосте. При этом программист должен убедиться в наличии необходимых ресурсов:

возможность хоста запускать максимальное число потоков из одной связки плюс еще один для управляющего потока;
достаточный объем свободной памяти (каждый поток получает 256 КБ стека).

В режиме эмуляции предоставляется множество возможностей, что делает его очень эффективным инструментом для отладки. Использование стандартного отладчика дает доступ ко всем его возможностям, таким как установка точек останова (breakpoints) и инспекция данных. В код CUDA-функции можно добавлять участки, не способные выполняться на CUDA-устройстве, такие как операции ввода/вывода для диска и экрана – printf() и т.п. Так как все данные размещаются в памяти хоста, то возможны любые перекрестные вызовы функций и доступ к данным, к примеру, из функций хоста возможен доступ к данным, предназначенным для устройства. В случае некорректного использования встроенной функции барьерной синхронизации среда выполнения регистрирует ситуацию взаимной блокировки (dead lock).

Программисты должны помнить, что режим эмуляции CUDA-устройства не учитывает детали аппаратной реализации. Поэтому его эффективно использовать при нахождении алгоритмических ошибок, но обнаружение ошибок другого типа может быть затруднено. Состояния гонки (race conditions) намного реже проявляются в режиме эмуляции, так как одновременно выполняется меньшее число потоков.

При разыменовании указателя на глобальную память CUDA-устройства, выполняемую на хосте, или указателя на память хоста, выполняемую на CUDA-устройстве, программа в режиме эмуляции приведет к правильному результату, однако выполнение на CUDA-устройстве может вызвать непредсказуемые последствия.

В большинстве случаев одинаковые операции плавающей арифметики дадут отличающиеся результаты на реальном и эмулируемом CUDA-устройстве. Этого следует ожидать и в общем случае, так как результат выполнения этих операций зависит от компилятора, его опций, наборов инструкций и аппаратных архитектур. В частности, некоторые платформы сохраняют промежуточные результаты вычислений с плавающей арифметикой одинарной точности в регистрах с расширенной точностью, что потенциально может привести к значимым различиям точности при использовании режима эмуляции. В этом случае программист может попробовать применить один из следующих приемов:

объявить некоторые переменные плавающей арифметики с ключевым словом volatile для принудительного хранения в формате одинарной точности;
в компиляторе gcc использовать опцию “-ffloat-store”;
в компиляторе Visual C++ использовать опции “/Op” или “/fp”;

CUDA-устройства с вычислительной способностью 1.x не поддерживают денормализованные числа (см. раздел “Appendix G” руководства “CUDA Programming Guide”) для плавающей арифметики одинарной точности, в отличие от типичных хостов. В этом случае на одном CUDA-устройстве операции могут привести к бесконечному результату, а на другом – к конечному. В режиме эмуляции размер варпа равен единице. Следовательно, функции для голосования в варпах дадут отличающиеся результаты. Начиная с версии инструментария CUDA Toolkit 3.0, компания NVIDIA прекратила развитие режима эмуляции в пользу специального инструмента NVIDIA Parallel Nsight.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 1112 / 4712 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
22.02.20156.39 Mб23ПОСОБИЕ по ЭКОНОМЕТРИКЕ 2010-11-01.doc
#
01.07.2025271.36 Кб0Пособие си ИГА без решения.doc
#
01.07.2025166.45 Mб0Пособие УСБД.docx
#
01.07.20256.36 Mб0Пособие Федоровой Т.Н..docx
#
12.08.20193.91 Mб60Пособие-Электроснабжение и электрооборудование.doc
#
01.07.20255.04 Mб1Пособие_CUDA.docx
#
01.07.20253.63 Mб0Пособие_по_выбору_Схем_ПС_2013.docx
#
22.02.2015503.3 Кб14Постмодернизм. Суслов.docx
#
01.05.2025502.25 Кб0Постников БЖД готово на подпись.docx
#
01.05.2025106.14 Кб0Постников Экономика готово на подпись.docx
#
01.07.2025434.66 Кб0Постоянный ток-1 ФИПИ 1 вариант.docx