Технология cuda

Технология CUDA (Сompute Unified Device Architecture) — это программно-аппаратная вычислительная архитектура, разработанная фирмой NVIDIA. Основана на расширении языка Си, которая даёт возможность организации доступа к набору инструкций графического ускорителя и управления его памятью при организации параллельных вычислений. CUDA помогает реализовывать алгоритмы, выполнимые на графических процессорах видеоускорителей GeForce восьмого поколения и старше (серии GeForce 8, GeForce 9, GeForce 200), а также Quadro и Tesla.

Набор для разработчиков содержит множество примеров кода и хорошо документирован.

Основные характеристики CUDA:

унифицированное программно-аппаратное решение для параллельных вычислений на видеочипах NVIDIA;
большой набор поддерживаемых решений, от мобильных до мультичиповых
стандартный язык программирования Си;
стандартные библиотеки численного анализа FFT (быстрое преобразование Фурье) и BLAS (линейная алгебра);
оптимизированный обмен данными между CPU и GPU;
взаимодействие с графическими API OpenGL и DirectX;
поддержка 32- и 64-битных операционных систем: Windows XP, Windows Vista, Linux (Enterprise Linux 3.x/4.x/5.x, SUSE Linux 10.x, Fedora Core, Ubuntu, Gentoo) и MacOS X;
возможность разработки на низком уровне.[2]

Рис.4.Отличия архитектуры обработки данных CPU и GPU

Центральные процессоры разрабатываются для получения максимальной производительности на потоке инструкций, которые обрабатывают разные данные (как целые числа, так и числа с плавающей запятой), производят случайный доступ к памяти и т.д. До сих пор разработчики пытаются обеспечить больший параллелизм инструкций - то есть выполнять как можно большее число инструкций параллельно. Так, например, с Pentium появилось суперскалярное выполнение, когда при некоторых условиях можно было выполнять до 20 инструкций за такт. Проблема заключается в том, что у параллельного выполнения последовательного потока инструкций есть очевидные ограничения по обращению к ОЗУ.[3]

Основным различием между архитектурами CPU и GPU(Рис.4) является то, что ядро CPU создано для исполнения одного потока последовательных инструкций с максимальной производительностью, а GPU проектируются для быстрого исполнения большого числа параллельно выполняемых потоков инструкций.

Ядра видеосистемы CUDA исполняют одни и те же инструкции одновременно, такой стиль программирования является обычным для графических алгоритмов и многих научных задач, но требует специфического программирования. Зато такой подход позволяет увеличить количество исполнительных блоков за счёт их упрощения

В видеочипах системы CUDA основной блок — это мультипроцессор с восемью-десятью ядрами и сотнями ALU в целом, несколькими тысячами регистров и небольшим количеством разделяемой общей памяти. Кроме того, видеокарта содержит быструю глобальную память с доступом к ней всех мультипроцессоров, локальную память в каждом мультипроцессоре, а также специальную память для констант(Рис.5).

Рис.5.Структура видеосистемы CUDA

Глобальная память — самый большой объём памяти, доступный для всех мультипроцессоров на видеочипе, размер составляет от 256 мегабайт до 1.5 гигабайт на текущих решениях (и до 4 Гбайт на Tesla). Обладает высокой пропускной способностью, более 100 гигабайт/с для топовых решений NVIDIA, но очень большими задержками в несколько сот тактов.

Локальная память — это небольшой объём памяти, к которому имеет доступ только один потоковый процессор. Она относительно медленная — такая же, как и глобальная.

Разделяемая память — это 16-килобайтный блок памяти с общим доступом для всех потоковых процессоров в мультипроцессоре. Эта память весьма быстрая. Она обеспечивает взаимодействие потоков, управляется разработчиком напрямую и имеет низкие задержки.

Память констант — область памяти объемом 64 килобайта, доступная только для чтения всеми мультипроцессорами. Она кэшируется по 8 килобайт на каждый мультипроцессор. Задержка в несколько сот тактов при отсутствии нужных данных в кэше.

Текстурная память — блок памяти, доступный для чтения всеми мультипроцессорами. Выборка данных осуществляется при помощи текстурных блоков видеочипа, поэтому предоставляются возможности линейной интерполяции данных без дополнительных затрат. Кэшируется по 8 килобайт на каждый мультипроцессор. Сотни тактов задержки при отсутствии данных в кэше.[2]

Работа GPU относительно простая. Она заключается в принятии группы полигонов с одной стороны и генерации группы пикселей с другой.[3]

Пиксель – наименьший логический элемент двумерного цифрового изображения в растровой графике, обладающий особыми цветовыми и/или яркостными характеристиками.

Полигон – минимальная поверхность для визуализации. Поскольку во многих задачах компьютерной графики требуется, чтобы объект являлся выпуклым многоугольником, в качестве полигонов обычно применяют треугольники.[4]

Рис.6. Последовательность действий при выводе изображения в 3-х мерной графике

Рис.7.Пример полигональной модели 3D графики

У видеочипов работа простая и распараллеленная изначально. Видеочип принимает на входе группу полигонов, проводит все необходимые операции, и на выходе выдаёт пиксели. Обработка полигонов и пикселей независима, их можно обрабатывать параллельно, отдельно друг от друга. Поэтому, из-за изначально параллельной организации работы в GPU используется большое количество исполнительных блоков, которые легко загрузить, в отличие от последовательного потока инструкций для CPU. Кроме того, современные GPU также могут исполнять больше одной инструкции за такт (dual issue).[2]

GPU отличается от CPU ещё и по принципам доступа к памяти. В отличие от универсальных процессоров, GPU просто не нужна кэш-память большого размера, а для текстур требуются лишь несколько (до 128-256 в нынешних GPU) килобайт.

Да и сама по себе работа с памятью у GPU и CPU несколько отличается. Так, не все центральные процессоры имеют встроенные контроллеры памяти, а у всех GPU обычно есть по несколько контроллеров, вплоть до восьми 64-битных каналов в чипе NVIDIA GT200. Кроме того, на видеокартах применяется более быстрая память, и в результате видеочипам доступна в разы большая пропускная способность памяти, что также весьма важно для параллельных расчётов, оперирующих с огромными потоками данных.

В среднем, при переносе вычислений на GPU, во многих задачах достигается ускорение в 5-30 раз, по сравнению с быстрыми универсальными процессорами.

Рис.8.Геологическая модель поверхности.

Цели разведки – это слои под соляным телом.

Основные приложения, в которых сейчас применяются вычисления на GPU: анализ и обработка изображений и сигналов, симуляция физики, вычислительная математика, вычислительная биология, финансовые расчёты, базы данных, динамика газов и жидкостей, криптография, адаптивная лучевая терапия, астрономия, обработка звука, биоинформатика, биологические симуляции, компьютерное зрение, анализ данных (data mining), цифровое кино и телевидение, электромагнитные симуляции, геоинформационные системы, военные применения, горное планирование, молекулярная динамика, магнитно-резонансная томография (MRI), нейросети, океанографические исследования, физика частиц, симуляция свёртывания молекул белка, квантовая химия, трассировка лучей, визуализация, радары, гидродинамическое моделирование (reservoir simulation), искусственный интеллект, анализ спутниковых данных, сейсмическая разведка, хирургия, ультразвук, видеоконференции.[3]

Рис.9.Месторасположение ионов (оранжевые), содержащих геном вируса, схема расположения построена при использовании программы с поддержкой CUDA-ускорения.

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.05.2025385.02 Кб0Cross-Cultural Communication Making Contact.doc
#
01.05.2025148.02 Кб1CS 1.6 Guide.docx
#
01.04.20251.21 Mб0CSS.doc
#
04.11.2018377.34 Кб4css.doc
#
01.07.20251.41 Mб0Cubic crystal lattices and close.docx
#
01.03.2025892.68 Кб0CUDA_Пономарёв_2.docx
#
01.05.2025125.66 Кб1CUESTIONARIO_DESARROLLADO_DPUERTA_ULTIMO.docx
#
24.12.201840.45 Кб4cultural differences text work.doc
#
08.11.201854.86 Кб30cultura_rechi.docx
#
27.08.201944.32 Кб2Culture.docx
#
19.12.2018254.46 Кб2Culturology Answers (Edit).doc