
- •1. Краткая история развития параллельных вычислительных средств
- •2. Основные тенденции развития параллельных вычислительных средств
- •3. Основные препятствия на пути повышения быстродействия цифровых вычислительных машин и способы их преодоления
- •4. Закон Мура и его влияние на развитие средств вычислительной техники
- •5. Перспективные направления развития параллельных и специализированных вычислительных средств
- •6. Производительность вычислительных средств и способы ее оценки
- •7. Структурная и функциональная организация параллельных вычислительных средств. Понятие структурно-параметрической оптимизации
5. Перспективные направления развития параллельных и специализированных вычислительных средств
6. Производительность вычислительных средств и способы ее оценки
то количественная характеристика скорости выполнения определённых операцийнакомпьютере. Чаще всего вычислительная мощность измеряется вфлопсах(количество операций сплавающей точкойвсекунду), а также производными от неё. На данный момент принято причислять ксуперкомпьютерамсистемы с вычислительной мощностью более 10Терафлопс(10*1012или десять триллионов флопс; для сравнения среднестатистический современныйнастольный компьютеримеет производительность порядка 0.1 Терафлопс).
Неоднозначность определения
Существует несколько сложностей при определении вычислительной мощности суперкомпьютера. Во-первых, следует иметь в виду, что производительность системы может сильно зависеть от типа выполняемой задачи. В частности, отрицательно сказывается на вычислительной мощности необходимость частого обмена данных между составляющими компьютерной системы, а также частое обращение к памяти. В связи с этим выделяют пиковую вычислительную мощность — гипотетически максимально возможное количество операций над числами с плавающей запятой в секунду, которое способен произвести данный суперкомпьютер.
Важную роль играет также разрядность значений, обрабатываемых программой (обычно имеется в виду формат чисел с плавающей запятой). Так, например, у графических процессоров NVIDIA Tesla первых двух поколений максимальная производительность в режиме одинарной точности (32 бит) составляет порядка 1 Терафлопс, однако при проведении вычислений с двойной точностью (64 бит) она в 10 раз ниже. (Так, в чипах серии GF200 в 10 раз меньше блоков с поддержкой FP64[2]).
Измерение производительности
Оценка реальной вычислительной мощности производится путём прохождения специальных тестов (бенчмарков) — набора программ специально предназначенных для проведения вычислений и измерения времени их выполнения. Обычно оценивается скорость решения системой большой системы линейных алгебраических уравнений, что обусловливается, в первую очередь, хорошей масштабируемостью этой задачи.
Наиболее популярным тестом производительности является Linpack benchmark. В частности, HPL (альтернативная реализация Linpack)[3] используется при составлении списка TOP500 суперкомпьютеров в мире[4].
Другими популярными программами для проведения тестирования являются NAMD[5] (решение задач молекулярной динамики), HPCC (HPC Challenge Benchmark), NAS Parallel Benchmarks[3].
В практике зарубежных компаний при составлении разных типов микропроцессоров или вычислительных систем применяются два способа оценки производительности:
-пиковая производительность- это теоретический максимум быстродействия компьютера при идеальных условиях, определяемый как число вычислительных операций, выполняемое в единицу времени всеми имеющимися в процессоре АЛУ при допущениях, что имеется бесконечная последовательность несвязанных между собой и неконфликтующих при доступе в память команд, а также, что команды и операнды выбираются из внутрикристальных кэш-памятей программ и данных без промахов;
-реальнаяпроизводительность- это скорость обработки реальных программ в центральном ядре компьютера, которая учитывает потери времени на обмен информацией между процессором и многоуровневой оперативной памятью, а именно кэш-памятями и основной памятью, и которая зависит от качества организации центрального ядра, от конфликтов между командами, от пропускной способности внутрисистемного интерфейса, например общей шины, и от эффективности компиляции объектных кодов программ. Однако она не учитывает потери времени на работу операционной системы и на взаимодействие с периферийными устройствами, в том числе и с жесткими магнитными дисками.