
- •Вопросы
- •Виды параллельной обработки данных на эвм
- •Параллелизм на уровне машинных команд.
- •Структура оперативной памяти.
- •Секция ввода/вывода
- •Секция межпроцессорного взаимодействия
- •Регистровая структура Cray c90
- •Понятие векторн обр-ки, зацепл фу(Cray c90) Векторная обработка
- •Функциональные устройства
- •Независимость функциональных устройств
- •Зацепление функциональных устройств
- •Закон Амдала .Время разгона конвейера Закон Амдала и его следствия
- •Причины уменьшения производительности Cray c90
- •Суммарное влияние отрицательных факторов на производительность компьютера
- •Архитектура компьютера EarthSimulator.
- •Массивно-параллельные компьютеры, общие черты
- •Общая структура компьютера cray t3d
- •Вычислительные узлы и процессорные элементы
- •Коммуникационная сеть
- •Топология сети, чередование вычислительных узлов
- •Маршрутизация в сети и сетевые маршрутизаторы.
- •Нумерация вычислительных узлов.
- •Особенности синхронизации процессорных элементов
- •Причины уменьшения производительности компьютера Cray t3e/d.
- •Вычислительные кластеры:узлы,коммуникационная сеть (латентность, пропускная способность).
- •История проекта Beowulf
- •Общая характеристика Hewlett-PackardSuperdome.
- •Предсказание ветвлений
- •Причины уменьшения производительности
- •Графовые модели программ, их взаимосвязь.
- •Mpi. Терминология и обозначения
- •Общие процедуры mpi
- •Mpi: синхронное и асинхронное взаимодействие процессов. Прием/передача сообщений между отдельными процессами
- •Прием/передача сообщений с блокировкой
- •Совмещенные прием/передача сообщений
- •Mpi: коммуникаторы
- •Коллективные взаимодействия процессов
- •Mpi: глобальные операции, барьеры Синхронизация процессов в mpi происходит посредством единственной функции
- •Транспьютер: основы архитектуры и его характеристика.
- •Оценки быстродействия вычислительных систем. Тесты производительности сети. Тесты производительности файловой системы. Тесты производительности процессора. Комбинированные тесты
- •Тесты производительности сети
- •Тесты производительности файловой системы
- •Тесты производительности процессора
- •Комбинированные тесты
- •Терминология
- •Классификация Флинна
- •Дополнения Ванга и Бриггса к классификации Флинна
- •Классификация Фенга
- •Классификация Шора
- •Классификация Хендлера
- •Классификация Хокни
- •Классификация Шнайдера
- •Классификация Джонсона
- •Классификация Базу
- •Классификация Кришнамарфи
- •Классификация Скилликорна
- •Классификация Дазгупты
- •Классификация Дункана
- •Принципы разработки современных парраллельных компьютеров.
- •Конвейерная организация Простейшая организация конвейера и оценка его производительности
- •Структурные конфликты и способы их минимизации
- •Конфликты по данным, остановы конвейера и реализация механизма обходов
- •Сокращение потерь на выполнение команд перехода и минимизация конфликтов по управлению
- •Ожидающие функции
- •Виды функций активации
- •Алгоритм решения задач с помощью мсп
- •Формализация задачи
- •Методы обучения
- •Сеть с линейным поощрением
- •Место нейронных сетей среди других методов решения задач
Предсказание ветвлений
Чтобы обеспечить непрерывную работу конвейера и загрузку всех функциональных устройств, необходим надежный механизм предсказания ветвлений. Встроенная аппаратура процессора PA-8200 использует два различных алгоритма предсказания: статический и динамический. Динамический алгоритм может использоваться при наличии информации о ходе исполнения на данном участке программы.
В статическом режиме в большинстве случаев используется следующая стратегия: для команд условного перехода назад предсказывается "переход", для команд условного перехода вперед предсказывается "отсутствие перехода". Компиляторы, используя эвристичесие методы, могут вставлять в код инструкции "подсказки" процессору о наиболее вероятном исходе проверки условия.
В динамическом режиме для предсказания используется 1024-строчная таблица Branch History Table (BHT). Каждая строка этой таблицы соответствует команде условного перехода и содержит три бита, установленных в трех предыдущих случаях выполнения данной инструкции; а именно: каждый бит устанавливается в 1, если переход имел место, и в 0 в противном случае. Если два или три бита содержат 1, предсказывается переход и в данном случае.
РА-8700
-Т/ч 750 Мгц.,4 операции за такт
-Пиковая производит-ть 3 Гфлопс (пик произв-ть HPSd-64x3=192 Гфлопс)
-суперскалярная архитектура, выполняет столько операций, сколько позволяет информац структура кода и сколько доступно в данный момент ФУ
-Число ФУ –10 (4-integer&logic,4-floating point,2-read/write).
-На каждом такте УУ выбирает 4 команды из КЭШ-а команд
-КЭШ 1 ур-ня - на кристалле (2,25 Мбайт[1,5 кэш данных, 0,75-кэш команд]). КЭШ-множественно ассоциативный с 4 каналами.
Вопрос№24
Причины уменьшения производительности
Hewlett-PackardSuperdome.
1) Закон Амдала(универсален для всех паралл выч систем). Напр, если в программе 20% всех опрераций должны выполн-ся строго последов-но, увеличить производит-ть более, чем в 5 раз нельзя. Все синхроучастки программ – суть последовательны(т.е. последовательный код есть во всех программах).
2)Неоднородность доступа к памяти. В HP-Superdome возможны 3 вида задержек:
-процессор и память расположены в одной ячейке. В этом случае задержка минимальна
-процессор и память расположены в разных ячейках, но обе ячейки подсоединены к одному коммутатору.
-процессор и память расположены в разных ячейках, причем ячейки подсоединены к разным коммутаторам. В эт случае запрос должен пройти через 2 коммутатора и задержки будут максимальны.
Задержка зависит и от числа процессоров в системе. Задержка зависит также от числа одновременно работающих приложений.
Число процессоров |
Однонитевые программы |
Многонитевые программы
|
4 8 16 32 64 |
174 208 228 261 275 |
235 266 296 336 360 |
В отличие от первого случая, во втором возникают дополнительные затраты на коггерентность кэшей.
Следовательно, для сведения к минимуму неоднородности, требуется аккуратное программирование.
3) Необходимость обеспечения коггерентности КЭШ-ей.
Для снижения накладных расходов на работу аппаратуры обеспечения коггерентности, необходима привязка процессов к процессорам.
4)Сбалансированность вычислительной нагрузки.
Менее характерна для класса, так как система более менее однородна (при использовании процессоров одного семейства). Однако реальная производительность процессора может отличаться от пиковой в 10-ки раз. Чем выше степень использования процессоров, тем выше производительность системы.
Вопрос№25