- •Принцип двоичного кодирования
- •0 D 0 0 1 0 0 0 инверт
- •1) Проверить, выровнены ли порядки, и. Если нет. То выровнять.
- •2} Сложить мантиссы (одна из них. Возможно, денормализовша).
- •С 1992 г. - неотъемлемая часть Intel и amd.
- •271 Команда - групповые арифметические и логические операции , сдвиги , сравнения , перегруппировка и извлечение отдельных чисел , различные варианты пересылок .
- •Команды управления виртуальной памятью .
- •6} В режиме ss&2
- •3 Register ImmediateFormat 1a
- •Instruction -Level Pa га I lei ism
- •Instruction -Level Parallel ism
- •Su perscalarArch itectu res
- •Intel 486 - один конвейер , Pentium - 2 конвейера из 5 стадий .
- •Su perscalarArch itectu res
- •Su perscalarArch itectu res
- •Instruction
- •1011X j|I 2 - все параллельно
- •1 Упрощается архитектура процессора ; вместо распараллеливающей логики на eric процессоре можно разместить больше регистров , функциональных устройств .
- •BusWidth
- •1. Арбитраж пин
- •3. Методы повышения эффективности пин
- •4. Стандарты шинS Примеры
- •Bus Arbitration (2)
- •Способы расширения полосы пропускания шин :
- •Pci BusTransactions
- •Сокращённые обозначения -kj,Mi7 Gi.Ti.Pi и Ei.
- •Vax/1980 pPra/1996
- •MemoryChips
- •Volatile
- •1. Блочная организация основной памяти
- •2. Микросхемы памяти
- •Расслоение памяти
- •Расслоение памяти
- •1. Динамические сву
- •Динамические сву для видеоадаптеров
- •Многопортовые os/
- •Volatile
- •2. (Пни -память
- •3. Ассоциативные 3/
- •4. Организация fau -памяти
- •Пример 2
- •Пример 2
- •1. Организация fcu -памяти
- •2. Система ввода -вывода
- •Ёмкость каи - 32kb , строки го 25б байт .
- •Address
- •64 Kb cache, direct -mapped,32 -byte cache block
- •32 Kb cache, 2 -wayset -associative, 16 -byteblocks
- •16Kb,4 -wayset-associativecache732 -bitaddress, byte -addressablememory/32 -byte cache blocks/lines
- •Write -through - прежде всего обновляется слово ,
- •Средства обнаружения и защиты от ошибок . Архитектура современных н)¥щ основана на полностью ассоциативном отображении .
- •Структура гу
- •1. Понятие конвейера
- •If: Instruction fetch
- •Id: Instruction decode/ register file read
- •Риск го данным - взаимосвязь команд го данным
- •Pipelined Datapath
- •Hazards
- •Superscalar Architectures
- •Instruction
- •Instruction decode
- •1. Очередность вьщачи декодированных команд на исполнительные блоки отличается от последовательности предписанной программой -неупорядоченная выдача команд (out-of-orderissue ),
- •Sisd,misd,simd,mimd.
- •Классификация Флинна
- •Heterogeneous multiprocessor chip with six cores
- •Организация памяти вс
- •Message-passing interconnection network
- •3 Stages
- •3 Stages
- •Num am ulti processors
- •Interconnection network
- •18Bits 8
- •18Bits 8
- •And memories are not shown.
- •(A) a star, (b) a complete interconnect.
- •(C) a tree, (d) a ring, (e) a grid, (f) a double torus.
- •(G) a cube, (h) a 4d hypercube.
- •Red Storm (2)
3 Stages
Memories 000
Коммутационная
сеть "omega
".

Слжд
19
Мультипроцессоры
UMA
с
многоступенчатыми сетями

3 Stages
Memories 000
Допустим процессору ОН нужно считать слово из модуля памяти ПО. Процессор посылает сообщение READ, чтобы переключить коммутатор Ю го содержимому 110 в поле «Модуль ». Коммутатор берет первый (крайний левый ) бит от ПО и го нему узнает направление .0 указывает на верхний выход , а 1 — на нижний - > сообщение отправляется через нижний выход в 2D.
Printed
with FinePrint- purchase atwww.fineprint.com
Мультипроцессоры с многоступенчатыми сетями

3 Stages
Memories 000
Как только сообщение пройдет через коммутатор , соотв . битыномера модуля больше нэ требуются . Их можно использовать ,записав туда номер входной линии , чтобы было известно , го какомупути посылать ответ . Для пути а входные линии — это 0( верхнийвход в ID), 1( нижний вход в 2D) и 1( нижний вход в 3D)соответственно . При отправке ответа тоже используется 011, толькотеперь число читается справа налево . См£д
Классификация
параллельных ВС
NUMA
(NonUniform Memory Access —
с неоднородным доступом к памяти
) - для ВС с более 100 процессоров .
Как и мультипроцессоры UMA, они обеспечивают единое адресное пространство для всех процессоров , нэ, в отличие от машин UMA, доступ к локальным модулям памяти происходит быстрее, чем к удаленным .
Три ключевые характеристики NUMA:
Существует одно адресное пространство , видимое для всехпроцессоров .
Доступ к удаленной памяти производится с использованием
команд LCAD и STORE.
3. Доступ к удаленной памяти происходит медленнее , чем доступ клокальной памяти .
Программы \№к будут работать без изменений на машинах NUMA, нэ производительность будет хуже , чем на машине UMA с той хе тактовой частотой .
Сяаяд 22
Printed
with FinePrint- purchase atwww.fineprint.com
Num am ulti processors
Если
время доступа к удаленной памяти
нэ скрыто (поскольку кш
-память отсутствует ), то такая система
называется I\C
-NUMA (Г\Ь
Caching
NUMA — NUMA без кэширования ) Если
присутствуют согласованные
кэши , то система называется СЕ
-NUMA (Coherent
Cache
NUMA — NUMA с согласованной кш -памятью
). Так же её называют
аппаратной
СЕМ (Distributed
Shared Memory — распределенная
совместно используемая память )
CPU Memory CPU Memory CPU Memory CPU Memory
MMU















Local bus
Local bus
Local bus
Local bus
System
bus
Машина NUMA с двумя уровнями шин . Carnegie -Mellon (fn * — первый мультипроцессор , в котором использовалась данная разработка .
Слайд Ъ
NUM
AM ulti processors
CPU
Memory CPU Memory

CPU Memory
CPU Memory
i

Local bus
Local bus
Local bus
System
bus
Выполнение программы из удаленной памяти занимало в Ю раз больше времени , чем выполнение той хе программы из локальной памяти . Согласованность памяти гарантирована в машине Г\С -NUMA, поскольку отсутствует кш -память . Каждое слово памяти находится только в одном месте : здесь нет копий данных .
Имеет большое значение , в какой именно памяти находится та
или иная страница , поскольку от этого зависит производительность . Машины NCNUMA используют сложное программное обеспечение для перемещения страниц , чтобы максимально увеличить производительность .
Printed
with FinePrint- purchase atwww.fineprint.com
The Sun Fire E25K NUMA Multiprocessor (1)


PCI slot
CPU-memory
boards
9 1/0 boards
The Sun Microsystems E25K multiprocessor.
Слайд 25
The
Sun Fire E25K NUMA Multiprocessor (2)
i.
о
3


18x18 Address crossbar switch
ТГГ
1Bx 18 Response crossbar switch
Mil
III
Ml
III
18x18Dat crossbar switch
III
III
I
Level 3
Direclory
and snooping
management

3x3 Data
switch
о и
m
Level 2



CPU

с
■
о 3
О"
о
Addr rep.
3x3
Data
switch
Level 1
Level 0
The
Sun Fire E25K использует
соединения четырёх уровней
. Пунктир - шины адресов . Сплошные - ИД
.

Printed
with FinePrint- purchase atwww.fineprint.com
Сяаид


Node 1 CPU Memory
Node 255 CPU Memory
Local
bus
|
СИ |
|
|
![]()
![]()
Local bus
Local bus
Node О CPU Memory
|
СИ |
|
|
Interconnection network
(.a)

18
|
Mode |
Block |
Offset |
|
-1 |
I | |
|
f |
| |
|
4 |
0 |
|
|
3 |
0 |
|
|
2 |
1 |
62 |
|
1 |
0 |
|
|
0 |
0 |
|

Слайд 27
Мультипроцессор на основе каталога , содержащий 256 узлов (а); разбиение 32-битного адреса памяти на поля (б); каталог в узле 36( в)
Node
255
CPU
Memory
Node
О
CPU
Memory
CacheCoherentNUMA мультипроцессоры
Directory
