Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
КНИГА_ТСИ.doc
Скачиваний:
124
Добавлен:
18.09.2019
Размер:
10.81 Mб
Скачать
  1. Процессоры (основные принципы и классы)

Архитектура фон Неймана

В 1945 г. в отчете по ЭВМ EDVAC Дж. фон Нейман сформули­ровал основные принципы построения ЭВМ. Вычислительная сис­тема, согласно фон Нейману, должна включать следующие компо­ненты: центральное арифметическое устройство; центральное уст­ройство управления; главную память; устройства ввода-вывода.

По прошествии более полувека большинство компьютеров так и имеют «фон-неймановскую архитектуру».

Процессором является определенная функционально полная совокупность устройств, которая регулирует, управляет и контролиру­ет соответствующий рабочий процесс. В ПК таким рабочим процес­сом является процесс обработки данных, а сама совокупность уст­ройств называется процессором.

В состав микропроцессора входят несколько типовых компо­нентов.

Устройство управления (УУ) формирует и подает во все блоки машины в нужные моменты времени определенные сигналы управления (управляющие импульсы), обусловленные спецификой вы­полняемой операции и результатами предыдущих операций; формирует адреса слов (ячеек) памяти, используемых выполняемой операцией и передает эти адреса в соответствующие блоки компьютера; опорную последовательность импульсов устройство управления по­лучает от генератора тактовых импульсов.

Арифметико-логическое устройство (АЛУ) предназначено для выполнения арифметических (обычно это короткие операции  с фиксированной точкой, ФТ) и логических операций над числовой и символьной информацией.

Микропроцессорная память (МПП, или кэш-память 1-го уровня L1 cache) предназначена для кратковременного хранения, записи и выдачи информации, непосредственно используемой в ближайшие такты работы машины.

Интерфейсная система микропроцессора предназначена для сопряжения и связи с другими устройствами ПК.

Генератор тактовых импульсов (internal clock) генерирует последовательность электрических импульсов, частота которых определяет тактовую частоту микропроцессора  электронные часы реального времени, обеспечивающие при необходимости автоматический съем текущего момента времени.

Перечислим далее основные понятия, связанные с работой процессора.

Команда, инструкция (instruction)  описание операции, которую нужно выполнить. Каждая команда начинается с кода операции (КОП), содержит необходимые адреса, характеризуется форматом, который определяет структуру команды.

Команды подразделяются на арифметические, логические, ввода/вывода, передачи данных. Каждая команда выполняется в компьютере за один либо несколько тактов.

Цикл процессора  период времени, за который осуществляется выполнение команды исходной программы в машинном виде; со­стоит из нескольких тактов.

Такт работы процессора  промежуток времени между сосед­ними импульсами (tick of the internal clock) генератора тактовых импульсов, частота которых есть тактовая частота процессора. Такт процессора (такт синхронизации)  квант времени, в течение кото­рого осуществляется элементарная операция  выборка, сравнение, пересылка данных. Выполнение короткой команды  арифметика с ФТ, логические операции, обычно занимает пять тактов:

  • выборка команды;

  • расшифровка кода операции (декодирование);

  • генерация адреса и выборка данных из памяти;

  • выполнение операции;

  • запись результата в память.

Процедура, соответствующая такту, реализуется определенной логической цепью (схемой) процессора, обычно именуемой микро­программой.

Регистры. Регистры  устройства, предназначенные для вре­менного хранения данных ограниченного размера. Важной характе­ристикой регистра является высокая скорость приема и выдачи дан­ных. Регистр, обладающий способностью перемещать содержимое своих разрядов, называют сдвиговым. Некоторые регистры служат счетчиками. Счетчик является устройством, которое на своих выхо­дах выдает (в двоичной форме) сумму числа импульсов, подаваемых на его единственный вход. Максимальное число импульсов, которое счетчик может подсчитать, называется его емкостью.

Регистры общего назначения (РОН, General Purpose Registers)  общее название для регистров, которые временно содержат данные, передаваемые или принимаемые из памяти.

Регистр команды (РК, Instruction Register IR) служит для разме­щения текущей команды, которая находится в нем в течение теку­щего цикла процессора.

Регистр- (РАК) счетчик (СчАК) адреса команды (program counter, PC)  регистр, содержащий адрес текущей команды.

Сумматор регистр, осуществляющий операции сложения (логического и арифметического двоичного) чисел или битовых строк, представленных в прямом или обратном коде. (Иногда РЧ и РР вклю­чают в состав сумматора).

Существуют и другие регистры, например, регистр состояния  Status Register (SR). Типичным содержанием SR является информа­ция о результатах завершения команды (ноль, переполнение, деле­ние на ноль, перенос и пр.). УУ использует информацию из SR для исполнения условных переходов (например, «в случае переполне­ния перейти по адресу 4170»).

Цикл команды. Цикл выполнения короткой команды может выглядеть следующим образом.

  1. В соответствии с содержимым СчАК (адрес очередной коман­ды) УУ извлекает из ОП очередную команду и помещает ее в РК. Некоторые команды УУ обрабатывает самостоятельно, без привлечения АЛУ (например, по команде «перейти по адресу 2478» вели­чина 2478 сразу заносится в СчАК, и процессор переходит к выпол­нению следующей команды).

Типичная команда содержит:

  • код операции (КОП), характеризующий тип выполняемого действия;

  • номера индексного (ИР) и базисного (БР) регистров;

  • адреса операндов Al, A2 и т. д.

  1. Осуществляется расшифровка (декодирование) команды.

  2. Адреса Al, A2 и пр. помещаются в регистры адреса.

  3. Если в команде указаны ИР или БР, то их содержимое используется для модификации РА  фактически выбираются числа или команды, смещенные в ту или иную сторону по отношению к адресу, указанному в команде.

  4. По значениям РА осуществляется чтение чисел (строк) и помещение их в РЧ.

  5. Выполнение операции и помещение результата в PP.

  6. Запись результата по одному из адресов (если необходимо).

  7. Увеличение содержимого СчАК на единицу (переход к следующей команде).

Очевидно, что за счет увеличения числа регистров возможно распараллеливание, перекрытие операций. Например, при считыва­нии команды СчАК можно автоматически увеличить на 1, подгото­вив выборку следующей команды. После расшифровки текущей ко­манды РК освобождается и в него может быть прочитана следую­щая команда. При выполнении операции возможна расшифровка следующей команды и т. д. Все это является предпосылкой построе­ния так называемых конвейерных структур (pipeline). Однако все это хорошо только при последовательном (естественном) порядке вы­полнения команд. Появление переходов (особенно по не опреде­ленному заранее условию) нарушает эту картину. Поэтому совре­менные процессоры пытаются предсказывать переходы и программе (branch prediction).

Системы команд и соответствующие классы процессоров

Основные команды ЭВМ классифицируются вкратце следую­щим образом: по функциям (выполняемым операциям), направле­нию приема-передачи информации, адресности.

Классы команд.

  1. Команды обработки данных, в том числе (О1  первый операнд, О2  второй):

  1. Короткие операции (один такт).

  1. Логические:

  • логическое сложение (для каждого бита О1 и О2 осуществля­ется операция ИЛИ;

  • логическое умножение (для каждого бита О1 и О2 осуществ­ляется операция И;

  • инверсия (в О1 все единицы заменяются на нули, и наоборот);

  • сравнение логическое (если О1 = О2, то некий регистр уста­навливается в 1, иначе  в 0).

  1. Арифметические:

  • сложение или вычитание операндов;

  • сравнение арифметическое (если О1 > О2, или О1 = О2, или О1 < О2, то некий регистр устанавливается в 1, иначе  в 0).

  1. Длинные операции (несколько тактов):

  • сложение/вычитание с фиксированной точкой;

  • умножение/деление с фиксированной точкой.

  1. Операции управления:

  • безусловный переход (ветвление, branch);

  • условный переход (по условию, результатам вычислений (conditional branch)).

  1. Операции обращения к внешним устройствам (требование на запись или считывание информации).

Естественно, могут существовать и другие операции  десятич­ная арифметика, обработка символьной информации, работа с числа­ми половинной (полуслово, например 16 бит) или двойной (двойное слово, например 64 бит) длины.

Кроме того, команды различаются по типу выборки и пересы­лок данных: регистррегистр; памятьрегистр (регистрпамять); памятьпамять.

Далее, известны одно-, двух- и трехадресные машины (системы команд). Очевидна связь таких параметров ЦУ, как длина адресного пространства, адресность, разрядность. Увеличение разрядности позволяет увеличить адресность команды и длину адреса (т. е. объем памяти, доступной данной команде). Увеличение адресности, в свою очередь, приводит к повышению быстродействия обработки (за счет снижения числа требуемых команд).

В трехадресной машине, например, сложение двух чисел требует одной команды (извлечь число по А1, число по А2, сложить и запи­сать результат по A3). В двухадресной необходимы две команды (первая  извлечь число по А1 и поместить в РЧ (или сумматор), вторая  извлечь число по A1, сложить с содержимым РЧ и резуль­тат записать по А2). Легко видеть, что одноадресная машина потре­бует три команды. Поэтому неудивительно, что основная тенденция в развитии ЦУ ЭВМ состоит в увеличении разрядности.

Наибольшее применение нашли двухадресные системы команд.

Классы процессоров. В зависимости от набора и порядка выпол­нения команд процессоры подразделяются на два основных класса, отражающих также последовательность развития ЭВМ. Ранее других появились процессоры CISC. Затем с целью повышения быстродей­ствия процессоров были разработаны процессоры RISC, которые характеризуются сокращенным набором быстровыполняемых команд. Ряд редко встречающихся команд процессора CISC выполня­ется последовательностями команд процессора RISC.

CISC (complex instruction set computer) есть тради­ционная архитектура, в которой ЦП использует микропрограммы для выполнения исчерпывающего набора команд. В течение долгих лет производители компьютеров разрабатывали и воплощали в из­делиях все более сложные и полные системы команд. Однако ана­лиз работы процессоров показал, что примерно 80% времени вы­полняется лишь 20% большого набора команд. Поэтому была по­ставлена задача оптимизации выполнения небольшого по числу, но часто используемых команд.

RISC (Red used Instuction Set Computer)  процес­сор, функционирующий с сокращенным набором команд. Так, в процессоре CISC для выполнения одной команды необходимо в большинстве случаев 10 и более тактов. Что же касается процессо­ров RISC, то они близки к тому, чтобы выполнять по одной коман­де в каждом такте. Первый процессор RISC был создан корпораци­ей IBM в 1979 г. и имел шифр IBM 801. В настоящее время процес­соры RISC получили широкое распространение. Современные процессоры RISC имеют следующие характеристики:

  • упрощенный набор команд, имеющих одинаковую длину;

  • большинство команд выполняются за один такт процессора;

  • отсутствуют макрокоманды, усложняющие структуру процессора и уменьшающие скорость его работы;

  • взаимодействие с оперативной памятью ограничивается операциями пересылки данных;

  • уменьшено число способов адресации памяти (не используется косвенная адресация);

  • создан конвейер команд, позволяющий обрабатывать несколько из них одновременно;

  • используется высокоскоростная память.

Новый подход к архитектуре процессора значительно сократил площадь, требуемую для него на чипе. Это позволило резко увели­чить число регистров. В современном процессоре RISC уже исполь­зуется более 100 регистров. В результате процессор на 2030% реже обращается к оперативной памяти, что также повысило ско­рость обработки данных.

Начиная с процессора Pentium, корпорация Intel начала вне­дрять элементы RISC-технологий в свои изделия.

Кроме того, известны процессоры MISC (работающие с мини­мальным набором длинных команд) и VLIW (с системой команд сверхбольшой разрядности).

Процессор VLIW  процессор, работающий с системой команд сверхбольшой разрядности.

Идея технологии VLIW (Very large instruction word) заключается в том, что создается специальный компилятор планирования, кото­рый перед выполнением прикладной программы проводит ее анализ и по множеству ветвей последовательности операций определяет группу команд, которые могут выполняться параллельно. Каждая такая группа образует одну сверхдлинную команду. Это позволяет решать две важные задачи: во-первых, в течение одного такта вы­полнять группу коротких («обычных») команд, во-вторых, упро­стить структуру процессора. Этим технология VL1W отличается от суперскалярности. В последнем случае отбор групп одновременно выполняемых команд происходит непосредственно в ходе выполне­ния прикладной программы (а не заранее), что усложняет структуру процессора и замедляет его скорость.

Процессор MISC  MISC processor,  работающий с ми­нимальным набором длинных команд.

Увеличение разрядности процессоров привело к идее укладки нескольких команд в одно слово (связку, bound) размером 128 бит. Оперируя с одним словом, процессор получил возможность обраба­тывать сразу несколько команд. Это позволило использовать воз­росшую производительность компьютера и его возможность обраба­тывать одновременно несколько потоков данных.

Технологии повышения производительности процессоров

Конвейерная обработка команд (pipelining). Суперскаляризация. Рассмотрим процесс выполнения процессором команды для коротких (с ФТ или логические) операций. Как об этом говорилось ранее, обработка команды, или цикл процессора, может быть разделена на несколько основных этапов, которые можно назвать микрокоманда­ми, которых известно пять основных типов.

Каждая операция требует для своего выполнения времени, рав­ного такту генератора процессора. Отметим, что к длинным опера­циям (ПТ) это не имеет отношения  там другая арифметика. Оче­видно, что при тактовой частоте в 100 МГц быстродействие соста­вит 20 млн. операций в секунду.

Все этапы команды задействуются только 1 раз и всегда в одном и том же порядке: одна за другой. Это, в частности, означает, что если первая микрокоманда выполнила свою работу и передала ре­зультаты второй, то для выполнения текущей команды она больше не понадобится и, следовательно, может приступить к выполнению следующей команды.

Конвейеризация осуществляет многопоточную параллельную обработку команд, так что в каждый момент одна из команд считывается, другая декодируется и т. д., и всего в обработке одновремен­но находится пять команд. Таким образом, на выходе конвейера на каждом такте процессора появляется результат обработки одной ко­манды (одна команда в один такт). Первая инструкция может счи­таться выполненной, когда завершат работу все пять микрокоманд.

Такая технология обработки команд носит название конвейерной (pipeline) обработки. Каждая часть устройства называется ступенью конвейера, а общее число ступеней  длиной линии конвейера.

С ростом числа линий конвейера и увеличением числа ступеней на линии (табл. 1.2) увеличивается пропускная способность процес­сора при неизменной тактовой частоте. Процессоры с несколькими линиями конвейера получили название суперскалярных. Pentium  первый суперскалярный процессор Intel. Здесь две линии, что по­зволяет ему при одинаковых частотах быть вдвое производительней i80486, выполняя сразу две команды за такт.

Таблица 1.2. Характеристики конвейеров процессоров Intel

Характеристика

Процессор

i80496

Pentium

Pentium Pro

Pentium MMX

Pentium II

Pentium III

Pentium IV

Число линий

1

2

3

2

3

3

3

Длина линии

5

5

14

6

14

20

31 HyperPipeline)

Операции над вещественными числами

(с плавающей запятой)

Сопроцессоры. Для расширения вычислительных возможностей центрального процессора  выполнения арифметических операций, вычисления основных математических функции (тригонометриче­ских, показательных, логарифмических) и т. д.  в состав ЭВМ до­бавляется математический сопроцессор. Применение со­процессора повышает производительность вычислений в сотни раз. В разных поколениях процессоров он назывался по-разному  FPU (Floating Point Unit  блок чисел/операций с плавающей точкой  БПЗ) или NPX (Numeric Processor extension  числовое расшире­ние процессора).

Блоки операций с плавающей запятой. Начиная с 80486 восемь регистров для ПЗ (именуемых ST (0)  ST (7)) встраивают в цен­тральный процессор (рис. 1.18). Каждый регистр имеет ширину 80 бит и хранит числа в формате стандарта ПЗ расширенной точно­сти (IEEE floating-point standard).

Эти регистры доступны в стековом порядке. Имена (но­мера) регистров устанавливаются относительно вершины стека (ST (0)  вершина стека, ST (1)  следующий регистр ниже верши­ны стека, ST(2)  второй после вершины стека и т. д.). Вводимые данные таким образом всегда сдвигаются «вниз» от вершины стека, а текущая операция совершается с содержимым вершины стека.

Увеличение разрядности систем

В «романтические» 1980-е годы соответствие между типом ЭВМ и ее разрядностью имело простейший вид:

  • микроЭВМ  8 разрядов;

  • мини-ЭВМ  16 разрядов;

  • большие ЭВМ  32 разряда;

  • сверхбольшие (супер) ЭВМ  64 разряда.

В процессе развития микропроцессоров Intel рубежи в 16 и 32 разряда (IА-32) были преодолены довольно быстро, а примерно в 2004 г. произошел переход и на 64-разрядные архитектуры в про­цессорах Intel и AMD.

Преимущества 64-битовой архитектуры микропроцессоров глав­ным образом относятся к памяти. Если взять два идентичных мик­ропроцессора, то если один из них будет 32-битовым, а другой  64-битовым, то последний сможет адресовать намного больший объем памяти, чем 32-битовый (264 против 232). Известны следую­щие архитектуры на 64 разряда (64-bit architecture).

IA-64. Спецификация IA-64 означает «Архитектура Intel, 64 бита», но связь с IA-32  только по названию. Архитектура IA-64 несовместима непосредственно с набором команд IА-32. Здесь по­является полностью отличный набор команд, а также используются принципы VLIW. IA-64  архитектура, используемая линией про­цессоров Itanium.

Усовершенствования:

  • в 16 раз увеличено количество РОН и ПЗ (теперь по 128);

  • механизм переименования/ротации регистров, чтобы сохранять значения в регистрах при вызове функций.

AMD64. Набор команд AMD64, первоначально названный х86-64, в значительной степени построен на основе IА-32 и таким образом обеспечивает наследственность семейства х86. При расши­рении набора команд AMD воспользовался возможностью, чтобы очистить часть его от ряда «устаревших» команд  наследия «16-раз­рядных времен».

Усовершенствования:

  • в 2 раза увеличено количество РОН и SSE (теперь по 16);

  • РОН теперь действительно регистры общего назначения и ни­ чем больше не ограничены.

Архитектура использована в ЦП Athlon 64, Athlon 64 Х2, Ath­lon 64 FX, Opteron, Turion 64, Turion 64 X2, Sempron («Palermo», «Manila»).

EM64T (Extended Memory 64-bit Technology, или Intel 64)  на­бор команд (ранее известный как Yamhill), объявленный Intel в фев­рале 2004 г., в подражание AMD64. ЕМ64Т в целом совместим с ко­дами, написанными для AMD64, хотя и имеет ряд недостатков сравнительно с AMD64.

Intel начал использовать набор ЕМ64Т, начиная с ЦП Xeon (ядро Nocona) в конце 2004 г., а затем вышел с ним на рынок на­стольных ПК в начале 2005 г. (Pentium IV, версия Е0).

EMT/Intel 64 используется в ЦП архитектуры Intel NetBurst  Xeon («Nocona»), Celeron D («Prescott» и далее), Pentium 4 («Prescott» и далее), Pentium D, Pentium Extreme Edition и архитектуры Intel Core  Xeon («Woodcrest»), Intel Core 2.

Поскольку AMD64 и ЕМТ64 почти не различаются, для ссылки на них используются нейтральные названия  х86-64, х86_64 (Linux и Apple's Mac OS X), х64 (Microsoft и Sun Microsystems).

SIMD процессы (команды)

Г. Флинном [16] в 1966 г. была предложена классификация ЭВМ и вычислительных систем (в основном  суперкомпьютеров), основанная на совместном рассмотрении потоков команд и данных (табл. 1.3). В процессорах таких известных производителей как Intel и AMD все более полно используются некоторые из этих архитек­турных наработок.

Таблица 1.3. Классификация Флинна

Поток данных

Поток команд

Одиночный

Множественный

Одиночный

SISD - Single Instruction stream/ Single Data stream (Одиночный поток Команд и Одиночный поток Данных - ОКОД)

MISD - Multiple Instruction stream/ Single Data stream (Множественный поток Ко­манд и Одиночный поток Данных - МКОД)

Множественный

SIMD - Single Instruction stream/ Multiple Data stream (Одиночный поток Команд и Множественный поток Данных - ОКМД)

MIMD - Multiple Instruction stream/ Multiple Data stream (Множественный поток Ко­манд и Множественный поток Данных - МКМД)

Например, в общем случае архитектура SIMD (ОКМД) предпо­лагает создание структур векторной или матричной обработки. Под эту схему хорошо подходят задачи обработки матриц или векторов (массивов), задачи решения систем линейных и нелинейных, ал­гебраических и дифференциальных уравнений, задачи теории поля и др.

В микропроцессорах массового выпуска при обработке мультимедийных данных также целесообразно применять подобные решения.

ММХ (MultiMedia eXtension)  архитектура системы команд (57 команд для ФЗ), непосредственно предназначенных для задач мультимедиа, связи и графических приложений, которые часто ис­пользуют сложные алгоритмы, исполняющие одинаковые операции на большом количестве типов данных (байты, слова и двойные сло­ва). Анализ участков таких программ с большим объемом вычисле­ний показал, что такие приложения имеют следующие общие свой­ства, определившие выбор системы команд и структуры данных:

  • небольшая разрядность целочисленных данных (например, 8-разрядные пиксели для графики или 16-разрядное представление речевых сигналов);

  • небольшая длина циклов, но большое число их повторений;

  • большой объем вычислений и значительный удельный вес операций умножения и накопления;

  • существенный параллелизм операций в программах.

Это и определило новую структуру данных и расширение систе­мы команд. При этом было достигнуто общее повышение произво­дительности на 1020%, а в программах обработки мультимедиа  до 60%.

В процессоре Pentium MMX (1996 г.) появляются 8 новых 64-разрядных «регистров» с именами MM0MM7 (или же MMn), в действительности эти новые «регистры» были только псевдонимами для регистров стека ПЗ х87 (см. рис. 1.19). В связи с тем, что каж­дый из регистров стека содержит 80 бит, старшие 16 бит регистров стека оказываются неиспользованными в ММХ (рис. 1.18). Поэтому в режиме ММХ они заполняются всеми единицами, что позволяет отличать данные формата плавающей запятой от ММХ-данных.

Каждый из регистров MMn предназначен для целых чисел на 64 бита. Однако главным понятием набора команд ММХ является концепция упакованных типов данных (несколько корот­ких чисел, размещенных в одном регистре или машинном слове).

ММХ-команды используются в ЦП, начиная с Pentium ММХ (AMD Кб).

Архитектура 3DNow! впервые реализована в процессорах AMD К6-2 (май 1998 г.). Технология 3DNow! включает 21 дополнитель­ную команду, новые типы данных и использует регистры MMn (MM0MM7) для поддержки высокопроизводительной обработки ЗD-графики и звука.

В то время как архитектура ММХ предполагает целочисленную арифметику, векторные команды 3DNow! параллельно об­рабатывают две пары 32-разрядных вещественных операндов одинарной точности.

Процессор может выполнять две 3DNow! команды за такт и, следовательно, 4 операции над числами с ПЗ одновременно. Техно­логия 3DNow! предполагает наличие в ЦП для выполнения вектор­ных ММХ и 3DNow! операций нескольких устройств (пара умножи­телей, сумматоров и т. д.). Все команды 3DNow! имеют длитель­ность исполнения 2 такта и полностью конвейеризированы.

SSE (или SIMD-FP)  система команд Streaming SIMD Extensions  SIMD-расширение, предложенное Intel в 1999 г. в Pentium III (ядро Katmai), отсюда вариант названия  KNI (Katmai New Instructions). Это 70 новых команд, в том числе:

  • 50 команд предназначаются для повышения эффективности операций с ПЗ, с этой целью в ЦП встроены 128-битовые регистры  восемь регистров, названные XMM0XMM7 (в AMD64 число SSE/XMM регистров было увеличено от 8 до 16.). В ре­зультате операции с ПЗ могут совершаться за один цикл про­цессора;

  • 12 команд (New Media) дополняют ранее введенные 57 команд ММХ для ФЗ;

  • оставшиеся 8 команд (New Cacheability) повышают производительность кэш-памяти L1 при работе с мультимедийными данными.

SSE  набор команд, которые обрабатывают только значения с ПЗ, подобно 3DNow!. Поскольку здесь используются более длинные регистры, чем в 3DNow!, SSE может упаковать два числа ПЗ в каж­дый регистр. Первоначальная версия SSE была ограничена только числами одинарной точности, подобно 3DNow!.

SSE2  введенный с Pentium IV набор команд является существенным развитием SSE, оперирует с теми же самыми регистрами и обратно совместим с SSE процессора Pentium III. В расширении SSE2 операции со 128-битовыми регистрами могут выполняться не только как с четверками вещественных чисел двойной точности, но и как с парами вещественных чисел двойной точности, с шестна­дцатью однобайтовыми целыми и пр. SSE2 представляет собой сим­биоз ММХ и SSE и позволяет работать с любыми типами данных, вмещающимися в 128-битовые регистры.

SSE3  набор команд, также известный как Prescott New Instructions (PNI), является третьей версией команд SSE для IA-32. Intel использует SSE3 с начала 2004 г. в ЦП Pentium IV Prescott. В апреле 2005 г. AMD также включает SSE3 в ЦП Athlon 64 (вер­сия Е  ядра Venice и San Diego). SSE3 содержит 13 дополнитель­ных по отношению к SSE2 команд. Самое существенное новшест­во  «горизонтальная арифметика» (операции над несколькими числами, размещенными в одном длинном регистре).

Динамическое исполнение (dynamic execution technology)

Динамическое исполнение  технология обработки данных процессором, обеспечивающая более эффективную работу процес­сора за счет манипулирования данными, а не просто линейного ис­полнения списка инструкций.

Предсказание ветвлений. С большой точностью (более 90%) процессор предсказывает, в какой области памяти можно найти следующие инструкции. Это оказывается возможным, поскольку в процессе исполнения инструкции процессор просматривает про­грамму на несколько шагов вперед.

Внеочередное выполнение (выполнение вне естественного поряд­ка out-of-order execution). Процессор анализирует поток команд и составляет график исполнения инструкций в оптимальной последо­вательности независимо от порядка их следования в тексте програм­мы, просматривая декодированные инструкции и определяя, готовы ли они к непосредственному исполнению или зависят от результата других инструкций. Далее процессор определяет оптимальную по­следовательность выполнения и исполняет инструкции наиболее эффективным образом.

Переименование (ротация) регистров (register rename). Чтобы избежать пересылок данных между регистрами в соответствующей ко­манде изменяется адрес регистра, содержащего данные, участвую­щие в следующей операции. Поэтому вместо пересылки данных в регистр-источник осуществляется трактовка регистра с данными как источника.

Выполнение по предположению (спекулятивное speculative) процессор выполняет инструкции (до пяти инструкций одновре­менно) по мере их поступления в оптимизированной последова­тельности (спекулятивно). Поскольку выполнение инструкций про­исходит на основе предсказания ветвлений, результаты сохраняются как предположительные («спекулятивные»). На конечном этапе по­рядок инструкций восстанавливается.

Существуют следующие варианты спекулятивного выполнения:

  • предикация (predication)  одновременное исполнение нескольких ветвей программы вместо предсказания переходов (выполнения наиболее вероятного);

  • опережающее чтение данных (speculative loading), т. е. загрузка данных в регистры с опережением, до того, как определилось реальное ветвление программы (переход управления).

Эти возможности осуществляются комбинированно  при ком­пиляции и выполнении программы.

Предикация. Обычный компилятор транслирует оператор ветв­ления (например, if-then-else) в блоки машинного кода, распо­ложенные последовательно в потоке. Обычный процессор в зависи­мости от исхода условия исполняет один из этих базовых блоков, пропуская все другие. Более развитые процессоры пытаются про­гнозировать исход операции и предварительно выполняют предска­занный блок. При этом в случае ошибки много тактов тратится впустую. Сами блоки зачастую весьма малы  две или три коман­ды,  а ветвления встречаются в коде в среднем каждые шесть команд. Такая структура кода делает крайне сложным его параллельное выполнение.

При использовании предикации компилятор, обнаружив опера­тор ветвления в исходной программе, анализирует все возможные ветви (блоки) и помечает их метками или предикатами (predicate). После этого он определяет, какие из них могут быть выполнены па­раллельно (из соседних, независимых ветвей).

В процессе выполнения программы ЦП выбирает команды, ко­торые взаимно независимы и распределяет их на параллельную об­работку. Если ЦП обнаруживает оператор ветвления, он не пытает­ся предсказать переход, а начинает выполнять все возможные ветви программы.

Таким образом, могут быть обработаны все ветви программы, но без записи полученного результата. В определенный момент про­цессор наконец «узнает» о реальном исходе условного оператора, записывает в память результат «правильной ветви» и отменяет ос­тальные результаты.

В то же время, если компилятор не «отметил» ветвление, про­цессор действует как обычно  пытается предсказать путь ветвле­ния и т. д. Испытания показали, что описанная технология позво­ляет устранить более половины ветвлений в типичной программе, и, следовательно, уменьшить более чем в 2 раза число возможных ошибок в предсказаниях.

Опережающее чтение (предварительная загрузка данных, чтение по предположению) разделяет загрузку данных в регистры и их ре­альное использование, избегая ситуации, когда процессору прихо­дится ожидать прихода данных, чтобы начать их обработку.

Прежде всего, компилятор анализирует программу, определяя команды, которые требуют приема данных из оперативной памяти. Там, где это возможно, он вставляет команды опережающего чтения и парную команду контроля опережающего чтения (speculative check). В то же время компилятор переставляет команды таким об­разом, чтобы ЦП мог их обрабатывать параллельно.

В процессе работы ЦП встречает команду опережающего чтения и пытается выбрать данные из памяти. Может оказаться, что они еще не готовы (результат работы блока команд, который еще не вы­полнился). Обычный процессор в этой ситуации выдает сообщение об ошибке, однако система откладывает «сигнал тревоги» до момен­та прихода процесса в точку «команда проверки опережающего чте­ния». Если к этому моменту все предшествующие подпроцессы за­вершены и данные считаны, то обработка продолжается, в против­ном случае вырабатывается сигнал прерывания.

Многократное декодирование команд

В то время как традиционный процессор линейно переводит команды в тактовые микрокоманды и последовательно их выполняет, ЦП с многократным декодированием сначала преобразует коды ис­ходных команд программы в некоторые вторичные псевдо­коды (предварительное декодирование, или предекодирование), которые затем более эффективно исполняет ядро процессора. Эти преобразования могут содержать несколько этапов. В качестве при­меров рассмотрим 23-ступенчатые декодеры (рис. 1.19).

Декодирование команд CISC/RISC в VLIW (рис. 1.19, а). Эти технологии использованы в мобильных процессорах Crusoe (фирма Transmeta) и некоторых ЦП Intel  архитектуры 1А-64 и EPIC (Explicitly Parallel Instruction Computing  вычисления с явной па­раллельностью инструкций).

В частности, в Crusoe на входе процессора  программы, подготовленные в системе команд Intel x86, однако внутренняя система команд VLIW не имеет ничего общего с командами х86 и разработа­на для быстрого выполнения при малой мощности, используя обычную CMOS-технологию. Окружающий уровень программного называют программным обеспечением модификации кодов (Code Morphing software  CMS, или CM), здесь осуществ­ляется динамический перевод команд х86 в команды VLIW.

Аналогичные приемы используются в процессорах Intel Itanium  здесь при компиляции готовятся пакеты (связки, bundles) команд (по 3 команды в 128-битовом пакете). Тем самым, компиля­тор выполняет в данном случае функции СМ.

Декодирование команд CISC VLIW в RISC. Указанные выше достоинства RISC-архитектуры привели к тому, что во многих совре­менных CISC-процессорах используется RISC-ядро, выполняющее обработку данных. При этом поступающие сложные и разнофор­матные команды предварительно преобразуются в последователь­ность простых RISC-операций, быстро выполняемых этим процес­сорным ядром (рис. 1.19, б). Таким образом, работают, например, современные модели процессоров Pentium и К7, которые по внеш­ним показателям относятся к CISC-процессорам. Использование RISC-архитектуры является характерной чертой многих современ­ных процессоров.

Макрослияние (macrofusion). В процессорах предыдущих поко­лений каждая выбранная команда отдельно декодируется и выполня­ется. Макрослияние позволяет объединять типичные пары по­следовательных команд (например, сравнение, сопровождающееся условным переходом) в единственную внутреннюю команду-микро­операцию (МкОП, micro-op) в процессе декодирования (рис. 1.19, в). В дальнейшем две команды выполняются как одна МкОП, сокращая полный объем работы процессора.

Микрослияние (micro-op fusion). В современных доминирующих процессорах команды х86 (macro-ops) обычно расчленяются на МкОП прежде, чем передаются на конвейер процессора. Микро­слияние группирует и соединяет МкОП, уменьшая их число (рис. 1.19, г). Исследования показали, что слияние МкОП вкупе с выполнением команд в измененном порядке может уменьшить чис­ло МкОП более чем на 10%. Данная технология использована в системах Intel Core, а ранее апробировалась в ПЦ мобильных сис­тем Pentium M.

В процессорах AMD K8 конвейер строится на том, что работа с потоком МкОП происходит тройками инструкций (AMD называет их линиями  line). Конвейер К8 обрабатывает именно линии, а не х86-инструкции или отдельные микрооперации.

Технология Hyper-Threading (HT)

Здесь реализуется разделение времени на аппаратном уровне, разбивая физический процессор на два логических процессора, каждый из которых использует ресурсы чипа  ядро, кэш-память, шины, исполнительное устройство (рис. 1.20). Благодаря НТ много­процессная операционная система использует один процессор как два и выдает одновременно два потока команд. Смысл технологии заключается в том, что в большинстве случаев исполнительные уст­ройства процессора далеки от полной загруженности. От передачи на выполнение вдвое большего потока команд повышается загрузка исполнительных устройств.

Многоядерные процессоры

В октябре 1989 г., рассматривая будущее через «призму Закона Мура», специалисты Intel в статье «Microprocessors Circa 2000» («Процессоры 2000-х гг.») предсказали, что многоядерные процессоры могут выйти на рынок в начале столетия. Пятна­дцать лет спустя их предсказания оправдались  развитие процес­соров в этом направлении стало приоритетной задачей как для Intel, так и для конкурирующей AMD.

Многоядерная архитектура предполагает размещение двух или более основных вычислительных агрегатов в пределах единствен­ного процессора. Этот многоядерный процессор имеет единствен­ный интерфейс с системной платой, но операционные системы «видят» каждое из его ядер как дискретный логический процессор со всеми связанными ресурсами. Это отличает их от технологии Hyper-Threading (где отдельные процессы выполняются единствен­ным ядром) и существующие ресурсы используются более эффек­тивно.

Разделяя вычислительную нагрузку, выполняемую единствен­ным ядром в традиционных процессорах между многими ядрами, многоядерный процессор может выполнить большую работу в пределах отдельного цикла ЭВМ. Чтобы реализовать это увеличение эффективности, соответствующее программное обеспечение должно поддерживать это распараллеливание. Эти функциональные воз­можности называют «параллелизмом уровня подпроцесса (нити)» или «threading». Приложения и операционные системы, которые поддерживают это, упоминаются как мультиподпроцессные или «multi-threaded».

Процессор, оборудованный параллелизмом уровня подпроцес­са, может выполнить полностью отдельные «нити» кода. Это мо­жет означать или один подпроцесс, выполняемый из приложения, и второй подпроцесс, выполняемый из операционной системы, или параллельные подпроцессы, выполняемые из единственного приложения. Параллелизм уровня подпроцесса приносит особен­ный выигрыш для многих мультимедийных приложений, потому что многие из их операций способны к выполнению параллельно.

Если при этом используется режим Hyper-Threading, процессоры двойного ядра будут способны обработать четыре программных подпроцесса одновременно более эффективно имеющимися ресурсами, которые иначе, возможно, остались бы незанятыми (рис. 1.21).

Другие технологии

Технологии «невыполнимых битов» (No-eXecute bit). Бит «NX» (63-й бит адреса) позволяет операционной системе определить, ка­кие страницы адреса могут содержать исполняемые коды, а какие  нет. Попытка обратиться к NX-адресу как к исполняемой програм­ме вызывает событие «нарушение защиты памяти», подобное по­пытке обратиться к памяти «только для чтения» или к области раз­мещения ОС. Этим может быть запрещено выполнение программного кода, находящегося в некоторых страницах памяти, таким образом предотвращая вирусные или хакерские атаки. С теоретиче­ской точки зрения, здесь осуществляется виртуальное назначение «Гарвардской архитектуры»  разделение памяти для команд и для данных. Обозначение «NX-bit» используется AMD, Intel использует выражение «XD-bit» (eXecute Disable bit).