Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Запорожский национальный технический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

КС-ZAO / Лекции ЦЭВМруский вариант11.doc

Скачиваний:

189

Добавлен:

07.02.2016

Размер:

15.82 Mб

Скачать

☆

<<< < Предыдущая 97 98 99 100 101 102 103 104 105 106 107 108109 / 126109 110 111 112 113 114 115 116 117 118 119 120 121 > Следующая >>>

Инструкция iretd

Инструкция IRETD аналогична инструкции IRET. Она извлекает из стека EIP, а затем CS, как двойное слово (отбрасывая старшее слово), после чего извлекает EFLAGS, как двойное слово.

Инструкции pushfd и popfd

Инструкция PUSHFD заносит в стек полный 32-разрядный регистр флагов процессора 80386. Инструкция POPFD извлекает из стека полный 32-разрядный регистр флагов.

Инструкции же PUSHF и POPF заносят в стек и извлекают из него только младшие 16 битов регистра флагов.

Инструкции pushad и popad

Инструкция PUSHAD заносит в стек восемь 32-разрядных общих регистров в следующем порядке: EAX, ECX, EDX, EBX, ESP, EBP, ESI, EDI. Значение, заносимое для регистра ESP, соответствует значению регистра ESP в начале инструкции PUSHAD. Инструкция POPAD извлекает из стека семь 32-разрядных общих регистров в следующем порядке: EDI, ESI, EBP, EBX, EDX, ECX и EAX. Все эти регистры можно сохранить в стеке с помощью инструкции PUSHAD, а затем восстановить с помощью инструкции POPAD. Регистр ESP инструкцией POPAD не восстанавливается. Вместо этого выполняется выполняется увеличение на 32, чтобы отбросить блок из восьми 32-разрядных общих регистров, ранее сохраненный в стеке. Сохраненное ранее значение ESP игнорируется.

Новые версии инструкции imul

Дополнительно к формам инструкции IMUL, предусмотренным для процессоров 8086/80186/80286 в процессоре 80386 предусмотрена возможно самая удобная форма инструкции IMUL: любой общий регистр или ячейку памяти можно умножать на любой общий регистр, при этом результат снова сохраняется в одном из исходных регистров. Например, инструкция:

imul ebx,[edi*4+4] умножает содержимое регистра EBX на значение размером в двойное слово, хранящееся по адресу памяти edi*4+4, а результат сохраняет снова в регистре EBX.

Как можно заметить, первый операнд в этой форме инструкции IMUL представляет собой целевой регистр. Этот операнд может быть любым 16- или 32-разрядным общим регистром. Второй операнд может задаваться любым 16- или 32-разрядным общим регистром или ячейкой памяти. Размеры двух операндов должны совпадать. Если результат, рассматриваемый, как значение со знаком, слишком велик, чтобы его можно было разместить в приемнике, то устанавливаются флаги переноса и переполнения.

Как можно ожидать, в процессоре 80386 имеются также расширенные формы инструкции IMUL для процессоров 8086/80186/80286, поддерживающие 32-разрядные операнды. Например, в следующем коде ECX умножается на 1000000000h, а результат сохраняется в регистре EBP:

Imul ebp,ecx,100000000h а следующая инструкция умножает ecx на ebx, записывая результат в edx:eax:

imul ebx

§20.Pentium Pro

C помощью разных приемов фирме Intel удавалось каждое новое поколение своих процессоров делать быстрее, чем предыдущее. Казалось, если разработчики смогут благодаря увеличению тактовой частоты выжать из Pentium-процессора несколько большую производительность, то будет достигнут предел: старая архитектура в этом случае не даст больше ничего.

Поэтому во многих отношениях Intel начал свою работу над новым процессором (известным в стадии разработки как Р6) практически заново. Внешними отличительными признаками Pentium Pro являются прямоугольный корпус с двумя встроенными кремниевыми чипами (сам микропроцессор и кристалл сверхскоростной кэш-памяти второго уровня), а также полностью измененный внешний вид процессорного модуля. То обстоятельство, что теперь в схеме коммутации чипа имеются три параллельных конвейера для непрерывной обработки команд, еще не говорит ни о чем. Существенно то, что этот процессор отрабатывает программы совершенно иначе, чем все его предшественники. Проще говоря, Pentium Pro раскладывает все поступающие к нему инструкции на небольшие фрагменты, которые он потом обрабатывает, но не по очереди, а пытается найти такую последовательность, которая привела бы к самому оптимальному варианту выполнения команд. Чтобы оперировать подобным образом, нет необходимости в новом программном обеспечении. Pentium Pro может работать с прежним набором команд для Intel-процессоров, являясь, таким образом, совместимым с имеющимся программным обеспечением. Однако существуют моменты, когда то, что можно выжать из 486-го и Pentium-процессоров, не удается лидеру — Pentium Pro. To, что элегантно обеспечивало старым чипам плавную работу, приводит Pentium Pro к остановке. Он буквально захлебывается небольшими фрагментами инструкций, которые "Dynamic Execution" пытается обработать как на конвейере, чтобы выйти на предусмотренный темп. Первые компьютеры с процессором Pentium Pro показывают, к чему это приводит: с приложениями под Windows они работают даже несколько медленнее, чем Pentium-ПК с аналогичным оснащением.

Pentium Pro требует, прежде всего, 32-разрядных программ. Операционная система также не должна быть тормозом: на компьютере уже должна быть инсталлирована настоящая 32-разрядная среда (например, Windows-NT).

Самые быстрые из тестируемых до сих пор ПК с Pentium Pro поступали от фирм Siemens-Nixdorf и IBM. При тактовой частоте процессора 150 МГц они работают вдвое быстрее систем на базе 120 МГц Pentium.

Чтобы понять этот скачок по мощности, нужно уже вести разговор о битах и байтах, детально вникая в конструкцию и принцип действия Pentium Pro. Начнем с интегрированной в корпусе процессора кэш-памяти второго уровня Second-Level-Cache (L1-Cache), являющейся основным отличительным признаком Pentium Pro. Она служит как буферная память для быстрого обмена данными, которые многократно используются при транзакциях. Располагаясь в виде второго модуля на той же подложке, L1-Cache, состоящий из 15,5 млн. транзисторов, дополняет чип процессора с его 5,5 млн. транзисторов (это почти вдвое больше, чем у Pentium — 3,1 млн.).

Эти цифры соответствуют процессору с вариантом кэш-памяти на 256 Кбайт, который сейчас представлен на рынке. Для серверов предусматривается кэш на 512 Кбайт, поэтому количество интегрированных элементов памяти еще удвоится. Так как структуры кэш-памяти однообразны, она может быть очень плотно упакована на кремниевой подложке, благодаря чему блок Cache-Dual немного меньше, чем CPU. Задача кэш-памяти — избежать задержек, которые возникают при доступе к RAM. Типичные значения времени доступа для чипа DRAM, использующегося в качестве оперативной памяти, находятся в пределах от 60 до 80 нсек. Для процессора это слишком медленно. При тактовой частоте 150 Мгц он приблизительно через 7 нсек запускает новый рабочий цикл. Эффективно работающий процессор просто не может устанавливать слишком много циклов ожидания, поэтому часто используемые команды и данные запоминаются в кэш-памяти, к которой процессор имеет быстрый доступ. Начиная с 486-х машин, основная кэш-память (L1-Cache) интегрирована в корпусе процессора. Непосредственная близость к CPU, к ядру процессора, дает возможность для Pentium Pro реализовать обмен данными между центральным блоком и L2-Cache на максимальной скорости процессора. Для первого Pentium Pro — это 150 Мгц.

Обмен данными между CPU и L2-Cache реализован через 64-разрядный канал связи. Кроме того, эта кэш-память организована таким образом, что она не блокируется. Процессор не останавливается из-за операций с кэш-памятью, и транзакции в процессорной шине не замедляются.

Если, например, необходимые данные отсутствуют в кэш-памяти, то появляется статус "Miss" (отсутствие) и процессор немедленно выполняет другие инструкции. Одновременно он пытается извне, через шину памяти, ввести данные, которых нет в кэше. Каналом связи с внешней системной памятью также является 64-разрядная шина. Процессор, напротив, является "чистой" 32-разрядной машиной. Только что запущенные на выполнение инструкции снова могут привести к статусу "Cache-Miss" и вызвать после этого опять соответствующие процедуры. Pentium Pro одновременно может поддерживать до четырех таких транзакций.

Для 486- и Pentium-процессоров L2-Cache обычно размещается на материнской плате в виде отдельного модуля. То, что интегрированная в корпус процессора буферная память не только экономит место, но и работает значительно быстрее обычного кэша, показывает простой ЧИП-тест. В данном случае работа велась с различными по размерам блоками данных, которые использовали по очереди: основную кэш-память (L1-Cache) объемом 16 Кбайт, находящуюся в CPU; L2-Cache и, наконец, рабочую память (RAM).

С помощью простых подпрограмм низкого уровня было показано, что обмен с L1-Cache для Pentium Pro проходит несколько быстрее, чем для Pentium. Если тестовый файл имеет размер 1 MB, то 256 KB кэш не может его целиком хранить и скорость для обоих процессоров в одинаковой степени резко падает. Таким образом, объем L2-Cache представляет определенный интерес с точки зрения работы процессоров с файлами больших объемов.

Pentium Pro имеет скорость доступа к буферной памяти в несколько раз выше, чем старый Pentium. Тестирование проводилось на компьютере Pentium Pro фирмы Siemens-Nixdorf (150 Мгц) и Pentium (120 Мгц) (см. диаграмму)."Dynamic Execution" — определение, введенное фирмой Intel. За ним скрывается в сущности комбинация трех приемов, которые применяются для процессора Pentium Pro, чтобы ускорить разработку данных:

прогноз операции перехода: процессор просматривает на несколько шагов вперед программное обеспечение и определяет, какие ветвления с большей вероятностью будут преобладать и следовательно, какие группы инструкций нужно обработать в следующем цикле.

анализ потока данных: в следующем цикле процессор проверяет, какие инструкции зависят от других результатов и данных. Таким образом, он устанавливает оптимальную очередность выполнения команд. Первоначальная последовательность инструкций при таком подходе не должна соблюдаться: "Out-of-Order-Execution" — непоследовательное исполнение. Для Pentium Pro это может означать отход от некоторой последовательности событий, которая обязательно предписывает ему принудительные паузы, так как он должен выполнять это лишь шаг за шагом.

• опережающее исполнение: на основании временной диаграммы, команды выполняются в выбранном порядке таким образом, чтобы процессор был постоянно занят.

Для того чтобы реализовать "Dynamic Execution", Intel вынужден был искать новые решения. Это объясняется тем, что ограничения производительности Pentium-процессора были непреодолимы. Конвейерная архитектура Pentium состоит из пяти ступеней, для Pentium Pro она составляет четырнадцать ступеней.

Intel глубоко "запустил руку" в RISC-методы повышения производительности (RISC — Reduced Instruction Set Computer). Если Pentium обрабатывает две инструкции в тактовом цикле, являясь, таким образом, первым суперскалярных процессором Intel, то Pentium Pro обрабатывает в трех параллельных конвейерах до трех инструкций за цикл. "Суперконвейерная" — таким несколько необычным словом можно было бы назвать современную процессорную технологию. Это означает одновременную обработку нескольких команд, разбитых на несколько ступеней независимо друг от друга. Линейная обработка всех входных команд с классическими фазами выборки и исполнения заменяется для Pentium Pro на так называемый "пул команд" (Instruction Pool). Здесь происходит улучшенная планировка команд, замена классической фазы "исполнение" на распределенную схему из новых фаз "Dispatch/ Execute" (планирование/исполнение) и "Retire" (возврат), что позволило запускать команды в произвольном порядке, но завершать их в естественном порядке поступления. В этом пуле могут быть, например, четыре команды, из которых первая может сразу не выполняться из-за того, что в кэш-памяти отсутствуют необходимые данные, которые сначала должны быть получены из рабочей памяти. Если имеется вторая инструкция, которая зависит от первой, то обычный CPU должен сначала подождать. Pentium Pro, напротив, может с опережением обработать третью и четвертую команды, если для этого не понадобятся исполнения предыдущих результатов. Результаты этого процесса снова возвращаются в пул команд и ожидают там дальнейшей обработки в правильной последовательности. Для отработки Cache-Miss требуется много рабочих тактов. В это время Pentium Pro просматривает от 20 до 30 инструкций вперед относительно программного счетчика. Среди них находится в среднем 5 ветвлений, которые требуется правильно спрогнозировать, чтобы не потерять преимущество в скорости. Недостатком суперскалярной концепции является то, что неправильный прогноз может привести к ненормированным потерям времени. Поэтому уже подготовленные к выполнению инструкции при этих обстоятельствах аннулируются. Функциональная схема, представленная на следующей странице объясняет принцип действия процессора Pentium Pro. Instruction Fetch Unit (IFU) — блок выборки команд содержит так называемую I-Cache. При необходимости CPU быстро извлекает из этой памяти свои инструкции. Необходимую информацию об индексе поиска IFU узнает от Branch Target Buffer (BTB) — буфера адресов перехода, задачей которого является предсказание ветвлений. Для этого применен относительно сложный алгоритм, который дает возможность BTB выйти на 90%-ю точность предсказания. I-Cache захватывает по мере надобности кэш-строку и передает декодеру 16 байт, которые выровнены по границе слова. Так как программный код для инструкций Intel-архитектуры часто имеет ветвления на середину или конец кэш-строки, то всегда читаются две строки.

Задачей дешифратора инструкций (Instruction Decoder) является разложение команд для дальнейшей обработки на небольшие фрагменты, так называемые Micro-Ops (микрооперации). Микрооперации (МО) представляют собой "атомарные" блоки инструкций процессора Pentium Pro. Все МО имеют одинаковую длину и состоят, в зависимости от обстоятельств, из двух логических источников и одного логического приемника. Большинство инструкций конвертируются непосредственно в одну МО, некоторые в 1-4 МО.

Комплексные инструкции требуют собственного микрокода (MIS-Microcode Instruction Sequenzer). Этот микрокод является лишь набором запрограммированных последовательностей обычных МО. В каждом тактовом цикле из трех раздельных декодеров (DO, Dl, D2) генерируются три МО, из-за чего Pentium Pro обозначается также как суперскалярный процессор третьего уровня. Аналогичный принцип используют фирмы AMD для заявленного процессора К5 и NexGen для Nx586.

МО выстраиваются в очередь и передаются в Register Alias Table (RAT) — таблицу переименования регистров. Здесь логические ссылки на регистры архитектуры Intel преобразуются в обращения к физическим регистрам Pentium Pro. Intel-архитектура располагает относительно небольшим набором регистров. Трудность представляет обработка инструкций в режиме переупорядочивания ("out of order"), в этом случае появляются бесполезные циклы ожидания. МО снабжаются еще информацией о статусе, прежде чем они помещаются в ReOrder Buffer (ROB) — буфер переупорядочивания, который и представляет пул команд. Здесь МО упорядочиваются таким образом, что в конце выполнения команды снова образуется правильная последовательность, не нарушающая семантику программы.

Помимо этого из RAT МО поступают в Reservation Station (RS) — станцию резервирования, откуда они могут посылаться в исполняющие устройства (EUs — Execution Units). Предполагается, что по статусу можно определить наличие всех операндов микрооперации и что EU, отвечающее за определенные МО, обладает необходимыми ресурсами. RS связана с исполнительными устройствами через пять портов и имеет выход на несколько ресурсов. С портом 0 связаны, прежде всего, различные устройства арифметики с плавающей запятой. Их объединяет необходимость в большой разрядности шины данных. Для чисел с плавающей запятой необходимо предусмотреть 86 бит. Порт 1 состоит из устройства целочисленной арифметики (IEU — Integer Execution Unit) и устройства операций перехода (JEU — Jump Execution Unit). Порты 2, 3 и 4 необходимы для доступа через блок генерации адресов (AGU — Address Generetion Unit) к основной памяти. Результат выполнения команд попадает снова как в RS, так и в ROB. Тем самым последующим операциям гарантируется доступ к текущим данным.

Пиковую скорость Pentium Pro развивает при обработке пяти МО за такт, что соответствует наличию одной МО на один порт. В среднем обычно обрабатывается три МО за такт. В соответствии с требованиями к информационному потоку и при наличии доступа к данным из исполняющих устройств, МО передаются далее, независимо от первоначальной последовательности, которая была заложена в программе.

В конце Retire Unit (устройство вывода из пула готовых инструкций) проверяет также статус МО в пуле инструкций. Оно отыскивает МО, которые уже подготовлены к исполнению и могут быть удалены из пула. Поскольку эти МО уже полностью использованы, то исходная задача переписывается Intel-архитектурой так же, как и для первоначальной группы инструкций. После этого Retire Unit воссоздает исходную программную последовательность. Это проделывается также при наличии: прерываний (Interrupts); реакций на особую ситуацию (Traps), вызывающих внутренние прерывания; отказов (Faults); контрольных точек (Breakpoints), необходимых для отладки и ложных прогнозов.

Большинство из того, что происходит в Pentium Pro, до определенного момента является чисто опережающим процессом. Лишь в самом конце принимаются данные, в достоверности которых имеются сомнения, и записываются в Retirement File Register (RFR) — регистр удаляемых файлов. Устройство Retirement может принимать до трех МО за такт.

Вход и выход у Pentium Pro фактически выглядит так же как и у 486-го процессора. То, что внутри новый процессор функционирует совсем по-другому, пользователя, естественно, не беспокоит. Он может его рассматривать как черный ящик. Сомнения появляются лишь тогда, когда этот технический шедевр получает сомнительное программное обеспечение, в результате чего не оправдываются возлагаемые на него надежды. Ключом к скорости Pentium Pro является его способность к Out-of-Order-Execution (непоследовательное выполнение команд), которая постоянно поддерживается в процессе работы процессора.

В некоторых случаях команды нужно выполнять по очереди. Такие инструкции приводят суперконвейерную конструкцию Pentium Pro к остановке. Процессор должен приостановить все другие операции и при необходимости снова начать, обработав прежде специальную инструкцию. Например, чтение полного регистра может остановить обработку команд, если соответствующая инструкция следует за инструкцией записи для сегмента этого регистра. Это как раз тот случай, когда записывается 8 бит 16-разрядного регистра. Иногда программисты на ассемблере используют половину регистра, например AL, чтобы запомнить один байт информации. К фатальной ошибке приводит попытка применить непосредственно в программе инструкцию чтения АХ, то есть 16-битного содержимого этого регистра Эти методы программирования восходят еще из времен 286-х машин и DOS, когда адресное пространство было ограничено 64 Кбайтами.

Правда, такое использование регистров в 16-разрядном программном коде встречается не часто, однако когда это происходит, возникают значительные задержки. За семь или больше тактовых циклов процессор может перейти в состояние ожидания. За это время х86 мог бы выполнить, возможно, 20 следующих команд.

Компилятор фактически в состоянии минимизировать эту задачу, однако, еще часто в ассемблерных кодах используются неполные регистры. Windows 3.1 и также часть Windows 95 содержат такие, написанные от руки коды. Это является причиной того, что даже 32-разрядные приложения для Windows 95 нельзя полностью использовать на Pentium Pro. Команды чтения полного регистра после инструкций записи для 8- или 16-разрядного регистра могут вызвать такие же проблемы, однако они встречаются значительно реже'. Intel с самого начала оптимизировал Pentium Pro для 32-разрядного программного обеспечения.

Трудности в 16-разрядных программах могут также вызывать команды ввода/вывода и операции с управляющими регистрами. Извлекая их из пула команд, Pentium Pro не может вести обработку в любой последовательности. Если процессор сталкивается с такими инструкциями, он должен завершить все команды, находящиеся в стадии выполнения, не приступая больше к выполнению новых. Образно говоря, конвейер опустошается.

Для 32-разрядного программного обеспечения управление памятью, как правило, вызывает меньшие затраты, чем для 16-разрядных программ, так как в качестве адресного пространства может использоваться до 4 Гбайт памяти. Центральный процессор вследствие этого меньше загружен и может переключать свои ресурсы на выполнение, операций, требующих интенсивных вычислений. Сравнив набор приложений Windows 3.1 (16 разрядов) с 32-разрядными приложениями для Windows 95, можно обнаружить, что количество команд, приходящееся на управление памятью, снижено. Вследствие этого возможно одновременно выполнять больше операций, связанных с вычислениями (смотри диаграмму). В качестве операционных систем, наиболее подходящих для Pentium Pro, в этом и следующем году Intel видит Windows NT и Unix. Если необходимо работать с Windows 3.1 или Windows 95, то рекомендуется, по-прежнему, Pentium-процессор. По календарному плану в начале 1997 года появится для Pentium Pro и Windows 95. До этого периода, возможно, появятся еще более быстрые процессоры Pentium Pro и большое количество 32-разрядных приложений.

Новый процессор несет в компьютер также новый дизайн шины. Шина Pentium Pro предоставляет возможность непосредственного подсоединения последующих процессоров или высокоскоростных устройств ввода/вывода. Процессорную шину нельзя путать с PCI-шиной. Последняя, в свою очередь, может стыковаться с процессорной шиной посредством интерфейса PCI-BRIDGE.

Около 150 контактных выводов процессора связывают линии передачи данных, которые грубо можно разделить на линии запросов и ответов. Request (запрос данных) требует двух тактовых циклов. В первом цикле подготавливаются такие данные, как адреса, тип памяти и сходные с ними параметры, во втором — добавляется специальный код опознавания и управляющие инструкции.

Различные запросы и ответы могут одновременно находиться на шине. Большинство запросов процессор может посылать в память, не ожидая каждый раз ответ. Принцип действия процессора становится понятным из схематической диаграммы, которая иллюстрирует конвейерный подход к обработке микроопераций, микрокоманд Pentium Pro. Конвейер этого процессора насчитывает 14 различных ступеней.

Он состоит из трех отдельных частей, которые более или менее зависят друг от друга. 14-ступенча-тый конвейер, состоящий из одной части, имеет существенный недостаток: он не может работать быстрее, чем его самая длинная ступень. В течение последующих 2,5 тактовых циклов происходит декодирование, при котором формируются микрооперации. Далее идет переименование регистров.

Последняя ступень (запись в Reservation Station) обычно перекрывается как минимум с одной ступенью в следующем сегменте конвейера.

Если в 16-разрядной программе появляются команды, которые Pentium Pro не может обработать в режиме "out-of-order", то при необходимости, операции могут быть стерты в нижних ступенях конвейера и затем возобновлены сначала.

Начало второй фазы ("Out-Of-Order Core") соответствует входу в К Reorder Buffer (ROB). Для идентификации микроопераций здесь предусмотрены две ступени и одна для исполнения одной микрооперации. Операции для арифметики с плавающей запятой имеют большую длительность.

В последней части конвейера (Retirement) обеспечивается процесс объединения микроопераций снова в одно целое.

Вследствие дальнейшего деления на части первоначально пятиступенчатого конвейера 486- и Pentium-процессоров, каждая единичная ступень должна выполнять меньший объем работы. Следствием этого является то, что ступени конвейера могут завершаться быстрее. Тем самым можно добиться более высокого быстродействия. При одинаковой технологии изготовления можно получить тактовую частоту для Pentium Pro на треть больше, чем для Pentium. • Первая часть конвейера в Pentium Pro состоит из восьми тактовых циклов и обозначается Intel как "In-Order Front End".

§21.PENTIUM processor

<<< < Предыдущая 97 98 99 100 101 102 103 104 105 106 107 108109 / 126109 110 111 112 113 114 115 116 117 118 119 120 121 > Следующая >>>

Соседние файлы в папке КС-ZAO

#
07.02.2016225.8 Кб10shem1.gif
#
07.02.2016144.56 Кб9shem2.gif
#
07.02.201628.67 Кб10контрольная1.doc
#
07.02.201622.53 Кб9контрольная2.doc
#
07.02.201620.48 Кб9Контрольная3.doc
#
07.02.201615.82 Mб189Лекции ЦЭВМруский вариант11.doc
#
07.02.2016135.68 Кб16Мет.по_к.р.(укр)!!!v3.doc
#
07.02.20163.1 Mб48Мет.по_к.р.(укр).doc
#
07.02.2016453.12 Кб14Мет_КС_ч1_укр!!!v2-2010.doc
#
07.02.2016446.46 Кб14Мет_КС_ч1_укр!!!v3-2010.doc
#
07.02.20161.77 Mб14Мет_ЦЭВМ_ч2_v3_2010.doc