Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
1-13_процессор AMD.doc
Скачиваний:
14
Добавлен:
18.11.2018
Размер:
489.98 Кб
Скачать

1.7 От «небольшого отличия» к «великим переменным»

Удлинение конвейеров дало AMD возможность несколько увеличить тактовую частоту, но в Hammer сделана ставка не только на увеличение тактовой частоты, но и на увеличение количества инструкций за такт.

Рис.4 Выполнение команд в K7

Один из способов увеличения количества выполняемых за один такт инструкций, как говорилось выше, заключается в увеличении количества исполнительных устройств. В архитектуре K7 имеется три арифметико-логических устройства (АЛУ - для операций с целыми числами), три устройства адресации (Address Generation Units, AGUs - для операций выгрузки из кэша и для записи в кэш), и три устройства для операций с плавающей точкой. Ничего не стоило бы оснастить Hammer вдвое большим количеством устройств, но, к сожалению, на производительности это существенно не отразилось бы. Даже обеспечить работой все исполнительные устройства Athlon довольно сложно, как сложно вообще обеспечить работой исполнительные устройства любого современного процессора, включая Pentium 4. Именно поэтому увеличение частоты FSB приводит к существенному улучшению производительности, ведь именно от нее зависит насколько вы сможете загрузить работой исполнительные устройства.

Intel решает эту проблему с помощью технологии Hyper-Threading. Благодаря ей многопроцессорная операционная система использует один процессор как два, и выдает одновременно два потока команд. Смысл технологии заключается в том, что в большинстве случаев исполнительные устройства процессора далеки от полной загруженности. От передачи на выполнение вдвое большего потока команд повышается загрузка исполнительных устройств. В результате новой технологии Intel ожидал прироста производительности на 10-20 процентов.

Как и Intel, AMD понималт, что с простым увеличением количества исполнительных устройств производительность не повысится. То есть теоретически, возможно, и получится, но на практике - не получится.

Рис. 5. Исполнительные устройства Hammer аналогичны Athlon

AMD решила эту проблему со свойственной ей оригинальностью. Было решено оставить такое же количество исполнительных устройств, что и в K7, а увеличить количество выполняемых за такт операций, за счет улучшения архитектуры К7.

Тремя основными улучшениями улучшения новой являетюся:

  • встроенный контроллер памяти и северный мост

  • доработано устройство предсказания ветвлений

  • то, что AMD любит называть "большой загрузкой буфера быстрого преобразования адреса (translation lookaside buffer, TLB)"

1.8 Интегрированный контроллер памяти и северный мост.

Большая пропускная способность системной памяти, и маленькое значение задержки памяти всегда были актуальны. С момента возникновения AnandTech - с 1997 года – происходит развитие памяти: переход с EDO на SDRAM, с PC66 на PC133, с SDR на DDR, и даже с VC на DRDRAM. Одно лишь использование DDR SDRAM увеличивает производительность Athlon на 20-30 процентов. Кроме того, известно, насколько важно значение задержек при большой пропускной способности памяти. Встает вопрос: если производители процессоров могут выпускать настолько мощные процессоры, почему никто не может для них придумать эффективный способ получения данных из памяти?

Рассмотрим путь, который проходят данные, перед тем как попасть из памяти в процессор. Когда процессор выполняет считывание из системной памяти, в первую очередь команда посылается по системной шине в северный мост чипсета, который затем передает её встроенному контроллеру памяти. Именно в этих первых шагах скрываются подводные камни. Иногда (хотя и редко - ведь системная шина и шины памяти обычно синхронизируются) не хватает пропускной способности системной шины. В результате снижается скорость чтения из памяти. Намного чаще случаются большие задержки из-за неэффективной работы северного моста и контроллера памяти.

Далее, когда контроллер памяти получил команду на считывание, по шине памяти запрос пересылается в память, и через несколько операций найденные данные пересылаются назад, в контроллер памяти. Затем контроллер памяти принимает эти данные и передает на интерфейс системной шины в северном мосту, и далее эти данные попадают назад в процессор.

Что касается второй половины этого процесса, все зависит целиком от типа используемой памяти и частоты шины памяти. Однако с помощью чипсета и системной шины можно повлиять на скорость выполнения первой и нескольких последних операций.

Можно было бы применить промежуточный кэш L3 как способ сокращения задержек и как способ увеличения загрузки канала между северным мостом и процессором, но AMD выбрала интеграцию контроллера памяти прямо в процессор.

Рис. 6. Схема процессора Hammer

От этого не только сокращаются задержки в работе с памятью (теперь запросы на запись/считывание минуют внешний северный мост), но существенно сокращаются шансы того, что чипсет будет тормозить общую производительность платформы. Мы видели множество примеров того, как Athlon не достигал максимальной производительности лишь благодаря платформам, работающим не так, как положено. Поэтому ничего лучше, как избавиться от источника проблем и интегрировать контроллер памяти в процессор, придумано не было.

Архитектура Hammer обращается к встроенному контроллеру памяти (MCT) и встроенному контроллеру DRAM (DCT). Контроллер памяти представляет собой обобщенный интерфейс между ядром Hammer и контроллером DCT. Этот контроллер понимает, что такое память вообще, но он никоим образом не привязан к конкретному типу используемой памяти. Контроллер памяти подключен к DCT, который представляет собой более специфическое устройство, работающее лишь с определенными типами памяти. Теоретически AMD могла создать Hammer с поддержкой DDR SDRAM, и Hammer с поддержкой RDRAM просто изменив контроллер DTC, но заметим, что пользы от использования RDRAM для Hammer крайне мало. Один из недостатков RDRAM - слишком большие задержки, проявляющиеся довольно часто. Один из способов решения этой проблемы - использование RDRAM совместно с процессорами с длинными конвейерами, как в Pentium 4. Ясно, что конвейер Hammer не такой длинный, и тактовая частота у него не сможет компенсировать задержки RDRAM, как сделано в Pentium 4. Поэтому решение AMD остаться с DDR SDRAM вполне разумно.

Первые процессоры на архитектуре Hammer обладали либо 64-битным, либо 128-битным контроллером DDR SDRAM. Контроллер DCT может поддерживать тактовые частоты 100, 133, или 166МГц под DDR200, DDR266 или DDR333 SDRAM. AMD ясно дала понять, что в более поздних версиях Hammer DCT контроллер DDR поменяют на контроллер DDR-II.

Сравнение пропускной способности памяти

Тип памяти

64-бит DCT

128-бит DCT

DDR200

1.6Гбайт/с

3,2Гбайт/с

DDR266

2,1Гбайт/с

4,2Гбайт/с

DDR333

2,7Гбайти/с

5,4Гбайт/с

Расположение контроллера памяти непосредственно на кристалле означает ещё и то, что скорость доступа к памяти напрямую зависит от тактовой частоты, так как данные уже попадают в процессор, минуя системную шину. В качестве примера на Microprocessor Forum AMD привела теоретический 2ГГц Hammer с задержкой памяти всего 12 нс (справа вы видите конвейер Hammer). Очевидно, сюда не входит время считывания данных из памяти, но в любом случае, это оказывается намного быстрее работы через внешний северный мост. Итак, AMD собирается увеличить количество инструкций, выполняемых за такт за счет увеличения скорости считывания данных из памяти. В результате этого, исполнительные устройства Hammer будут лучше обеспечены данными, нежели исполнительные устройства Athlon.

Рис. 8 Время считывания

данных из памяти

Итак, встроенный контроллер памяти перенимает на себя одну из основных функций внешнего северного моста. AMD пошла дальше и практически встроила северный мост в кристалл процессора. Единственное, что осталось на долю традиционного внешнего северного моста - это контроллер AGP. Это практически устранит все проблемы с производительностью, которые бы возникли при использовании Hammer с чипсетами ее времени, к тому же, это осчастливило производителей материнских плат - ведь значительно упростится компоновка дорожек между памятью и процессором.

Ниже представлен пример однопроцессорной системы Hammer.

Рис. 9. Типовая «архитектура» AMD Hammer

Как видно, единственный чип, имеющийся на материнской плате (кроме южного моста) - это контроллер AGP 8X. Он взаимодействует с процессором по шине HyperTransport. Вероятно, в поисках дешевого решения, производители чипсетов просто создадут один единственный чип, который будет выполнять все традиционные функции южного моста плюс функции контроллера AGP 8X.

Кроме того, на изображении видно только два банка памяти. AMD заявила, что однопроцессорные системы на базе Hammer будут поддерживать максимум 2 небуферизованных DIMM.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]