
- •АнНоТация
- •Оглавление
- •Введение
- •Общие принципы микроархитектуры Nehalem
- •Усовершенствованное процессорное ядро
- •Tlb и кэш-память
- •Новые sse4.2 инструкции
- •Интегрированный контроллер памяти
- •Шина qpi
- •Управление питанием и Turbo-режим
- •Первые Nehalem – это Bloomfield
- •Заключение
- •Приложение. Оперативная памятьDdr 3 Изучаем новое поколение памяти ddr sdram, теоретически и практически
- •Ddr3: некоторые технические сведения
- •Литература
Шина qpi
Казалось бы,
интеграция контроллера памяти должна
разгрузить процессорную шину, которая
в этом случае оказывается освобождена
от передачи данных между процессором
и памятью. И это отчасти верно, но только
для однопроцессорных систем.
Микроархитектура Nehalem же универсальна,
её предполагается использовать как в
настольных и мобильных, так и в серверных
продуктах. Поэтому при разработке новой
микроархитектуры Intel уделила внимание
и проектированию новой процессорной
шины, которая бы оказалась применима и
в многопроцессорных системах, обеспечивая
необходимую пропускную способность и
масштабируемость. Впрочем, иного выхода
у инженеров и не было, так как привычная
шина FSB в данном случае оказывается
неприменима: многопроцессорные системы,
построенные на процессорах со встроенными
контроллерами памяти, должны использовать
«распределенную» модель памяти NUMA
(Non-Uniform Memory Access), а, следовательно,
нуждаются в прямом и высокоскоростном
соединении между процессорами.
Для
решения этой задачи был построен
специальный последовательный интерфейс
CSI (Common System Interface) с топологией точка-точка,
переименованный впоследствии в QPI
(QuickPath Interconnect). С технической точки зрения
шина QPI представляет собой два 20-битных
соединения, ориентированных на передачу
данных в прямом и обратном направлении.
16 бит предназначаются для передачи
данных, оставшиеся четыре – носят
вспомогательный характер, они используются
протоколом и коррекцией ошибок. Эта
шина работает на максимальной скорости
6,4 миллиона передач данных в секунду
(GT/s) и имеет, соответственно, пропускную
способность 12,8 Гбайт/с в каждую сторону
или 25,6 Гбайт/с суммарно.
Рис. 11. Шина данных
На сегодня
пропускная способность QPI такова, что
эту шину можно смело назвать самой
скоростной процессорной шиной. Так,
старая Quad Pumped Bus достигает суммарной
пиковой скорости 12,8 Гбайт/с только при
частоте 1600 МГц. Похожая же на QPI шина
HyperTransport 3.0, применяемая в современных
процессорах AMD, может похвастать пиковой
скоростью лишь 24 Гбайт/с.
В зависимости
от рыночного ориентирования, процессоры
с микроархитектурой Nehalem могут
комплектоваться одним или несколькими
интерфейсами QPI. В итоге в многопроцессорной
системе каждый из процессоров может
иметь прямую связь со всеми остальными
процессорами для снижения латентности
при обращении к памяти, подключенной к
«чужому» контроллеру. Модели же для
однопроцессорных настольных систем
будут снабжаться единственным QPI, который
будет использоваться для связи с набором
логики материнской платы.
Управление питанием и Turbo-режим
Многие изменения,
реализованные инженерами Intel в процессорах
Nehalem, связаны с оптимизацией микроархитектуры
под врождённое многоядерное строение.
Поэтому необходимость пересмотра
системы управления питанием процессора
назрела сама собой. Многоядерные
процессоры с микроархитектурой Core очень
неэкономичны с той точки зрения, что
управление энергосбережением в них
происходит по единому алгоритму, который
практически не учитывает состояния
отдельных ядер. И поэтому, например,
нередки ситуации, когда одно находящееся
под вычислительной нагрузкой ядро
препятствует переходу в энергосберегающие
состояния остальных ядер, несмотря на
то, что они, фактически, простаивают.
Именно
поэтому микроархитектура Nehalem предполагает
наличие в процессоре ещё одного важного
блока – PCU (Power Control Unit). Этот блок
представляет собой встроенный в процессор
программируемый микроконтроллер (то
есть, по сути процессор в процессоре),
целью которого является «интеллектуальное»
управление потреблением энергии.
Неудивительно, что при этом PCU имеет
достаточно сложную конструкцию: на его
реализацию ушёл примерно 1 миллион
транзисторов.
Рис. 12. PCU
Основным
предназначением PCU является управление
частотой и напряжением питания отдельных
ядер, для чего этот блок имеет все
необходимые средства. Он получает от
всех ядер со встроенных в них датчиков
всю информацию о температуре, напряжении
и силе тока. Основываясь на этих данных,
PCU может переводить отдельные ядра в
энергосберегающие состояния, а также
управлять их частотой и напряжением
питания. В частности, PCU может независимо
друг от друга отключать неактивные
ядра, переводя их в состояние глубокого
сна, в котором энергопотребление ядра
приближается к нулевой отметке.
Для
реализации такой возможности инженеры
и технологи Intel разработали специальный
полупроводниковый материал, посредством
которого стало возможно независимое
отключение ядер от общей шины питания.
Главное преимущество этой технологии
состоит в том, что управление питанием
отдельных ядер осуществляется целиком
внутри процессора и не требует усложнения
схемы конвертера питания на материнской
плате.
Что же касается общих для всех
ядер процессорных блоков, таких как
контроллеры памяти и интерфейса QPI, то
они переходят в энергосберегающие
состояния, когда в состоянии сна находятся
все процессорные ядра.
Наличие в
процессоре контроллера, способного
независимо управлять состоянием
процессорных ядер, позволило Intel
реализовать и ещё одну интересную
технологию, получившую название Turbo
Boost Technology. Эта технология вводит понятие
турбо-режима, в котором отдельные ядра
могут работать на частоте, превосходящей
номинальную, то есть разгоняться.
Основной принцип Turbo Boost Technology состоит
в том, что при переходе отдельных ядер
в энергосберегающие состояния снижается
общее энергопотребление и тепловыделение
процессора, а это в свою очередь позволяет
нарастить частоты остальных ядер без
риска выйти за установленные рамки
TDP.
Фактически, прообраз этой технологии
уже был реализован в двухъядерных
мобильных процессорах поколения Penryn,
однако в Nehalem её развитие продвинулось
ещё дальше. В новых процессорах, если
нет риска выйти за границу типичного
энергопотребления и тепловыделения,
PCU может повышать частоты процессорных
ядер на один шаг выше номинала (133 МГц).
Это может происходить, например, при
слабо распараллеленной нагрузке, когда
часть ядер находится в состоянии
простоя.
Рис. 13. Повышение частоты работы
Более
того, при соблюдении описанных условий,
частота одного из ядер может быть
увеличена и на два шага выше номинала
(266 МГц).
Рис. 14. Сверхповышение частоты работы
Следует отметить,
что необходимым условием включения
турбо-режима вовсе не является переход
одного или нескольких ядер в
энергосберегающее состояние. Это –
всего лишь один из возможных сценариев.
Так как PCU имеет все средства для получения
данных о фактическом состоянии
процессорных ядер, турбо-режим может
задействоваться и в тех случаях, когда
все ядра работают, но нагрузка на часть
из них невелика.
Большим
преимуществом Turbo Boost Technology является её
полная прозрачность для операционной
системы. Эта технология реализована
исключительно аппаратными средствами
и не требует использования никаких
программных утилит для своей
активации.
Чтобы посмотреть, как это
выглядит на практике, мы проследили за
состоянием четырёхъядерного процессора
Nehalem с номинальной частотой 3,2 ГГц при
запуске от одного до восьми вычислительных
потоков, создаваемых утилитой Prime95.
При
отсутствии нагрузки срабатывает
технология Intel Enhanced SpeedStep – частота
процессора сбрасывается до 1,6 ГГц. Запуск
одного потока приводит к активации
единственного ядра, что позволяет
процессору поднять собственный множитель
с 24x до 26x, тем самым увеличивая тактовую
частоту до 3,46 ГГц. Два потока увеличивают
загрузку процессора настолько, что PCU
находит возможным лишь повышение частоты
до 3,33 ГГц. Такая ситуация остаётся
неизменной и при дальнейшем росте
количества потоков – вплоть до пяти. И
только шестой поток, поднимающий загрузку
процессора до 75 %, приводит его частоту
к положенной штатной величине 3,2 ГГц.
Иными словами, Turbo Boost Technology представляется
отнюдь не эфемерной вещью, её эффект
более чем осязаем.