Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебное пособие Кольцевая шина QPI+Sandi bridge.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
2.3 Mб
Скачать
  1. Особенности архитектуры цифровых процессоров сигналов, транспьютеров и интерфейсных сбис.

Центральные процессоры поддерживают многозадачность, широкую память и т.п. теряя на этом производительность и неся дополнительные аппаратные затраты. Поэтому параллельно с ЦП развивалась линия быстродействующих процессоров. Наиболее универсальные из них получили название цифровых процессоров сигналов. Специализированные ЦПС – графические процессоры (GPU), транспьютеры, отдельные интерфейсные СБИС отличаются спецификой архитектуры, микропрограммного обеспечения, ориентированы на решение конкретной задачи. ЦПС опережают ЦП по производительности на одинаковой тактовой частоте, но отстают из-за массовости в топологической норме, и как следствие, имеют более низкие тактовые частоты. Только GPU идут вровень с ЦП, опережая последние по быстродействию в десятки и сотни раз.

Рис. 12. 1. Ядро процессора включает 2 по четыре исполнительных устройства с VLIW командой

Первые ЦПС I 2920 выпустила фирма Intel в 1978 году. Это 25-х битные процессоры, функционирующие в RISC цикле и не имеющие прерываний. Их микропрограммный автомат предельно упрощен. Появился специфичный набор команд – арифметика с насыщением, размерность АЛУ более чем вдвое превышает размерность операндов. Новая команда, умножение с накоплением, поддерживает массовую обработку сигналов. Имеет встроенный ЦАП и АЦП.

Рис. 12. 2. Структура связей исполнительных устройств

Основную историю ЦСП принято отсчитывать от 1979—1980 годов, когда Bell Labs представила первый однокристальный ЦСП Mac 4, а также на «IEEE International Solid-State Circuits Conference '80» были показаны µMPD7720 компании NEC и DSP1 компании AT&T, которые, однако, не получили широкого распространения. Далее на арену вступает компания Texas Instruments, признанный сегодня лидер в области цифровых процессоров сигналов.

Стандартом де-факто стал выпущенный кристалл TMS32010 фирмы Texas Instruments, по многим параметрам и удачным техническим решениям превосходящий изделия конкурентов. Множество фирм выпускают ЦПС различной конфигурации. ЦПС входят в кристаллы развитых микроконтроллеров.

Рассмотрим архитектуру DSP - TMS320C6411 (рис. 12.1, 12.2). Это процессор с VLIW командой, 8- исполнительных устройств. Имеет КЭШ данных и команд.

Ниже показана специализация различных вариантов ЦПС. Это и ориентированный на построение фраймграберов процессор TMS320DM642 (рис. 12.3), процессор видеокамеры TMS320DM310 (рис. 12.4, 12.5.).

Рис. 12.3. Подключение TMS320DM642

Рис. 12.4. Цифровая видеокамера с процессором TMS320DM310

Это, по сути, сборка на кристалле

DSP+ несколько контроллеров

• Real-time MPEG-1, -4 video encode кодируются at CIF resolution (352 x 288)

• Real-time MPEG-4 video decode декодируется at VGA resolution

(640 x 480)

• One-second shot-to-shot delay for 6-megapixel CCD imagers Одна-секунда задержки для 6-megapixel CCD формирования изображения приложений

• Supports multiple applications and file formats including файловые форматы включая MPEG-4, MPEG-2, MPEG-1, JPEG, M-JPEG, H.263, MP3, AAC and WM4

• Highly integrated system-on-a-chip (SoC) design reduces overall

system cost

Система на чипе (SoC) разработка уменьшает общую стоимость

A/D, D/A Serial I/F for Audio (2)

Рис. 12.5. Выходы TMS320DM310

– Correlated double sampling (CDS) Коррелированная двойная выборка (CDS)

– Programmable black level clamping Программируемый уровень черного

• Programmable gain amplifier (PGA): –6-dB to +42-dB gain ranging Программируемый прирост усилители (PGA): -6-dB, чтобы +42-dB

• 12-bit digital data output:

– Up to 20-MHz conversion rate до 20-MHz

– No missing codes Никакая потеря не кодирует

• 79-dB signal-to-noise ratio79-dB сигнал-помехи

• Portable operation:

– Low voltage: 2.7 V to 3.6 V

– Low power: 83 mW (typ) at 3.0 V

– Standby mode: 6 mW

Рис. 12.6. Преобразования аналогового сигнала

Рис. 12.7. Потоки в системе обработки сигналов с CCD построенной на базе DCS24

CCD источник может быть подключен через CCD signal processor VSP2262 (рис. 12.6). Потки данных в таких приборах существенно влияют на архитектуру (рис. 12.7). Становится все более распространенным комплексное объединение ЦПС и микроконтроллеров. Например, ЦПС TMS320DSC24 включает в себя ЦПС 5409 и контроллер ARM 7. Последний - 32-х разрядный и поддерживает работу серии стандартных интерфейсов.

• Двойной процессор integrating a TMS320C54xTM DSP and an ARM7TDMI RISC MCU

• 16-bit low-power DSP with 32K c 16-bit интегрированным DARAM и 32K x 16-bit SARAM производительностью operates at up to 94.5 MHz

• Smart Интеллектуальный power management and low-power modes for DSP and MCU subsystems

• SDRAM controller контроллер поддерживает 16- and 32-bit SDRAM up to 75 MHz вплоть до 75 MHz

• ARM7TDMI RISC microcontroller микроконтроллер работает с байтами 32K встроенного SRAM, вплоть до 37.5 MHz core with 32K bytes of integrated SRAM operating up to 37.5 MHz

• Integrated DSP and MCU subsystem peripherals

• Seamless interface to external CPU used as a host processor

• Supports scan-based emulation эмуляция of DSP and MCU cores

• Packaging: 257-ball MicroStar BGATM (GHK)

Важна распайка

Решает все по функциям цифрового фотоаппарата, требуемым для NV.

Рис. 12.8. Объединение DSP и микроконтроллера

Довольно интересна история развития специализированных процессоров транспорта данных, осуществляющих на проходе перекодировку потоков под различные стандарты. Транспьютер (англ. transputer) — элемент построения многопроцессорных систем, выполненный на одном кристалле большой интегральной схемы, продукт английской компании INMOS Ltd. (ныне — подразделение STMicroelectronics). Термин транспьютер происходит от слов Transistor и Computer. Такой генезис должен, по мнению разработчиков, подчёркивать возможность построения сложных вычислительных комплексов на базе транспьютеров, где их роль уподоблялась бы роли транзисторов, выступающих основным элементом при проектировании электронных схем. Параллельная система может создаваться из набора транспьютеров, которые функционируют независимо и взаимодействуют через последовательные каналы связи.

Транспьютеры успешны в различных областях. В настоящее время транспьютеры INMOS Ltd. (ныне — подразделение STMicroelectronics) не производятся, будучи вытесненными похожими разработками конкурентов, особенно Texas Instruments. Термин линк (link) —физический канал связи между параллельно работающими процессорами — пришёл из транспьютеров, а протокол транспьютерного линка стал стандартом IEEE.

  1. VLIW архитектура, основные черты перспективных процессоров

    Каждые полгода приносят новшества в архитектуру КС. Остановимся на втором полугодии 2010 года. Практически без изменения ниже приведен результат исследования одного из аналитиков.

Развитие бренда Pentium подошло к следующему поколению микроархитектуры  Intel с рабочим названием Gesher ("мост" на иврите), что чуть позже трансформировалось в Sandy Bridge. Это новая процессорная микроархитектура. Именно так, сегодня можно представить таинственную микроархитектуру Haswell, которая появится после поколения Ivy Bridge, которое, в свою очередь, придёт на смену Sandy Bridge. что теперь окончательно можно говорить о конце 15-летней эпохи микроархитектуры P6 (Pentium Pro) и о  появлении нового поколения микроархитектуры Intel. Микроархитектура Sandy Bridge: Чип Sandy Bridge – это четырёхъядерный 64-битный процессор с изменяемой (out-of-order) последовательностью исполнения команд, поддержкой двух потоков данных на ядро (HT), исполнением четырёх команд за такт; с интегрированным графическим ядром и интегрированным контроллером памяти DDR3; с новой кольцевой шиной, поддержкой 3- и 4-операндных (128/256-битных) векторных команд  расширенного набора AVX (Advanced Vector Extensions); производство которого налажено на линиях с соблюдением норм современного 32-нм технологического процесса Intel. Процессоры Intel Core II на базе микроархитектуры Sandy Bridge будут поставляться в новом 1155-контактном конструктиве LGA1155 под новые системные платы на чипсетах Intel 6 Series.

  Примерно такая же микроархитектура будет актуальна и для серверных решений Intel Sandy Bridge-EP, разве что с актуальными отличиями в виде большего количества процессорных ядер (до восьми), соответствующего процессорного разъёма LGA2011, большего объёма КЭШа L3, увеличенного количества контроллеров памяти DDR3 и поддержкой PCI-Express 3.0. Предыдущее поколение, микроархитектура Westmere в исполнении Arrandale и Clarkdale для мобильных и настольных систем,  представляет собой конструкцию из двух кристаллов - 32-нм процессорного ядра и дополнительного 45-нм «сопроцессора» с графическим ядром и контроллером памяти на борту, размещённых на единой подложке и производящих обмен данными посредством шины QPI. По сути, на этом этапе инженеры Intel, используя преимущественно предыдущие наработки, создали этакую интегрированную гибридную микросхему.

При создании архитектуры Sandy Bridge разработчики закончили начатый на этапе создания Arrandale/Clarkdale процесс интеграции и разместили все элементы на едином 32-нм кристалле, отказавшись при этом от классического вида шины QPI в пользу новой кольцевой шины. Суть микроархитектуры Sandy Bridge при этом осталась в рамках прежней идеологии Intel, которая делает ставку на увеличение суммарной производительности процессора за счёт улучшения «индивидуальной» эффективности каждого ядра.

Структуру чипа Sandy Bridge можно условно разделить на следующие основные элементы: процессорные ядра, графическое ядро, КЭШ-память L3 и так называемый «Системный агент» (System Agent).

Кольцевая шина (Ring Interconnect)

Вся история модернизации процессорных микроархитектур Intel последних лет неразрывно связана с последовательной интеграцией в единый кристалл всё большего количества модулей и функций, ранее располагавшихся вне процессора: в чипсете, на материнской плате и т.д. Соответственно, по мере увеличения производительности процессора и степени интеграции чипа, требования к пропускной способности внутренних межкомпонентных шин росли опережающими темпами. Эффективность такой топологии высока лишь при небольшом количестве компонентов, принимающих участие в обмене данными. В микроархитектуре Sandy Bridge для повышения общей производительности системы разработчики решили обратиться к кольцевой топологии 256-битной межкомпонентной шины, выполненной на основе новой версии технологии QPI (QuickPath Interconnect), расширенной, доработанной и впервые реализованной в архитектуре серверного чипа Nehalem-EX (Xeon 7500), а также планировавшейся к применению совместно с архитектурой чипов Larrabee. Кольцевая шина в версии архитектуры Sandy Bridge для настольных и мобильных систем (Core II) служит для обмена данными между шестью ключевыми компонентами чипа: четырьмя процессорными ядрами x86, графическим ядром, КЭШем L3 и системным агентом. Шина состоит из четырёх 32-байтных колец: шины данных (Data Ring), шины запросов (Request Ring), шины мониторинга состояния (Snoop Ring) и шины подтверждения (Acknowledge Ring), на практике это фактически позволяет делить доступ к 64-байтному интерфейсу КЭШа последнего уровня на два различных пакета. Управление шинами осуществляется с помощью коммуникационного протокола распределённого арбитража, при этом конвейерная обработка запросов происходит на тактовой частоте процессорных ядер, что придаёт архитектуре дополнительную гибкость при разгоне. Производительность кольцевой шины оценивается на уровне 96 Гбайт в секунду на соединение при тактовой частоте 3 ГГц, что фактически в четыре раза превышает показатели процессоров Intel предыдущего поколения.

Кольцевая топология и организация шин обеспечивает минимальную латентность при обработке запросов, максимальную производительность и отличную масштабируемость технологии для версий чипов с различным количеством ядер и других компонентов.  По словам представителей компании, в перспективе к кольцевой шине может быть "подключено" до 20 процессорных ядер на кристалл, и подобный редизайн, как вы понимаете, может производиться очень быстро, в виде гибкой и оперативной реакции на текущие потребности рынка. Кроме того, физически кольцевая шина располагается непосредственно над блоками КЭШ-памяти L3 в верхнем уровне металлизации, что упрощает разводку дизайна и позволяет сделать чип более компактным.

L3 -КЭШ-память последнего уровня, LLC

Intel КЭШ-память L3 обозначает как «КЭШ последнего уровня», то есть, LLC - Last Level Cache. В микроархитектуре Sandy Bridge КЭШ L3 распределён не только между четырьмя процессорными ядрами, но, благодаря кольцевой шине, также между графическим ядром и системным агентом, в который, среди прочего, входит модуль аппаратного ускорения графики и блок видеовыхода. При этом специальный трассировочный механизм упреждает возникновение конфликтов доступа между процессорными ядрами и графикой.

Каждое из четырёх процессорных ядер имеет прямой доступ к «своему» сегменту КЭШа L3, при этом каждый сегмент КЭШа L3 предоставляет половину ширины своей шины для доступа кольцевой шины данных, при этом физическая адресация всех четырёх сегментов КЭШа обеспечивается единой хэш-функцией. Каждый сегмент КЭШа L3 обладает собственным независимым контроллером доступа к кольцевой шине, он отвечает за обработку запросов по размещению физических адресов. Кроме того, контроллер КЭШа постоянно взаимодействует с системным агентом на предмет неудачных обращений к L3, контроля межкомпонентного обмена данными и некешируемых обращений.

Дополнительные подробности о строении и особенностях функционирования КЭШ-памяти L3 процессоров Sandy Bridge будут появляться далее по тексту, в процессе знакомства с микроархитектурой, по мере возникновения необходимости.

Системный агент: контроллер памяти DDR3, PCU и другие

Ранее вместо определения System Agent в терминологии Intel фигурировало так называемое «Неядро»  - Uncore, то есть, «всё, что не входит в Core», а именно КЭШ L3, графика, контроллер памяти, другие контроллеры вроде PCI Express и т.д. Мы же по привычке частенько называли большую часть этого элементами северного моста, перенесённого из чипсета в процессор.

Системный агент микроархитектуры Sandy Bridge включает в себя контроллер памяти DDR3, модуль управления питанием (Power Control Unit, PCU), контроллеры PCI-Express 2.0, DMI, блок видеовыхода и пр. Как и все остальные элементы архитектуры, системный агент подключен в общую систему посредством высокопроизводительной кольцевой шины.

Архитектура стандартной версии системного агента Sandy Bridge подразумевает наличие 16 линий шины PCI-E 2.0, которые также могут быть распределены на две шины PCI-E 2.0 по 8 линий, или на одну шину PCI-E 2.0 на 8 линий и две шины PCI-E 2.0 по четыре линии. Двухканальный контроллер памяти DDR3 отныне «вернулся» на кристалл (в чипах Clarkdale он располагался вне процессорного кристалла) и, скорее всего, теперь будет обеспечивать значительно меньшую латентность.

Тот факт, что контроллер памяти в Sandy Bridge стал двухканальным, вряд ли обрадует тех, кто уже успел вывалить немалые суммы за оверклокерские комплекты трёхканальной памяти DDR3. Что ж, бывает, теперь будут актуальны наборы лишь из одного, двух или четырёх модулей. По поводу возвращения к двухканальной схеме контроллера памяти у нас имеются кое-какие соображения. Возможно, в Intel начали подготовку микроархитектур к работе с памятью DDR4? Которая, из-за ухода от топологии «звезды» на топологию «точка-точка» в версиях для настольных и мобильных систем будут по определению только двухканальной (для серверов будут применяться специальные модули-мультиплексоры). Впрочем, это всего лишь догадки, для уверенных предположений пока что недостаточно информации о самом стандарте DDR4. Расположенный в системном агенте контроллер управления питанием отвечает за своевременное динамичное масштабирование напряжений питания и тактовых частот процессорных ядер, графического ядра, КЭШей, контроллера памяти и интерфейсов. Что особенно важно подчеркнуть, управление питанием и тактовой частотой производится независимо для процессорных ядер и графического ядра.

Совершенно новая версия технологии Turbo Boost реализована не в последнюю очередь благодаря этому контроллеру управления питанием. Дело в том, что, в зависимости от текущего состояния системы и сложности решаемой задачи, микроархитектура Sandy Bridge позволяет технологии Turbo Boost «разогнать» ядра процессора и встроенную графику до уровня, значительно превышающего TDP на достаточно долгое время. И действительно, почему бы не воспользоваться такой возможностью штатно, пока система охлаждения ещё холодная и может обеспечить больший теплоотвод, чем уже разогретая?

Кроме того, что технология Turbo Boost позволяет теперь штатно «разгонять» все четыре ядра за пределы TDP, также стоит отметить, что управление производительностью и тепловым режимом графических ядер в чипах Arrandale/Clarkdale, по сути, только встроенных, но не до конца интегрированных в процессор, производилось с помощью драйвера. Теперь, в архитектуре Sandy Bridge, этот процесс также возложен на контроллер PCU. Такая плотная интеграция системы управления напряжением питания и частотами позволила реализовать на практике гораздо более агрессивные сценарии работы технологии Turbo Boost, когда и графика, и все четыре ядра процессора при необходимости и соблюдении определённых условий могут разом работать на повышенных тактовых частотах со значительным превышением TDP, но без каких-либо побочных последствий.

Принцип работы новой версии технологии Turbo Boost, реализованной в процессорах Sandy Bridge, отлично описывается в мультимедийный презентации, показанной в сентябре на Форуме Intel для разработчиков в Сан-Франциско. Представленный ниже видеоролик с записью этого момента презентации расскажет вам о Turbo Boost быстрее и лучше, чем любой пересказ.

Каждое из четырёх ядер Sandy Bridge может быть при необходимости независимо переведено в режим минимального энергопотребления, графическое ядро также можно перевести экономичный режим. Кольцевая шина и КЭШ L3, в силу их распределения между другими ресурсами, не могут быть отключены, однако для кольцевой шины предусмотрен специальный экономичный ждущий режим, когда она не нагружена, а для КЭШ-памяти L3 применяется традиционная технология отключения неиспользуемых транзисторов, уже известная нам по предыдущим микроархитектурам. Таким образом, процессоры Sandy Bridge в составе мобильных ПК обеспечивают длительную автономную работу при питании от аккумулятора. Модули видеовыхода и мультимедийного аппаратного декодирования также входят в число элементов системного агента. В отличие от предшественников, где аппаратное декодирование было возложено на графическое ядро (о его возможностях мы поговорим в следующий раз), в новой архитектуре для декодирования мультимедийных потоков используется отдельный, гораздо более производительный и экономичный модуль, и лишь в процессе кодирования (сжатия) мультимедийных данных используются возможности шейдерных блоков графического ядра и КЭШ L3. Предусмотрены инструменты воспроизведения 3D-контента: аппаратный модуль декодирования Sandy Bridge способен без труда обрабатывать сразу два независимых потока MPEG2, VC1 или AVC в разрешении Full HD.

Таким образом, развитие ставшей традиционной архитектуры показано выше. Однако, процессоры с одной инструкцией в команде имеют свой потолок быстродействия. Будущее многим аналитикам видится в архитектуре команд с множественным числом инструкций – VLIW архитектуре. Компиляторы и разработчики команд сами подготавливают параллельные процессы, снимая напряженный режим проверки условия Рассела-Нарьяни с исполнительных устройств. Выше преимущества этих архитектур рассмотрены для архитектуры IA-64 – три поля инструкций и ЦПС - TMS320C6411 – восемь полей инструкций.

Большая перспектива и в распределенной обработке данных, решении фрагментов задач в сетевых средах майнфреймов и супер компьютеров. Кластер "СКИФ К-500", построенный в рамках совместной белорусско-российской программы "СКИФ" по развитию вычислительной техники, стал первой системой, созданной отечественными специалистами на базе архитектуры Intel, вошедшей в престижный список TOP500 самых производительных компьютерных систем планеты. Основой кластера стали 128 процессоров Intel Xeon с тактовой частотой 2,8 ГГц, которые объединены в 64 двухпроцессорных вычислительных узла, обладающих емкостью дисковой подсистемы в размере 60 ГБ каждый (общая емкость дисковой системы, таким образом, составляет 3840 ГБ). Кластер располагает 128 ГБ оперативной памяти, а его пиковая производительность составляет 716,8 гигафлопс (миллиардов операций с плавающей запятой). Кластер сдан в эксплуатацию в сентябре 2003 года. Предполагается, что кластер будет использоваться для высокопроизводительных вычислений в наукоемких отраслях промышленности, биологии, медицине, генетике, геологоразведке, для контроля за окружающей средой, прогнозирования погоды, решения транспортных и многих других задач. В ряде организаций и университетах Республики устанавливаются суперкомпьютеры. В БГУ суперкомпьютер "СКИФ К-1000-05" установлен в 2010 г.