2.9.Технология Intel Hyper-Threading

2.9.1.Увеличение производительности

Есть ряд задач (серверные приложения, научные вычисления, моделирование и т.д.), где рост производительности, особенно центральных процессоров, всегда желателен. Каковы же способы увеличения производительности?

Увеличение тактовой частоты - это непросто и чревато побочными эффектами, например перегревом процессора.
Наращивание ресурсов процессора - например, увеличение кэш, введение новых модулей выполнения. Все это увеличивает число транзисторов, усложняет процессор, увеличивает поверхность кристалла, и поэтому повышает цену процессора.
Многопроцессорная обработка. Установка нескольких центральных процессоров и распределение загрузки среди них часто эффективна, но такой подход не дешев - каждый дополнительный процессор поднимает стоимость системы; кроме того, двухпроцессорная motherboard дороже обычной. Пока список прикладных программ, рассчитанных на многопроцессорный режим, недостаточно велик, чтобы оправдать подобные расходы.

Кроме чисто многопроцессорной конфигурации есть некоторые промежуточные решения:

Многопроцессорная обработка на чипе (СМР) - на чипе расположены два ядра процессора, каждый использует общий или отдельный кэш. Такой chip по размерам весьма велик, и это сказывается на цене. Несколько таких центральных процессоров могут также работать в многопроцессорной системе.
Time-Slice Multithreading (многопоточность на интервалах). Процессор переключается между потоками в установленные интервалы времени. Потери могут быть очень велики, особенно если один из процессов находится в состоянии ожидания.
Switch-on-Event Multithreading (многопоточность с переключением по событию) Переключение задач в случае долгих пауз, (например, неудачные обращения в кэш), большое число которых типично для приложений - серверов. В этом случае ожидание данных, читаемых из относительно медленной кэш-памяти останавливается, и ресурсы центрального процессора передаются другим процессам. Однако оба последних метода многопоточности не всегда обеспечивают оптимальное использование ресурсов центрального процессора - в частности, из-за ошибок в предсказании ветвлений, зависимости команд и т.д.
Simultaneous Multithreading (одновременная многопоточность). В этом случае потоки выполняются на одном процессоре одновременно, не переключаясь между ними. Ресурсы центрального процессора распределяются динамически, то есть "если Вы не используете ресурс - его отдают другой задаче". Этот подход - основа технологии Intel Hyper-Threading.

2.9.2.Механизм Hyper-Threading

Работа персонального компьютера подразумевает многопоточные вычисления. Это касается не только серверов, но также и рабочих станций и настольных систем. Потоки выявляются в одном или нескольких приложениях. Есть почти всегда больше одного активного потока (чтобы удостовериться - откройте в Windows 2000/XP Менеджер Задач и отобразите список потоков). В то же самое время обычный процессор может выполнить только один поток одновременно и должен постоянно переключаться между ними.

Одной из полезных особенностей архитектуры процессора Pentium 4 является возможность достижения очень высоких тактовых частот. Отлаживая технологию производства, корпорация Intel может постепенно наращивать частоту процессора. Что она и делает, с завидной периодичностью объявляя все новые и новые модели Pentium 4. Технология Hyper-Threading в настольных компьютерах впервые была реализована при выпуске процессора 3.06 ГГц и открыла практику многопроцессорной обработки на обычных персональных компьютерах.

Организация поступления в процессор нескольких потоков команд, позволяющих эффективнее использовать его ресурсы, в предыдущих моделях Pentium была возложена на само процессорное ядро. А если возложить эту задачу на программное обеспечение, например на операционную систему - заставить ее думать, что в системе имеется не один, а два процессора? Тогда команды станут поступать в двух независимых друг от друга потоках, гарантированно подходящих для параллельной обработки. Процессор сможет выделять потокам ресурсы по мере их освобождения, выполняя работу за двоих. Прирост скорости будет обусловлен тем, что процессор будет работать эффективнее.

Технология Hyper-Threading была сначала реализована в процессоре Intel Xeon(MP). Процессор Intel Xeon(MP), появившийся весной 2002 г., использует ядро, подобное Pentium 4 Willamette (256 Кб кэш второго уровня, 1 Мб..512 Кб кэш третьего уровня) и поддерживает конфигурации с 4 процессорами. Поддержка Hyper-Threading также доступна в процессоре для рабочих станций - Intel Xeon (ядро Prestonia, 512 Кб кэш второго уровня), который появился на рынке ранее, чем Intel Xeon(MP).

Hyper-Threading основана на том принципе, что в каждый момент времени только часть ресурсов процессора используется для выполнения кода программы. Неиспользованные ресурсы также могут быть задействованы, например для параллельного выполнения другого приложения (или другого потока того же самого приложения). Один физический процессор формирует два логических процессора (LP), которые совместно используют вычислительные ресурсы центрального процессора. На самом деле внутри процессора нет двух вычислительных ядер, как, например, в серверном процессоре IBM POWER4. Удвоены только массивы регистров - как общего назначения, так и служебных.

Операционная система и приложения видят два центральных процессора и могут распределить загрузку работы между ними, как в нормальной двухпроцессорной системе.

Одна из реализаций Hyper-Threading - только с одним активным потоком, чтобы обеспечить его выполнение с той же скоростью, что и на обычном центральном процессоре. Именно поэтому процессор имеет два главных режима:

Однозадачный (ST) и Многозадачный (МТ)

В режиме ST только один логический процессор активен: тот, который использует доступные ресурсы полностью (режимы ST0 и ST1); другой LP остановлен командой HALT. Когда появляется второй поток, второй LP включается (по прерыванию), и физический центральный процессор переключается в режим МП. Останов неиспользуемого LP осуществляется операционной системой, которая отвечает за выполнение одного потока в монопольном режиме (без Hyper-Threading).

Каждый из двух LP имеет архитектурный статус (AS), который включает регистры различных типов: универсальные, управления, расширенного программируемого контроллера прерываний (APIC) и сервисные. Каждый LP имеет собственный контроллер прерываний и набор регистров. Для правильного обращения к ним имеется Таблица Псевдонимов Регистров (Register Alias Table - RAT), которая прослеживает соответствие между 8 универсальными регистрами 32-разрядной архитектуры (IA-32) и 128 регистрами физического центрального процессора (одна RAT для каждого LP).

Когда выполняются два потока, одновременно готовятся два следующих указателя инструкций. Большинство команд извлекаются из кэш трассировки (ТС), где они хранятся в декодированной форме; два активных LP обращаются к ТС, каждый в своем цикле. В то же самое время, когда только один LP активен, он монопольно обращается к ТС. Доступ к ROM микропрограмм аналогичен.

Модуль ITLB (буфер предыстории трансляции команды) используется, когда требуемые команды отсутствуют в кэш команд. Его содержимое дублируется, и код команды передается соответствующему потоку. Блок декодирования инструкций архитектуры IA-32 является разделяемым; когда декодирование команд требуется каждому потоку, блок обслуживает их поочередно (в цикле).

Очередь Uop и блок распределения расщеплены на два подблока и предоставляют половину элементов для каждого LP. Пять планировщиков обрабатывают очереди декодированных команд (Uops), несмотря на то что они принадлежат разным LP (LP0/LP1) и передают команды соответствующим модулям выполнения (Execution Units) - в зависимости от готовности выполнения предыдущих и доступности последней команды. Кэш всех уровней являются полностью общими для логических процессоров, хотя для обеспечения целостности данных входы в DTLB (буфер предыстории конвертирования данных) имеют описатели в форме идентификаторов логических процессоров.

Таким образом, команды обоих логических процессоров могут быть выполнены, одновременно используя ресурсы одного физического процессора. Ресурсы подразделяются на 4 класса:

дублированные;
полностью разделяемые;
с помеченным входом;
разделяемые в зависимости от режима выполнения - ST0/ST1 или МТ.

Большинство приложений, которые работают быстрее в многопроцессорных системах, выигрывают и на центральном процессоре с Hyper-Threading без дополнительных модификаций приложений. Но могут быть проблемы: например, если один из процессов находится в цикле ожидания, он может использовать все ресурсы физического центрального процессора и блокировать второй LP. Таким образом, работа с Hyper-Threading может даже дать падение производительности (до 20 %).

Для предотвращения этого эффекта Intel рекомендует использовать команду PAUSE вместо пустых циклов ожидания (появилась в инструкциях IA-32 для Pentium 4). Кроме того, над автоматической и полуавтоматической оптимизацией кода теперь много работают - например, Intel OpenMP C++ / ФОРТРАН; ряд компиляторов достиг здесь большого успеха.

Другая цель Intel при развитии технологии Hyper-Threading состояла в том, чтобы число транзисторов, поверхность кристалла и потребляемая мощность росли намного медленнее при значительном увеличении эффективности. Hyper-Threading в Xeon /Xeon MP увеличило поверхность и потребляемую мощность только на 5 % при резком приросте производительности.

<<< < Предыдущая 1 2 3 4 5 6 78 / 418 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
23.09.2019437.76 Кб37Производство печатных плат.doc
#
19.09.2019920.58 Кб20Происхождение психологии.doc
#
09.04.201526.3 Кб50Пропущенные учебные вопросы четвёртой лекции.docx
#
01.05.2025107.52 Кб4Простые проценты.doc
#
27.08.2019115.51 Кб23протоколы_Интерн1.docx
#
01.03.20252.15 Mб4Процессоры и Organizaciya_evm_i_stud.doc
#
01.05.202563.85 Кб2Психологическая характеристика типов темперамен...docx
#
01.05.2025188.39 Кб0психология вся.rtf
#
01.04.2025262.14 Кб3ПСИХОЛОГИЯ И ПЕДАГОГИКА.doc
#
09.04.201576.29 Кб82Психология семейных отношений.doc
#
01.04.2025671.23 Кб7Психология управления тесты.doc