Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Кармин Новиелло - Освоение STM32.pdf
Скачиваний:
2741
Добавлен:
23.09.2021
Размер:
47.68 Mб
Скачать

Управление Flash-памятью

565

стратегия замены редко используемых данных (Least Recently Used, LRU). Данная функция особенно полезна в случае кода, содержащего циклы.

Эту функцию можно включить, установив для макроса INSTRUCTION_CACHE_ENABLE значение 1 в файле stm32xxxx_hal_conf.h для тех микроконтрооллеров, которые предоставляют ускоритель ART™ Accelerator.

Кэш-память данных

Ассемблерные инструкции часто перемещают данные между ячейками памяти и регистрами ЦПУ. Иногда эти данные хранятся во Flash-памяти (они являются постоянными значениями): в этом случае мы говорим о литеральных пулах (literal pools). Литеральные пулы извлекаются из Flash-памяти через шину D-Bus на этапе выполнения конвейера ЦПУ. Следовательно, конвейер ЦПУ останавливается до тех пор, пока не будет предоставлен повторно запрашиваемый литеральный пул. Чтобы ограничить время, потерянное из-за литеральных пулов, доступы через шину данных D-Bus шины AHB имеют приоритет над доступом через шину инструкций I-Bus шины AHB (это и в самом деле алгоритм арбитража шин в отношении шины D-Bus).

Кроме того, выделенная кэш-память данных существует между шиной D-Bus и Flashпамятью. Данный кэш меньше кэша инструкций, но он помогает увеличить общую производительность ЦПУ. Эту функцию можно включить, установив для макроса

DATA_CACHE_ENABLE значение 1 в файле stm32xxxx_hal_conf.h для тех микроконтроллеров,

которые предоставляют ускоритель ART™ Accelerator.

21.5.1. Роль TCM-памятей в микроконтроллерах STM32F7

Организация памяти более новых и мощных микроконтроллеров STM32F7 заслуживает отдельного упоминания. Фактически, это семейство микроконтроллеров сталкивается с более сложной и гибкой организацией памяти и шины, предлагая два различных интерфейса для доступа к Flash-памяти и памяти SRAM: продвинутый расширяемый интерфейс (Advanced eXtensible Interface, AXI), являющийся спецификацией шины ARM, который соединяет ядро ЦПУ с другими периферийными устройствами; интерфейс тесносвязанной памяти (Tightly-Coupled Memory, TCM), который соединяет ядро ЦПУ с энергозависимой и энергонезависимой памятью, непосредственно связанными с ним. Оба интерфейса, AXI и TCM, следуют Гарвардской архитектуре, предоставляя отдельные линии для инструкций (I-Bus) и данных (D-Bus).

На рисунке 310 видно, что ядро Cortex-M7 имеет три разных пути доступа к контроллеру Flash-памяти (и, следовательно, к Flash-памяти). Прежде чем мы опишем эти три пути, важно отметить фундаментальную вещь: ядро Cortex-M7 уже имеет встроенный кэш L1. Этот кэш имеет два выделенных пула кэша, каждый размером 64 КБ, один для I-Bus и один для D-Bus: это отличается от других семейств STM32, где кэш данных и инструкций реализован исключительно внутри ускорителя ART™ Accelerator.

10 Рисунок взят из руководства по применению AN4667 от ST (http://www.st.com/content/ccc/resource/technical/document/application_note/0e/53/06/68/ef/2f/4a/cd/DM00169764.pdf/files/DM00169764.pdf/jcr:content/translations/en.DM00169764.pdf).

Управление Flash-памятью

566

Рисунок 3: Как осуществляется доступ к Flash-памяти в микроконтроллере STM32F7

Во всех микроконтроллерах STM32F7 Flash-память доступна через три основных интерфейса для чтения и/или записи:

64-разрядный интерфейс ITCM: соединяет встроенную Flash-память с ядром Cortex-M7 через шину ITCM (путь Path 1 на рисунке 3) и используется для выполнения программы и доступа к чтению значений литеральных данных. Доступ к записи во Flash-память через эту шину не разрешен. Flash-память доступна ЦПУ через ITCM, начиная с адреса 0x0020 0000. Встроенная Flash-память медленнее ядра ЦПУ, при этом ускоритель ART™ Accelerator позволяет выполнять доступ

кFlash-памяти с состоянием 0-ожиданий на частоте ЦПУ до 216 МГц. Ускоритель ART™ Accelerator микроконтроллера STM32F7 предназначен только для доступа

кFlash-памяти через интерфейс ITCM. Он реализует единый кэш инструкций и ветвей из 256 бит х 64 строки в STM32F74xxx и STM32F75xxx и 128/256 бит х 64 строки в устройствах STM32F76xxx и STM32F77xxx в соответствии с выбранным режимом банка11. Доступ через ускоритель ART™ Accelerator возможен как к инструкциям, так и к данным, что увеличивает скорость выполнения последовательного кода и циклов. Ускоритель ART™ Accelerator также предоставляет буфер предварительной выборки инструкций.

64-разрядный интерфейс AHB: соединяет встроенную Flash-память с ядром Cor- tex-M7 через мост AXI/AHB (путь Path 2 на рисунке 3). Он используется для выполнения кода, чтения и записи. Flash-память доступна ЦПУ через мост AXI/AHB, начиная с адреса 0x0800 0000, и она кэшируемая (то есть может использовать кэш L1), достигая того же состояния 0-ожиданий ускорителем ART™ Accelerator. Кэш L1 в ядрах Cortex-M7 может варьироваться от 4 КБ до 16 КБ. Микроконтроллеры STM32F74xxx и STM32F75xxx предоставляют два пула кэша: один для инструкций (I-Bus) и один для литеральных пулов (D-Bus), каждый размером 4 КБ. Вместо этого микроконтроллеры STM32F76xxx и STM32F77xxx предоставляют два пула кэша, каждый по 16 КБ. Кэши L1 на всех ядрах Cortex-M7 разделены на строки по 32 Байт. Каждая строка помечена адресом. Кэш данных является ассоциативным

11 Микроконтроллеры STM32F76xxx и STM32F77xxx обеспечивают двухканальную архитектуру с широкими возможностями настройки: микроконтроллер можно сконфигурировать для работы в двухбанковом режиме (два банка, каждый размером 512/1024 КБ) или в режиме одного банка (один банк размером 1024/2048 КБ). В первом случае кэш-память в ускорителе ART™ Accelerator разделена на две части, каждая из которых состоит из 128 бит х 64 строки. Если используется режим одного банка, пул кэша является единым и состоит из 256 бит х 64 строки.

Управление Flash-памятью

567

с 4 путями (по четыре строки в наборе), а кэш инструкций является ассоциативным с 2 путями. Это аппаратный компромисс, чтобы избежать необходимости помечать каждую строку адресом.

32-разрядный интерфейс AHB: используется для передачи через DMA из Flashпамяти (путь Path 3 на рисунке 3). Доступ к Flash-памяти через DMA осуществляется с адреса 0x0800 0000.

Существует четвертый путь Path 4 (см. рисунок 3) через интерфейс продвинутой периферийной шины (Advanced Bus Peripheral, AHBP), и он зарезервирован для доступа к регистрам периферийного устройства Flash-память внутри области отображения периферийных устройств 0x4000 0000.

Вчем преимущество этой явно сложной архитектуры? Если оба интерфейса Flashпамяти, то есть AXI/AHB и ITCM, обеспечивают выполнение с 0-ожиданий (один благодаря внутренней кэш-памяти L1 и один благодаря ускорителю ART™ Accelerator), почему мы должны вникать в эти сложности во время разработки микропрограммы?

Рисунок 4: Шинная матрица в микроконтроллере STM32F7

Ответ можно получить при рассмотрении архитектуры шинной матрицы микроконтроллера STM32F7, которая показана на рисунке 412. Как видите, шина AXI/AHB подключена к внутреннему кэшу L1 через интерфейс AXIM. Это означает, что доступ к некоторым периферийным устройствам на шине кэшируемый. И это касается контроллеров FMC и QuadSPI. Благодаря этой архитектуре можно использовать внешнюю память NVM для хранения данных или программного кода, используя кэш-память L1 объемом 64 КБ и имея параллельный доступ (без арбитража шины) к внутренней Flash-памяти через интерфейс ITCM и ускоритель ART™ Accelerator. Это приводит к значительному повышению производительности для устройств, использующих много памяти для

12 Рисунок взят из руководства по применению AN4667 от ST (http://www.st.com/content/ccc/resource/technical/document/application_note/0e/53/06/68/ef/2f/4a/cd/DM00169764.pdf/files/DM00169764.pdf/jcr:content/translations/en.DM00169764.pdf).

Управление Flash-памятью

568

хранения изображений, видео и мультимедийного контента в целом, а также большие таблицы с постоянными данными, такие как FFT IV.

Уровень CMSIS для микроконтроллеров на базе Cortex-M7 определяет специальный набор процедур для управления кэш-памятью L1 ядра Cortex-M7 (см. таблицу 6).

Таблица 6: Функции CMSIS для манипулирования кэшами L1 ядра Cortex-M7

Функция CMSIS-F7

Описание

 

 

void SCB_EnableICache(void)

Инвалидация и затем включение кэша инструкций

void SCB_DisableICache(void)

Отключение кэша инструкций и выполнение инва-

 

лидации его содержимого

void SCB_InvalidateICache(void)

Выполнение инвалидации кэша инструкций

void SCB_EnableDCache(void)

Инвалидация и затем включение кэша данных

void SCB_DisableDCache(void)

Отключение кэша данных, а затем выполнение

 

очистки и инвалидации его содержимого

void SCB_InvalidateDCache(void)

Выполнение инвалидации кэша данных

void SCB_CleanDCache(void)

Очистка кэша данных

void SCB_CleanInvalidateDCache(void)

Очистка и выполнение инвалидации кэша данных

Рисунок 5: Четыре памяти SRAM, доступные в микроконтроллерах STM32F7

Взглянув на рисунок 513, следует отметить еще один важный момент. Как видите, микроконтроллер STM32F7 предлагает четыре отдельных памяти SRAM, доступных через три отдельных пути:

ОЗУ инструкций (ITCM-RAM), отображаемое по адресу 0x0000 0000 и доступная только для ядра, то есть через путь Path 1 на рисунке 5. Доступ к нему побайтный,

13 Рисунок взят из руководства по применению AN4667 от ST (http://www.st.com/content/ccc/resource/technical/document/application_note/0e/53/06/68/ef/2f/4a/cd/DM00169764.pdf/files/DM00169764.pdf/jcr:content/translations/en.DM00169764.pdf).

Управление Flash-памятью

569

полусловный (16 бит), пословный (32 бита) или к двойному слову (64 бита). К ITCM-RAM можно обращаться с максимальной тактовой частотой ЦПУ без задержки. ITCM-RAM защищено от конфликтов шины, так как только ЦПУ может получить доступ к этой области ОЗУ. Память ITCM-RAM играет ту же роль, что и CCM-память в других микроконтроллерах STM32.

ОЗУ данных (DTCM-RAM), отображаемое на интерфейс TCM по адресу 0x2000 0000 и доступное для всех ведущих устройств на шине AHB шиной матрицы AHB: ЦПУ через шину DTCM (путь Path 5 на рисунке 5) и через DMA по специальному «мосту» AHBS в ядре Cortex-M7 (путь Path 6 на рисунке 5). Доступ к нему побайтный, полусловный (16 бит), пословный (32 бита) или к двойному слову (64 бита). Доступ к памяти DTCM-RAM без задержки при максимальной тактовой частоте ЦПУ. Одновременный доступ к DTCM-RAM ведущими устройствами (ядро и DMA) и их приоритет могут обрабатываться регистром управления ведомыми устройствами (slave control register) ядра Cortex-M7 (регистр

CM7_AHBSCR). По сравнению с другими ведущими устройствами (DMA) более высокий приоритет для доступа к DTCM-RAM может быть отдан ЦПУ. Подробнее об этом регистре см. справочное руководство “ARM Cortex-M7 processor Technical Reference Manual”.

SRAM1, доступное всем ведущим устройствам на шине AHB шинной матрицы AHB, то есть для всех DMA общего назначения, а также для специализированных DMA. Доступ к SRAM1 побайтный, полусловный (16 бит) или пословный (32 бита). Обратитесь к рисунку 5 (путь Path 7) за возможными обращениями к SRAM1. Данная память может использоваться для загрузки/хранения данных, а также для выполнения кода (несмотря на то что она не обеспечивает какого-либо особого повышения производительности).

SRAM2, доступное всем ведущим устройствам на шине AHB шинной матрицы AHB. Все DMA общего назначения, а также специализированные DMA могут получить доступ к данной области памяти. Доступ к SRAM2 побайтный, полусловный (16 бит) или пословный (32 бита). Обратитесь к рисунку 5 (путь Path 8) за возможными обращениями к SRAM2. Данная память может использоваться для загрузки/хранения данных, а также для выполнения кода (несмотря на то что она не обеспечивает какого-либо особого повышения производительности).

Рисунок 6: Контроллеры внешней памяти FMC и QuadSPI

В дополнение к внутренней Flash-памяти и памяти SRAM, пулы памяти STM32F7 могут быть расширены с помощью контроллера внешней памяти (Flexible Memory Controller,

Управление Flash-памятью

570

FMC) и контроллера Quad-SPI. На рисунке 614 показаны пути, соединяющие ЦПУ с этими внешними памятями через шину AXI. Как показано на рисунке 6, внешняя память может использовать кэш L1 ядра Cortex-M7, достигая максимума производительности как при загрузке/хранении данных, так и во время выполнения кода. Кэш-память L1 ядра Cortex-M7 обеспечивает значительное улучшение производительности микроконтроллеров STM32F7 по сравнению с STM32F4 с такими же внешними контроллерами памяти.

В таблице 7 приведены типы памяти, как внутренней, так и внешней по отношению к микроконтроллеру, доступные в STM32F74xxx/STM32F75xxx. Таблица показывает объем этих памятей, их адрес отображения и интерфейс шины, используемый для доступа к ним. Например, вы можете увидеть, что диапазон адресов 0x0020 0000 – 0x002F FFFF позволяет получить доступ к внутренней Flash-памяти через интерфейс ITCM, который является кэшируемым благодаря ускорителю ART™ Accelerator. В таблице 8 приведены те же памяти для микроконтроллеров STM32F76xxx/STM32F77xxx (характеристики FMC и QSPI одинаковы, поэтому они не перечислены в таблице 8).

Для получения дополнительной информации по этим темам настоятельно рекомендуется взглянуть на руководство по применению AN4667 от ST15.

Таблица 7: Отображение памяти и размеры в микроконтроллерах STM32F74xxx/STM32F75xxx

14 Рисунок взят из руководства по применению AN4667 от ST (http://www.st.com/content/ccc/resource/technical/document/application_note/0e/53/06/68/ef/2f/4a/cd/DM00169764.pdf/files/DM00169764.pdf/jcr:content/translations/en.DM00169764.pdf).

15http://www.st.com/content/ccc/resource/technical/document/application_note/0e/53/06/68/ef/2f/4a/cd/DM00169764.pdf/files/DM00169764.pdf/jcr:content/translations/en.DM00169764.pdf

Управление Flash-памятью

571

Таблица 8: Отображение памяти и размеры в микроконтроллерах STM32F76xxx/STM32F77xxx

21.5.1.1.Как обратиться к Flash-памяти через интерфейс TCM

Общий вопрос для всех новичков платформы STM32F7 – как воспользоваться преимуществом интерфейса TCM. Это явно работа скрипта компоновщика, который должен перераспределить адреса областей .text, .bss и .data, используя в качестве базовых адресов адреса, указанные в таблицах 7 и 8.

Однако эта операция не может быть легко выполнена путем изменения начального адреса области FLASH в скрипте компоновщика. Все потому, что, как уже было сказано, доступ в режиме записи через интерфейс ITCM не разрешен. Это означает, что OpenOCD или любой другой эквивалентный отладчик не сможет загрузить программный код, используя диапазон адресов 0x0020 0000 – 0x002F FFFF. Чтобы устранить это ограничение, нам нужно отделить диапазон адресов VMA от диапазона LMA так же, как мы это делали для области .data. Например, следующий фрагмент скрипта компоновщика показывает, как выполнить данную операцию.

1/* Задание областей памяти */

2MEMORY {

3ITCM_FLASH (rx): ORIGIN = 0x00200000, LENGTH = 1024K

4AXI_FLASH (rx): ORIGIN = 0x08000000, LENGTH = 1024K

5RAM (xrw) : ORIGIN = 0x20000000, LENGTH = 320K

6}

7

8/* Определение секций на выходе */

9SECTIONS

10{

11/* Сначала во FLASH помещается код запуска (startup) */

12.isr_vector :

13{

14. = ALIGN(4);

15KEEP(*(.isr_vector)) /* Код запуска */

16. = ALIGN(4);

17} >ITCM_FLASH AT>AXI_FLASH

18

19/* Программный код и другие данные помещаются во FLASH */

20.text :

21{

22. = ALIGN(4);

Управление Flash-памятью

572

23*(.text) /* секции .text (код) */

24*(.text*) /* секции .text* (код) */

26KEEP (*(.init))

27KEEP (*(.fini))

29. = ALIGN(4);

30_etext = .; /* определение глобальных символьных имен в конце кода */

31} >ITCM_FLASH AT>AXI_FLASH

32

33/* Постоянные данные помещаются во FLASH */

34.rodata :

35{

36. = ALIGN(4);

37*(.rodata) /* секции .rodata (константы, строки, и т.д.) */

38*(.rodata*) /* секции .rodata* (константы, строки, и т.д.) */

39. = ALIGN(4);

40} >ITCM_FLASH AT>AXI_FLASH

Как видите (посмотрите на строки 17, 31 и 40), диапазон адресов VMA (то есть диапазон адресов, используемый ЦПУ для выборки программного кода) отображается на интерфейс ITCM-FLASH, тогда как диапазон адресов LMA (диапазон адресов, используемый для хранения программы во Flash-памяти), отображается на интерфейс AXI, позволяющий обращаться к Flash-памяти в режиме записи.

21.5.1.2.Использование CubeMX для конфигурации интерфейса

Flash-памяти

CubeMX упрощает конфигурацию шины, используемой для доступа к Flash-памяти

(TCM/AXI), ускорителя ART™ Accelerator и кэша L1 ядра Cortex-M7. Перейдя в раздел

Configuration и нажав кнопку Cortex-M7, можно сконфигурировать данные параметры, как показано на рисунке 7.

Рисунок 7: Представление Cortex-M7 Configuration в CubeMX

Управление Flash-памятью

573

Обратите внимание, что на момент написания данной главы (август 2016 г.) генерируемый скрипт компоновщика был неправильным, поскольку он не задавал отдельные адреса LMA и VMA, как показано в предыдущем параграфе.