| Форум РадиоКот https://radiokot.ru/forum/ |
|
| Небольшая оптимизация https://radiokot.ru/forum/viewtopic.php?f=59&t=186014 |
Страница 1 из 1 |
| Автор: | VladislavS [ Вс дек 18, 2022 13:42:04 ] |
| Заголовок сообщения: | Небольшая оптимизация |
Как говорится, любую прошивку можно сделать на байт короче. Так говорили в эпоху 8-биток. Сейчас на 32-битках, наверное, на все 4 байта. Возился тут как-то с RISC-V. Исследовал особенности архитектуры - доступ к CSR, выравнивание, байтовый и пословный доступ. На включении кварца подумалось, а почему бы на Cortex-M в лице STM32 то же самое не делать? Подумано - сделано. Докладываю результаты. Берём первый попавшийся STM32 и разными способами включаем кварцевый резонатор. Для этого надо установить один бит в регистре RCC_CR. Большинство (в библиотеках STM скорее всего так же) напишет вот так Код: RCC->CR |= RCC_CR_HSEON; 0x4840 LDR.N R0, [PC, #0x100] ; 0x4002'1000 0x6802 LDR R2, [R0] 0xf442 0x3280 ORR.W R2, R2, #65536 ; 0x1'0000 0x6002 STR R2, [R0] data: DC32 0x40021000 Итого: 14 байт - чтение из памяти программ, чтение регистра периферии, логическая операция и запись обратно в регистр периферии. Хотелось бы оптимальнее. Воспользуемся тем, что мы при включении питания (а по хорошему вообще всегда) знаем полное состояние RCC_CR. И просто запишем это значение с взыдённым битом HSE_ON. Получается так Код: RCC->CR = _VAL2FLD(RCC_CR_HSITRIM,16) | RCC_CR_HSION | RCC_CR_HSEON; Те же 14 байт, но теперь это два чтения из памяти программ и запись в регистр периферии. Разменяли чтение регистра периферии и логическую операцию на чтение из памяти программ. Выполняться будет на несколько тактов быстрее. 0x483f LDR.N R0, [PC, #0xfc] ; 0x4002'1000 0x4a3f LDR.N R2, [PC, #0xfc] ; 0x1'0081 (65665) 0x6002 STR R2, [R0] data: DC32 0x40021000 DC32 0x10081 До сегодняшнего дня у меня в коде так и было и кочевало из контроллера в контроллер. Но ведь можно ещё лучше сделать. Попробуем, сработает ли с байтовым доступом? Код: *((volatile uint8_t *)&RCC->CR+2) = RCC_CR_HSEON>>16; И того: 10 байт - загрузка короткой константы в регистр процессора, одно чтение из памяти программ и одна запись в регистр периферии. Сработало. Ещё минус несколько таков и 4 байта кода!0x2201 MOVS R2, #1 0x483e LDR.N R0, [PC, #0xf8] ; 0x4002'1000 0x7082 STRB R2, [R0, #0x2] data: DC32 0x40021000 Замечания: 1. Загрузка адреса регистра RCC_CR принадлежит не только операции включения кварца, а всему блоку работы с RCC. Дальше по коду наверняка будет включение PLL и это всё та же байтовая запись в старший байт того же RCC_CR не задевая младших. 2. Не вся периферия поддерживает байтовый доступ. Нужно читать документацию или пробовать. Вложение:
|
|
| Автор: | MLX90640 [ Вс дек 18, 2022 14:35:36 ] |
| Заголовок сообщения: | Re: Небольшая оптимизация |
Ну что ж, поздравляю конечно же. Однако, всю эту прелесть сэкономленных пары-тройки тактов с лихвой обгадит время запуска кварца и выхода его на рабочий режим. И вы обязаны проверять флаг готовности HSE, поскольку если кварц сдох или просто не вышел на рабочий режим, а вы переключаетесь на него, то всей дальнейшей работе придет гитлер-капут. |
|
| Автор: | MLX90640 [ Вс дек 18, 2022 15:55:59 ] |
| Заголовок сообщения: | Re: Небольшая оптимизация |
Ну лично я бы сделал (да иногда и делал) проще - через бит-бандинг (в тем МК, где он есть) - отдельное включение/выключение бита, отдельная проверка состояния бита. Это уж если настолько заэкономиться. Хотя такой экономный подход лучше применять там, где он действительно будет заметен, например при частых вкл/выкл одного бита, например в таймерах, в SPI, еще в чем-то. |
|
| Автор: | VladislavS [ Пн дек 19, 2022 09:15:20 ] |
| Заголовок сообщения: | Re: Небольшая оптимизация |
Однако, всю эту прелесть сэкономленных пары-тройки тактов с лихвой обгадит время запуска кварца и выхода его на рабочий режим. И вы обязаны проверять флаг готовности HSE, поскольку если кварц сдох или просто не вышел на рабочий режим, а вы переключаетесь на него, то всей дальнейшей работе придет гитлер-капут. Как это вообще связано с командой включения кварца? Сэкономленные такты и байты куда-то пропадут? Нет.Ну лично я бы сделал (да иногда и делал) проще - через бит-бандинг (в тем МК, где он есть) Во-первых, Cortex-M3/M4 это далеко не все кортексы. А то что я описал и на RISC-V работает. Во-вторых, не всегда нужно один бит изменять.Хотя такой экономный подход лучше применять там, где он действительно будет заметен, например при частых вкл/выкл одного бита, например в таймерах, в SPI, еще в чем-то. А если подумать? Работа с периферией обычно не ограничивается одним регистром. В любом случае загружается базовый адрес периферийного модуля и от него идёт относительная адресация к разным регистрам. Ради одного бита загружать ещё один адрес? Антиэкономия какая-то.
|
|
| Автор: | MLX90640 [ Пн дек 19, 2022 11:08:18 ] |
| Заголовок сообщения: | Re: Небольшая оптимизация |
А если подумать? Сэкономленные три такта растворятся в вариациях времени запуска кварца. Вы просто не в том месте начали оптимизировать. Хотя конечно хорошо, что вы наконец-то открыли для себя побайтовый доступ, это вам пригодится в будущем. Ну и не стоит натягивать универсальный шаблон поведения на разные микроконтроллеры. Надо быть гибким и мыслить всегда в конкретной плоскости, а не философствовать о сферических конях в вакууме. Успешный программист - он всегда гибкий и применяющий конкретные методы из своего арсенала в различных задачах. А тот, кто пытается, образно говоря, натянуть одинаковые трусы на все существующие жопы мира, он потратит кучу времени и создаст нечто хреново-безобразное и кривое. |
|
| Автор: | VladislavS [ Пн дек 19, 2022 12:01:49 ] |
| Заголовок сообщения: | Re: Небольшая оптимизация |
А если подумать? Сэкономленные три такта растворятся в вариациях времени запуска кварца. Не растворятся. Время будет всегда меньше на эти такты. А байты то хоть не растворятся? Вы просто не в том месте начали оптимизировать. С чего вы взяли что я только начал оптимизировать? У меня в библиотеках давно вот такие методы естьСпойлерКод: template<uint32_t mask> static inline void WriteReg32(pVU32 reg, uint32_t value) { if constexpr (mask==0) return; if constexpr (mask == 0xFFFF'FFFF) *reg = value; else if constexpr (mask == 0x0000'FFFF) *pVU16(reg) = value; else if constexpr (mask == 0xFFFF'0000) *(pVU16(reg) + 1) = value >> 16; else if constexpr (mask == 0x0000'00FF) *pVU8(reg) = value; else if constexpr (mask == 0x0000'FF00) *(pVU8(reg) + 1) = value >> 8; else if constexpr (mask == 0x00FF'0000) *(pVU8(reg) + 2) = value >> 16; else if constexpr (mask == 0xFF00'0000) *(pVU8(reg) + 3) = value >> 24; else if constexpr ((mask & 0xFFFF'FF00)==0) *pVU8(reg) = (*pVU8(reg) & ~mask) | value; else if constexpr (!(mask & 0xFFFF'00FF)) *(pVU8(reg) + 1) = (*(pVU8(reg) + 1) & ~(mask >> 8)) | (value >> 8); else if constexpr (!(mask & 0xFF00'FFFF)) *(pVU8(reg) + 2) = (*(pVU8(reg) + 2) & ~(mask >> 16)) | (value >> 16); else if constexpr (!(mask & 0x00FF'FFFF)) *(pVU8(reg) + 3) = (*(pVU8(reg) + 3) & ~(mask >> 24)) | (value >> 24); else if constexpr (!(mask & 0xFFFF'0000)) *pVU16(reg) = (*pVU16(reg) & ~mask) | value; else if constexpr (!(mask & 0x0000'FFFF)) *(pVU16(reg) + 1) = (*(pVU16(reg) + 1) & ~(mask >> 16)) | (value >> 16); else *reg = (*reg & ~mask) | value; } Хотя конечно хорошо, что вы наконец-то открыли для себя побайтовый доступ, это вам пригодится в будущем. Думаете таким мелким хамством меня задеть? Да чхать я хотел. Клоном больше, клоном меньше...Ну и не стоит натягивать универсальный шаблон поведения на разные микроконтроллеры. Почему бы нет? Если они работают на разных контроллерах.Надо быть гибким и мыслить всегда в конкретной плоскости, а не философствовать о сферических конях в вакууме. То то вас c одной конкретной темы на "гитлер капут" понесло.Успешный программист - он всегда гибкий и применяющий конкретные методы из своего арсенала в различных задачах. Флаг в руки!А тот, кто пытается, образно говоря, натянуть одинаковые трусы на все существующие жопы мира, он потратит кучу времени и создаст нечто хреново-безобразное и кривое. Жопы и анал это не ко мне, а к Eddy_Em.
|
|
| Автор: | MLX90640 [ Пн дек 19, 2022 23:34:35 ] |
| Заголовок сообщения: | Re: Небольшая оптимизация |
А если подумать получше? Время запуска кварца нестабильно, зависит от внешней среды, а она изменичива. Время запуска кварца значительно превышает те пару-тройку сэкономленных тактов, а разброс времени запуска и вовсе съест экономию чисто из-за разброса. Вы бы знали это, если бы больше практиковались. Зря вы обижаетесь, зря! Я вам добра желаю и подсказываю, что где и как работает. Оптимизировать такты нужно там, где постоянно дергается один бит в цикле. Например, тот же самый SPI в полудуплексном режиме, когда идет смена направления передачи. Многие устройства работают по полудуплексному SPI, и чтобы прочитать регистр из устройства, нужно сначала передать в него адрес регистра, затем перевести интерфейс на прием и принимать байты. |
|
| Автор: | VladislavS [ Вт дек 20, 2022 09:25:48 ] |
| Заголовок сообщения: | Re: Небольшая оптимизация |
На пальцах. Код: // (1) Включить HSE Команда N3 полностью "съедает" все такты (не только сэкономленные) команды N2, но не команды N1. И никак не влияет на сэкономленные байты обеих команд.
WriteReg32<0x00FF'0000>(&RCC->CR, RCC_CR_HSEON); // (2) Включить FPU WriteReg32<0x00FF'0000>(&SCB->CPACR, 0x00F0'0000); // (3) Ждать включения HSE while(!(RCC->CR & RCC_CR_HSERDY)); |
|
| Автор: | MLX90640 [ Вт дек 20, 2022 17:42:30 ] |
| Заголовок сообщения: | Re: Небольшая оптимизация |
А вы молодец, что шуршите байтиками головного мозга Вот на практике, по результатам 4-х измерений: ![]() Как видно, время запуска кварца в среднем чуть больше 300 мкс (более 2400 тактов при HSI 8 МГц), а вариации в четырех попытках даже в одних и тех же условиях составляют 7 мкс или 56 тактов при HSI 8 МГц. Если частота HSI будет 16 МГц, то разница будет еще более заметна. А сколько сэкономили вы? Пусть даже 20 тактов. Всё равно они отбиваются вариациями времени запуска, особо заметными при изменении температуры и питания. И вы сами можете в этом убедиться, конечно если у вас вообще есть осциллограф или лог.анализатор, и вообще есть микроконтроллер в железе Ну а когда дорастете до запуска "часового" LSE, поразитесь еще больше - время запуска и его вариации измеряются аж в секундах! Вот так то! Это, брат, не теория, это практика, суровая и беспощадная А вот вам еще тема для "подумать, поковыряться": зачем сделано прерывание по готовности HSE? Показанное время его запуска и кол-во тактов ожидания как бы проясняют и намекают на ответ В общем, пожелание - в наступающем году купите лог.анализатор и отладочную плату и потыкайте всё это на практике. Ну, с новым годом, удачи! |
|
| Автор: | VladislavS [ Ср дек 21, 2022 08:24:25 ] |
| Заголовок сообщения: | Re: Небольшая оптимизация |
Поразительно. Столько энергии тратить чтобы доказать, что бесплатное уменьшение размера прошивки и увеличение скорости исполнения команды это плохо. Даже какую-то диаграмму, совершенно не относящуюся к делу, снял зачем-то. Она показвает время исполнения команды? Нет. Может размер прошивки на ней видно? Тоже нет. Показывает, что у дяди на работе есть дешёвенький осциллограф и неумение поставить эксперимент. А все эти рассуждения о наличии у меня приборов, отладочных плат, автомобилей, яхт и т.д. это банальное хамство, которым прикрывается отсутствие аргументов. Остаётся только сожалеть, что модератор покрывает это. PS: Человек мало мальски разбирающийся в вопросе спросил бы: а какое ядро процессора, есть ли там конвейер, кэши, предвыборка, предсказание переходов и т.д. А "форумный эксперд" будет время запуска кварца измерять зачем-то... |
|
| Автор: | MLX90640 [ Ср дек 21, 2022 09:33:25 ] |
| Заголовок сообщения: | Re: Небольшая оптимизация |
Долго ж вы думали, как ответить. Вчера зашли, прочитали, задумались и ушли, долго примеряли то да сё, пытаясь хоть чето вкурить, сегодня поняли, что ничерта не врубились и за неимением адекватных аргументов, решили что лучше будет просто нахамить, чем признаться в своей неправоте. Даже когда наглядно показал вам время запуска кварца, вы все ещё ничего не поняли. Это говорит о том, что вы совершенно оторваны от практики и не способны осознать физические явления. Ну и судя по тому, что не умеете прочесть и понять цифры, то ни осциллом, ни анализатором вы не пользовались. Иначе бы поняли! Никакие кэши и предсказания переходов не помогут, когда время ФИЗИЧЕСКОГО запуска кварца более 2 тыс тактов. Вы это не можете осознать просто потому, что не пробовали вживую в железе И прекращайте хамить и ябидничать уже! С вами тут цацкаются, а вы ведёте себя как хамло какое-то форумное. Некрасиво это, некрасиво. Ели вы считаете, что задето ваше непогрешимое ЧСВ, ну что ж поделать, напишите все ваши претензии и недовольства на бумажке и сходите с ней в туалэт типа сортир |
|
| Автор: | AVI-crak [ Ср дек 21, 2022 21:44:55 ] |
| Заголовок сообщения: | Re: Небольшая оптимизация |
Как видно, время запуска кварца в среднем чуть больше 300 мкс (более 2400 тактов при HSI 8 МГц), а вариации в четырех попытках даже в одних и тех же условиях составляют 7 мкс или 56 тактов при HSI 8 МГц. Кстати , за 2400 тактов можно успеть настроить 20 ног самым топорным способом. Ну или все сразу загрузкой массива. Оптимизацией приходится заниматься когда прижмёт, ну или когда слишком много свободного времени. Я для этих целей использую https://godbolt.org/z/7hro4zPPz , там очень удобно в плане быстрого переключения между разными мк и компиляторами. Самый уродливый код получается на старой авр (чисто поржать). VladislavS - забей на этот бит-бандинг, с ним у тебя будут большие проблемы на старших чипах. |
|
| Автор: | VladislavS [ Ср дек 21, 2022 22:21:29 ] |
| Заголовок сообщения: | Re: Небольшая оптимизация |
VladislavS - забей на этот бит-бандинг, с ним у тебя будут большие проблемы на старших чипах. Вы что-то путаете, ни разу в жизни не пользовался бит-бандингом.
|
|
| Страница 1 из 1 | Часовой пояс: UTC + 3 часа |
| Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group http://www.phpbb.com/ |
|



