在嵌入式开发中,性能优化是一个永恒的话题。无论是实时控制系统还是电池供电设备,准确测量代码执行时间都是优化的第一步。今天我们就来聊聊几种实用的测量方法,让你的代码性能一目了然。
想象一下,你正在开发一个电机控制系统,控制周期要求在1毫秒内完成。如果不知道每个函数的执行时间,就像盲人摸象一样,很难找到性能瓶颈。
测量执行时间的主要目的:
这是最直观、最常用的方法。通过在代码段前后翻转GPIO引脚,用示波器或逻辑分析仪观察波形。

实现代码:
// 测量函数执行时间voidmeasure_function_time() {// 设置测试引脚为高电平 HAL_GPIO_WritePin(TEST_GPIO_Port, TEST_Pin, GPIO_PIN_SET);// 被测试的代码段 target_function();// 设置测试引脚为低电平 HAL_GPIO_WritePin(TEST_GPIO_Port, TEST_Pin, GPIO_PIN_RESET);}优势:
注意事项:
实际案例:在一个电机控制项目中,使用此方法发现PID计算函数耗时15微秒,而原本预期只有5微秒,通过优化浮点运算最终降到8微秒。
利用系统内置的高精度定时器进行测量,这是最精确的软件测量方法。

实现代码:
// 使用系统滴答定时器测量uint32_tmeasure_execution_time() {uint32_t start_time, end_time;// 获取开始时间(微秒级) start_time = HAL_GetTick() * 1000 + (SysTick->LOAD - SysTick->VAL) / (SystemCoreClock / 1000000);// 执行被测代码 target_function();// 获取结束时间 end_time = HAL_GetTick() * 1000 + (SysTick->LOAD - SysTick->VAL) / (SystemCoreClock / 1000000);return end_time - start_time; // 返回微秒数}// 使用专用定时器测量(更高精度)uint32_tprecise_time_measurement() {uint32_t start_cycles, end_cycles;// 启动定时器 __HAL_TIM_SET_COUNTER(&htim2, 0); HAL_TIM_Base_Start(&htim2); start_cycles = __HAL_TIM_GET_COUNTER(&htim2);// 执行被测代码 target_function(); end_cycles = __HAL_TIM_GET_COUNTER(&htim2); HAL_TIM_Base_Stop(&htim2);// 转换为微秒(假设定时器频率为1MHz)return end_cycles - start_cycles;}优势:
局限性:
对于ARM Cortex-M系列,可以使用DWT(Data Watchpoint and Trace)单元进行精确测量。
实现代码:
// 初始化DWTvoiddwt_init() { CoreDebug->DEMCR |= CoreDebug_DEMCR_TRCENA_Msk; DWT->CTRL |= DWT_CTRL_CYCCNTENA_Msk; DWT->CYCCNT = 0;}// 测量CPU周期数uint32_tmeasure_cpu_cycles() {uint32_t start_cycles, end_cycles; start_cycles = DWT->CYCCNT;// 执行被测代码 target_function(); end_cycles = DWT->CYCCNT;return end_cycles - start_cycles;}// 转换为时间(微秒)floatcycles_to_microseconds(uint32_t cycles) {return (float)cycles / (SystemCoreClock / 1000000.0f);}数据示例:在72MHz的STM32F103上,一个简单的加法运算通常需要1-2个CPU周期,约0.014-0.028微秒。
现代IDE通常集成了性能分析工具,可以进行更全面的分析。

常用工具:
使用示例(以Keil为例):
// 在代码中插入性能标记#ifdef __CC_ARM __asm("MOV R0, #0x01"); // 标记开始#endiftarget_function();#ifdef __CC_ARM __asm("MOV R0, #0x02"); // 标记结束#endif对于长时间运行的系统,可以使用统计采样的方式进行性能分析。
实现思路:
typedefstruct {uint32_t total_time;uint32_t call_count;uint32_t max_time;uint32_t min_time;} performance_stats_t;performance_stats_t func_stats = {0};voidstatistical_measurement() {uint32_t start_time = get_current_time_us(); target_function();uint32_t execution_time = get_current_time_us() - start_time;// 更新统计信息 func_stats.total_time += execution_time; func_stats.call_count++;if (execution_time > func_stats.max_time) { func_stats.max_time = execution_time; }if (func_stats.min_time == 0 || execution_time < func_stats.min_time) { func_stats.min_time = execution_time; }}// 获取平均执行时间uint32_tget_average_time() {return func_stats.total_time / func_stats.call_count;}不同方法的精度对比:
解决方案:
// 减少中断干扰voidaccurate_measurement() { __disable_irq(); // 关闭中断uint32_t start_time = DWT->CYCCNT; target_function();uint32_t end_time = DWT->CYCCNT; __enable_irq(); // 恢复中断uint32_t execution_cycles = end_time - start_time;}#define MEASUREMENT_ROUNDS 100uint32_taverage_measurement() {uint32_t total_time = 0;for (int i = 0; i < MEASUREMENT_ROUNDS; i++) {uint32_t start = DWT->CYCCNT; target_function();uint32_t end = DWT->CYCCNT; total_time += (end - start); }return total_time / MEASUREMENT_ROUNDS;}根据不同场景选择最适合的方法:

代码执行时间测量是嵌入式性能优化的基础工具。选择合适的测量方法,结合实际应用场景,才能获得准确可靠的数据。
记住,测量只是第一步,更重要的是基于测量结果进行有针对性的优化。从算法改进到编译器设置,从内存访问模式到指令级优化,每一个细节都可能带来显著的性能提升。
注:本文中的代码示例基于STM32平台,具体实现可能因硬件平台而异。建议读者根据实际使用的芯片和开发环境进行相应调整。
大家好,我是四哥,一个深耕嵌入式14年的老工程师。
分享大家一份不错的C语言电子书,以非常通俗的语言跟大家讲解C语言,把复杂的技术讲得连小学生都能听得懂,绝不是AI生成那种晦涩难懂的电子垃圾
C语言电子书目录如下:
