随着 ARM 架构全面进入多核时代,SMP(Symmetric Multiprocessor System,对称多处理系统)已经成为新 ARM SoC 的标配能力。对于嵌入式 Linux BSP 开发来说,SMP bring‑up(多核启动) 是从单核到多核移植中最关键、最容易出问题,同时文档又相对稀缺的环节。一、SMP 基础概念与开展前提
1. 什么是 ARM SoC 上的 SMP
SMP(Symmetric Multi-Processor)对称多处理系统:拥有2个及以上同构处理器、共享主存、运行单一操作系统的多处理器系统。这一设计符合 Linux 内核 “通用逻辑与硬件适配分离” 的设计原则:内核只负责调度、CPU 管理等通用能力,平台只需要实现最底层的硬件控制,降低新芯片的移植成本。2. SMP bring‑up 开展前提
SoC 在单核(CPU0)上已稳定运行;软件遵循最新内核适配要求;芯片手册完整可用;
SMP 必须建立在稳定单核基础上:内核启动流程中,所有从核启动都依赖主核(CPU0)完成系统初始化,单核不稳定会导致多核问题无法定位。二、SMP 核心操作接口:smp_operations
Linux 内核用struct smp_operations结构体,抽象平台需要实现的多核操作。struct smp_operations { void (*smp_init_cpus)(void); void (*smp_prepare_cpus)(unsigned int max_cpus); void (*smp_secondary_init)(unsigned int cpu); int (*smp_boot_secondary)(unsigned int cpu, struct task_struct *idle);};
其中只有 smp_boot_secondary() 是强制实现接口,其余均为可选。
内核社区坚持最小适配接口原则,只强制实现“启动从核”这一核心动作,一致性、拓扑、资源准备等由平台按需实现,这是 ARM 平台能快速支持各类新芯片的重要原因。其他接口功能概要说明
① smp_init_cpus()
功能:设置cpu_possible(),声明系统可能存在的 CPU;设备树完善时,可省略此函数。
② smp_prepare_cpus()
功能:使能缓存一致性、初始化时钟/电源/内存资源、完善CPU掩码;
一致性使能必须早于initcall。若放在initcall中,此时内核已完成大量初始化,多核启动会直接触发缓存不同步导致系统崩溃。③ smp_secondary_init()
功能:平台特定的从核初始化
其中 pen_release 是历史兼容方案,依赖软件变量同步,在高并发、缓存开启场景下存在竞争风险,现代 ARM 平台不建议使用。④ smp_boot_secondary()
功能:真正启动指定编号的从核,是 SMP 最核心接口;
cpu_up()是内核唯一合法的 CPU 启动入口,平台不允许绕过该接口直接启动从核,否则会破坏内核 CPU 状态机,引发难以调试的异常。三、SMP 启动完整时序
该流程是 ARM Linux 多年沉淀的标准执行路径,主核负责环境搭建,从核只做最简初始化,完全符合硬件上电时序与内核安全启动规范。四、CPU 热插拔 SMP 操作
开启CONFIG_HOTPLUG_CPU后,需额外实现 3 个接口:struct smp_operations { int (*cpu_kill)(unsigned int cpu); void (*cpu_die)(unsigned int cpu); int (*cpu_disable)(unsigned int cpu);};
cpu_die() 与 cpu_kill() 必须配对实现,是支持热插拔的最低要求。
接口功能
cpu_disable:在待关闭 CPU 上运行,关闭中断与本地定时器;
cpu_die:在待关闭 CPU 上运行,执行断电/停机,不返回;
cpu_kill:在主核运行,完成最终断电/关时钟,与 cpu_die 同步;
cpu_die负责“CPU 自尽”,cpu_kill负责“资源回收”,二者同步是 kexec、软重启、低功耗管理的基础,缺少任意一个都会导致 CPU 无法正常下线。五、SMP 配套重要特性
官方将以下特性归为 nice to have,但工程中几乎是必选。1. 本地定时器(Local Timer)
本地定时器不是可选特性,而是 SMP 系统稳定运行的前提。无本地定时器会导致从核无时钟节拍,调度器无法工作,系统随机卡死。2. IRQ 亲和性(IRQ Affinity)
中断亲和性是工业控制、车载、网关等产品的必备能力,可显著降低核心干扰、提升系统 determinism,是高性能多核系统的标准配置。六、PSCI:ARM 官方 SMP 与电源管理标准
PSCI(Power State Coordination Interface):电源状态协同接口,由固件提供 CPU_ON/CPU_OFF 等标准服务,内核不再需要自定义 SMP 操作。其特点如:PSCI 是 ARMv8 强制标准,ARMv7 新平台也强烈推荐。它彻底分离固件与内核,是上游内核接受的唯一正规方案,自定义 SMP 操作已逐步被社区淘汰。七、设备树(DT)绑定规则
1. CPU 拓扑节点
cpus { #address-cells = <1>; #size-cells = <0>; enable-method = "marvell,armada-380-smp"; cpu@0 { device_type = "cpu"; compatible = "arm,cortex-a9"; reg = <0>; }; cpu@1 { device_type = "cpu"; compatible = "arm,cortex-a9"; reg = <1>; };};
2. PSCI 设备树示例
psci { compatible = "arm,psci"; method = "smc"; cpu_on = <0x84000006>; cpu_off = <0x84000004>;};
设备树是 ARM Linux 硬件描述的唯一标准,CPU 拓扑、enable-method、reg 配置错误,会直接导致内核无法识别多核,SMP 完全无法启动。八、SMP bring‑up 实战常见问题
实际移植中最容易遇到的故障,这些问题至今依然高频出现。1. 缓存一致性问题
现象:CPU0 正常,从核无法启动、L1 Cache 数据损坏;
原因:启动从核前未失效 Cache、一致性寄存器未提前映射;
解决:从核启动前 invalidate L1;一致性初始化放到.init_time;
2. 定时器问题
现象:内核启动后用户态无响应、随机卡死;
原因:定时器中断未配置、未开启本地定时器(如CONFIG_HAVE_TWD);
解决:补全中断配置、使能对应内核配置、实现本地定时器驱动;
3. 从核无法启动
常见原因:复位/时钟未使能、启动地址错误、设备树配置错误、PSCI 调用失败;
SMP 故障 90% 来自缓存一致性、时钟/复位、定时器、设备树这四类问题,而非软件逻辑错误,调试应优先排查硬件配置与设备树。九、结语
如果你正在做 ARM SoC 多核移植、Linux BSP bring‑up、CPU 热插拔/低功耗开发,建议把本文收藏为随身调试手册。