在传统的 ARM64 架构中,缺乏像 x86 那样专门的不可屏蔽中断(NMI)引脚。所有的常规中断(IRQ)都可以通过设置 CPU 状态寄存器中的中断屏蔽位(PSTATE.I = 1)来全局关闭。
这种设计在软件开发中带来了一个致命痛点:当内核代码调用 local_irq_disable() 关中断后陷入死循环或死锁时,整个 CPU 就“失联”了。此时,依赖普通定时器中断的软死锁检测(Softlockup Detector)和性能剖析工具(Perf 采样)均无法打断当前的死循环,导致开发者难以定位问题现场。
为了解决这一问题,Linux 内核引入了**伪 NMI(Pseudo-NMI)**机制,赋予了特定中断在“关中断”状态下依然能抢占 CPU 的特权。
伪 NMI 的核心设计哲学是**“偷梁换柱”:不再使用 CPU 级别的 PSTATE.I 位来粗暴地屏蔽所有中断,而是将中断屏蔽的控制权下放给中断控制器(GICv3)**,利用 GIC 的优先级过滤功能来实现隔离。
GICv3 提供了一个优先级掩码寄存器 ICC_PMR_EL1 (Priority Mask Register)。在 GIC 中,数值越小,优先级越高。CPU 只会响应优先级数值小于 PMR 当前值的中断。
内核将中断分为两类:
普通 IRQ:分配较低优先级(如 0xA0)。
伪 NMI:分配较高优先级(如 0x80)。
伪 NMI 的实现需要内核初始化、中断开关的动态重写以及异常处理入口的紧密配合。
为了防止内核代码中原有的 local_irq_disable() 再次修改 PSTATE.I,内核使用了 Alternative(代码动态修补)机制,将底层汇编指令进行了替换。
// arch/arm64/include/asm/irqflags.hstaticinlinevoidarch_local_irq_disable(void){if (system_has_prio_mask_debugging()) {u32 pmr = read_sysreg_s(SYS_ICC_PMR_EL1);WARN_ON_ONCE(pmr != GIC_PRIO_IRQON && pmr != GIC_PRIO_IRQOFF);}// 修改 PMR 寄存器阻挡普通中断 (优先级 < 0xA0 被挡住,但 0x80 的 NMI 放行)// 如果未开启伪NMI,原来的代码会被保留;若开启,这段代码会被动态替换为 NOPasmvolatile(ALTERNATIVE("msr daifset, #3 // arch_local_irq_disable",__msr_s(SYS_ICC_PMR_EL1, "%0"),ARM64_HAS_IRQ_PRIO_MASKING):: "r" ((unsigned long) GIC_PRIO_IRQOFF): "memory");}
这是伪 NMI 能够实现中断嵌套和抢占的最核心环节。
当硬件触发异常进入 EL1 向量表时,ARM 硬件会自动将 PSTATE.I 置为 1。这意味着在刚进入中断处理时,哪怕是伪 NMI 也是被屏蔽的。为了让更高级别的伪 NMI 能打断当前的普通中断处理,内核必须在 GIC handler 中立刻把 PSTATE.I 重新置 0。
// drivers/irqchip/irq-gic-v3.cstatic void __exception_irq_entry gic_handle_irq(struct pt_regs *regs){u32 irqnr = gic_read_iar();if (gic_prio_masking_enabled()) {/** 1. 锁死 PMR:把 GIC 的 PMR 设置为屏蔽普通中断。* 这样能确保后续打开 PSTATE.I 时,不会有同级或低级普通中断涌入。*/gic_pmr_mask_irqs();/** 2. 重新打开 CPU 中断!(底层执行 msr daifclr, #2)* 硬件在异常入口自动关闭了 PSTATE.I,这里必须手动打开它。* 从这行代码执行完开始,高优先级的伪 NMI 就可以随时抢占当前上下文!*/gic_arch_enable_irqs();}// 分发具体的中断处理逻辑...if (likely(irqnr > 15 && irqnr < 1020) || irqnr >= 8192) {int err;// 核心判断逻辑:读取 RPR 寄存器,看当前正在处理的中断优先级是不是 NMI 级别 (0x80)if (IS_ENABLED(CONFIG_ARM64_PSEUDO_NMI) &&unlikely(gic_supports_nmi()) &&unlikely(gic_read_rpr() == GIC_PRIO_NMI)) {// 是 NMI:进入特殊的 handle_domain_nmi 处理路径 (内部会调用 nmi_enter() 等无锁上下文)err = handle_domain_nmi(gic_data.domain, irqnr, regs);} else {// 普通中断:走常规处理路径err = handle_domain_irq(gic_data.domain, irqnr, regs);}// ...}}
gic_arch_enable_irqs 的真身真实源码:arch/arm64/include/asm/arch_gicv3.h
staticinlinevoidgic_pmr_mask_irqs(void){// 写入 0x90 (GIC_PRIO_IRQOFF) 阻挡普通中断gic_write_pmr(GIC_PRIO_IRQOFF);}staticinlinevoidgic_arch_enable_irqs(void){/** 毫无保留地执行汇编指令:清零 DAIF 寄存器中的 I 位。* 这就相当于真正意义上的 local_irq_enable()。*/asmvolatile("msr daifclr, #2" : : : "memory");}
尽管伪 NMI 解决了大部分关中断死锁问题,但它并不是完美的,依然存在以下局限性:
底层汇编屏蔽:如果极底层的异常切换汇编代码显式调用了 msr daifset, #2,此时 CPU 处于绝对关闭状态,伪 NMI 依然无效。
硬件重置窗口期:在硬件刚触发异常(PSTATE.I=1)到执行 gic_arch_enable_irqs()(重置 PSTATE.I=0)之间的极短指令窗口期内,它是被屏蔽的。
安全世界抢占:在 ARM TrustZone 架构下,EL3 的安全中断(Secure FIQ)优先级永远高于操作系统内核的伪 NMI。
在Linux 5.15中,ARM64的伪NMI主要服务于两大场景:
Hardlockup Detector(硬死锁检测): 利用PMU(Performance Monitor Unit)产生的溢出中断作为NMI。如果CPU陷入关中断的死循环,普通Timer中断无法响应(Softlockup探测失效),但PMU产生的伪NMI依然能触发。NMI handler会检查系统状态,并在确认死锁后触发Kernel Panic并打印调用栈(Opps)。
Perf Profiling(性能剖析): 在使用 perf 工具采样时,如果采样中断(PMU中断)被普通的关中断操作延迟,会导致采样数据的指令位置发生偏移(Skid)。将PMU中断提升为伪NMI,可以极大提高Perf采样的精准度。
Linux 5.15 在 ARM64 上的伪 NMI 是一场精妙的软硬件协同“骗局”。它通过修改底层的汇编指令,将 Linux 的抽象关中断语义映射到 GIC 的 PMR 寄存器上,并配合异常处理入口对 PSTATE.I 的精准控制,成功在缺乏独立 NMI 硬件引脚的体系结构上,实现了高优先级中断在绝境下的突围。这为 ARM64 平台的系统级调试(Hardlockup Detector、Perf)提供了无可替代的基础设施。