在多核ArmV8架构的Linux内核开发中,并发访问是绕不开的核心问题——当多个CPU核心或进程同时操作共享资源(如全局变量、设备寄存器)时,若缺乏有效保护,极易出现数据竞争、值错乱等竞态问题,进而导致内核崩溃、设备异常等严重隐患。原子操作作为Linux内核最基础、最高效的同步机制,通过“不可分割的执行单元”特性,从硬件到软件层面杜绝竞态,是驱动开发、内核模块编程的必备知识点。
本文基于Linux6.6内核,结合ArmV8架构的硬件特性,全面拆解原子操作的核心原理、底层指令实现、内核API用法,并通过实战案例演示其在设备驱动中的应用,助力开发者吃透原子操作,写出高可靠的并发代码。
原子操作(Atomic Operation)的核心定义是:一个操作的执行过程不可被中断、不可分割,要么全部执行完成,要么完全不执行,不存在中间状态。在多核并发场景中,这一特性可以确保共享资源的修改具有排他性,无需依赖复杂的锁机制(如自旋锁、互斥锁),就能避免竞态问题。
举个简单的反例:我们常写的“a++”语句,看似是一条指令,实则在ArmV8汇编层面会被拆解为3步:
ldr x0, &a // 从内存读取a的值到寄存器x0
add x0, x0, #1 // 寄存器x0的值加1
str x0, &a // 将寄存器的值写回内存a
若两个CPU核心同时执行这段代码,就可能出现“CPU0读取a=1后,CPU1也读取a=1,两者分别加1后写回,最终a=2而非预期的3”的竞态问题。而原子操作通过硬件指令优化,将这3步合并为一个“不可分割”的单元,从根源上解决该问题。
Linux内核中的原子操作分为两类,完全适配ArmV8架构:
整型原子操作:针对atomic_t类型变量(本质是volatile修饰的整型,避免编译器优化导致的内存可见性问题)的增减、赋值、测试等操作;
位原子操作:针对内存地址的某一位进行置1、置0、反置、测试等操作,常用于设备状态标记、掩码控制等场景。
关键注意点:原子操作依赖底层CPU的硬件支持,因此其实现与架构强相关——ArmV8架构通过专属指令集实现原子操作,Linux6.6内核则基于这些指令封装了统一的API,开发者无需直接操作汇编,即可便捷使用。
Arm处理器的LDREX/STREX指令对是ArmV7及早期ArmV8(V8.0)架构实现原子操作的核心;而在Linux6.6适配的ArmV8.1及以上架构中,新增了LSE(Large System Extension)扩展,提供了ldadd等专用原子指令,进一步提升并发场景下的性能。
下面分别拆解这两种实现方式,结合Linux6.6内核代码,让大家看懂原子操作的底层逻辑。
LDREX(Load-Exclusive,独占加载)和STREX(Store-Exclusive,独占存储)是一对配对使用的指令,基于LL/SC(Load-Linked/Store-Conditional)机制,atomic_add函数实现正是这种方式的典型应用,Linux6.6内核中仍保留该实现,用于兼容低版本ArmV8芯片。
atomic_add函数底层汇编代码,适配ArmV8架构的完整解析如下(Linux6.6内核中路径:arch/arm64/include/asm/atomic_ll_sc.h):
staticinlinevoidatomic_add(int i, atomic_t *v){unsignedlong tmp;int result; prefetchw(&v->counter); // 预取v->counter到缓存,提升性能 __asm__ __volatile__("@ atomic_add\n""1: ldrex %0, [%3]\n"// 独占加载:读取v->counter到result,标记该内存地址为“独占访问”" add %0, %0, %4\n"// 寄存器内计算:result = result + i" strex %1, %0, [%3]\n"// 独占存储:仅当地址仍为“独占访问”时,将result写回,tmp标记结果" teq %1, #0\n"// 测试tmp是否为0(0=存储成功,1=存储失败)" bne 1b"// 若失败,跳回1处重新执行(自旋重试) : "=&r" (result), "=&r" (tmp), "+Qo" (v->counter) : "r" (&v->counter), "Ir" (i) : "cc"); // 告知编译器,该汇编会修改条件码寄存器}LDREX与STREX的核心工作机制:
LDREX指令:加载内存地址的值到寄存器,同时让总线监控该地址——若有其他CPU核心或进程访问该地址,会清除“独占标记”;
STREX指令:尝试将寄存器的值写回内存,同时检查“独占标记”:
若标记存在(无并发访问):写回成功,将第一个寄存器(tmp)设为0;
若标记不存在(有并发访问):写回失败,将tmp设为1;
teq与bne指令:判断写回是否成功,失败则跳回LDREX重新执行,直到成功。
注意:该机制不仅适用于多核之间的并发,也适用于同一核心内的进程/线程并发(如中断与进程的并发),因为中断会打断进程执行,同样可能导致竞态。
下图展示了两个CPU核心并发执行LDREX/STREX的场景,时序流程如下:

T1时刻:CPU0执行LDREX,读取目标地址的值,标记该地址为独占访问;
T2时刻:CPU1执行LDREX,读取同一地址的值(此时CPU0的独占标记被清除);
T3时刻:CPU0执行STREX,因独占标记已被清除,写回失败(tmp=1),触发bne指令重新跳回LDREX;
T4时刻:CPU1执行STREX,此时无其他并发访问,写回成功(tmp=0),操作完成。
这种“失败重试”的机制,确保了最终只有一个核心能成功执行原子操作,实现了共享资源的排他性修改。
Linux6.6内核充分适配ArmV8.1及以上架构的LSE扩展,新增了ldadd、ldclr、ldset等专用原子指令,无需“LDREX+STREX+重试”的逻辑,直接通过一条指令完成原子操作,大幅提升多核高并发场景下的性能——这是Linux6.6与旧版本内核在ArmV8原子操作上的核心差异之一。
以atomic_add_return为例,Linux6.6内核中基于LSE的实现(路径:arch/arm64/include/asm/atomic_lse.h)如下:
staticinlineint __lse_atomic_add_return(int i, atomic_t *v){ u32 tmp;asmvolatile( __LSE_PREAMBLE"ldadd %w(i), %w(tmp), %0\n"// 一条指令完成“加载+加+存储”,原子执行"add %w(i), %w(i), %w(tmp)" : "+Q" (v->counter), "+r" (i), "=&r" (tmp) : : "cc");return i;}ldadd指令的核心优势:将“加载-修改-存储”三步合并为一条原子指令,无需总线监控和重试逻辑,硬件直接保证操作的原子性,在多核竞争激烈的场景下,延迟更低、吞吐量更高。
Linux6.6内核会自动根据ArmV8芯片的版本,选择对应的实现(LSE指令优先,无LSE则回退到LDREX/STREX),开发者无需手动适配,调用统一API即可。
Linux6.6内核封装了统一的原子操作API,完全兼容ArmV8架构,分为整型原子操作和位原子操作两类,补充了Linux6.6的新增细节和实战注意事项。
整型原子操作的核心是atomic_t类型,定义在<linux/atomic.h>中(ArmV8架构下本质是typedef struct { volatile int counter; } atomic_t;),volatile关键字确保变量的内存可见性,避免编译器优化导致的“缓存不一致”问题。
以下是Linux6.6中最常用的整型原子操作API,结合用法说明(附代码片段):
#include<linux/atomic.h>// 方法1:定义时初始化(推荐,Linux6.6中仍支持,兼容所有版本)atomic_t v = ATOMIC_INIT(0); // 定义原子变量v,初始值为0// 方法2:运行时初始化atomic_t v;atomic_set(&v, 5); // 将v的值设置为5// 方法3:Linux6.6新增(ArmV8专属),初始化并设置内存屏障atomic_t v = ATOMIC_INIT_NOTIFIER(3);// 1. 读取原子变量的值(原子操作,避免缓存不一致)int val = atomic_read(&v); // 等价于“val = v.counter”,但保证内存可见性// 2. 原子增减(无返回值)atomic_add(3, &v); // v = v + 3atomic_sub(2, &v); // v = v - 2// 3. 原子自增/自减(无返回值,最常用)atomic_inc(&v); // v++atomic_dec(&v); // v--// 4. 操作并测试(判断操作后是否为0,返回bool)// 注意:只有自增、自减、减操作,无加操作if (atomic_dec_and_test(&v)) {// v自减后为0,执行逻辑(如释放资源)}// 5. 操作并返回(返回修改后的值,Linux6.6推荐使用)int new_val = atomic_add_return(3, &v); // v +=3 ,返回修改后的值new_val = atomic_inc_return(&v); // v++ ,返回修改后的值位原子操作直接针对内存地址的某一位进行操作,无需定义特殊类型,适用于设备状态标记(如“设备是否就绪”用某一位表示)、寄存器位控制等场景,ArmV8架构下支持32位和64位内存地址的位操作。
常用API及用法(补充Linux6.6实战细节):
#include<linux/bitops.h>// 假设addr是设备寄存器的虚拟地址(已通过ioremap映射)void __iomem *addr = ioremap(0x12340000, 4); // 示例地址// 1. 设置位(第nr位置1,原子操作)set_bit(7, addr); // 将addr地址的第7位(MSB)置1,常用于开启设备功能// 注意:ArmV8架构下,nr范围是0~63(64位系统),无需担心越界// 2. 清除位(第nr位置0,原子操作)clear_bit(7, addr); // 将第7位置0,关闭设备功能// 3. 反置位(第nr位取反,原子操作)change_bit(7, addr); // 第7位0→1,1→0// 4. 测试位(返回第nr位的值,0或1,原子操作)if (test_bit(7, addr)) {// 第7位为1,说明设备已开启}// 5. 测试并操作(先测试,再操作,返回操作前的位值)// 常用于“判断并设置”场景,避免竞态if (test_and_set_bit(7, addr)) {// 操作前第7位已为1,说明设备已被其他进程开启} else {// 操作前第7位为0,本次成功开启设备}关键注意点:位原子操作在Linux6.6中支持“原子位搜索”API(如find_first_bit、find_first_zero_bit),适用于位掩码扫描场景(如调度算法、设备中断掩码控制),用法如下:
// 查找第一个置1的位,返回位号(无则返回size)unsignedlong first_set = find_first_bit(addr, 32);// 查找第一个置0的位,返回位号(无则返回size)unsignedlong first_zero = find_first_zero_bit(addr, 32);给出了“设备最多只能被一个进程打开”的示例,结合Linux6.6 ArmV8架构,优化并完善该案例,演示原子操作在字符设备驱动中的实战用法——核心思路是用原子变量作为“设备占用标记”,通过原子操作实现排他性访问。
编写一个简单的字符设备驱动,确保设备同时只能被一个进程打开,多个进程并发打开时,返回EBUSY错误,关闭设备时释放占用标记,全程使用原子操作,避免竞态。
#include<linux/module.h>#include<linux/fs.h>#include<linux/atomic.h>#include<linux/device.h>// 1. 定义原子变量,标记设备是否可用(1=可用,0=已占用)staticatomic_t xxx_available = ATOMIC_INIT(1);// 设备号、类、设备结构体(简化)staticdev_t xxx_devno;staticstructclass *xxx_class;staticstructdevice *xxx_device;// 2. open函数:原子操作实现排他性打开staticintxxx_open(struct inode *inode, struct file *filp){// 原子自减并测试:自减后为0 → 设备可用,占用设备;不为0 → 设备已被占用if (!atomic_dec_and_test(&xxx_available)) { atomic_inc(&xxx_available); // 恢复原子变量的值(避免负数值)return -EBUSY; // 返回“设备忙”错误 } printk(KERN_INFO "xxx device opened successfully\n");return0;}// 3. release函数:释放设备,恢复原子变量staticintxxx_release(struct inode *inode, struct file *filp){ atomic_inc(&xxx_available); // 原子自增,标记设备可用 printk(KERN_INFO "xxx device released successfully\n");return0;}// 文件操作结构体staticconststructfile_operationsxxx_fops = { .owner = THIS_MODULE, .open = xxx_open, .release = xxx_release,};// 模块加载函数staticint __init xxx_init(void){// 申请设备号(简化,实际需处理错误) alloc_chrdev_region(&xxx_devno, 0, 1, "xxx_dev");// 创建类和设备(简化) xxx_class = class_create(THIS_MODULE, "xxx_class"); xxx_device = device_create(xxx_class, NULL, xxx_devno, NULL, "xxx_device");// 注册字符设备 cdev_init(&xxx_cdev, &xxx_fops); cdev_add(&xxx_cdev, xxx_devno, 1); printk(KERN_INFO "xxx driver init success (ArmV8 Linux6.6)\n");return0;}// 模块卸载函数staticvoid __exit xxx_exit(void){// 注销设备、类、设备号(简化) cdev_del(&xxx_cdev); device_destroy(xxx_class, xxx_devno); class_destroy(xxx_class); unregister_chrdev_region(xxx_devno, 1); printk(KERN_INFO "xxx driver exit success\n");}module_init(xxx_init);module_exit(xxx_exit);MODULE_LICENSE("GPL");MODULE_DESCRIPTION("ArmV8 Linux6.6 Atomic Operation Demo Driver");原子变量初始化:ATOMIC_INIT(1)将xxx_available初始化为1,表示设备初始状态为“可用”;
open函数中的atomic_dec_and_test:自减后测试是否为0——若为0,说明当前进程成功占用设备;若不为0,说明设备已被其他进程占用,恢复原子变量的值并返回EBUSY;
release函数中的atomic_inc:进程关闭设备时,原子自增标记,释放设备,供其他进程使用;
ArmV8适配:代码无需修改任何原子操作API,Linux6.6内核会自动根据芯片版本(V8.0/V8.1+)选择LDREX/STREX或LSE指令实现,确保并发安全和性能。
该案例的优势的是:相比自旋锁、互斥锁,原子操作无需上下文切换和锁竞争,性能更高,适用于“简单的排他性标记”场景,是设备驱动中最常用的并发保护方式之一。
开发者在使用原子操作时,容易陷入一些误区,结合Linux6.6和ArmV8架构的特性,总结以下4个关键避坑点:
原子操作只能保护“单个原子API的执行”,若需要保护多个原子操作的组合(如“v++后v--”),则需要使用自旋锁或互斥锁,否则仍会出现竞态。例如:
// 错误示例:两个原子操作组合,无保护atomic_inc(&v);atomic_dec(&v);// 正确示例:用自旋锁保护组合操作spinlock_t lock;spin_lock_init(&lock);spin_lock(&lock);atomic_inc(&v);atomic_dec(&v);spin_unlock(&lock);原子操作虽然高效,但仅适用于“共享资源的简单修改”。若共享资源是复杂结构体(如链表),原子操作无法保护,应使用自旋锁、互斥锁等更强大的同步机制;若不存在并发访问(如单线程驱动),则无需使用原子操作,避免不必要的性能开销。
ArmV8架构要求atomic_t变量(4字节)和位操作的内存地址(8字节)必须对齐,否则会触发总线错误(kernel panic)。Linux6.6内核会自动确保atomic_t的对齐,但手动定义时需注意:避免将atomic_t变量放在非对齐的内存地址(如结构体的中间,未对齐4字节)。
整型原子操作:适用于“计数”场景(如设备引用计数、请求计数);
位原子操作:适用于“状态标记”场景(如设备的开启/关闭、中断的使能/禁止)。
原子操作是Linux6.6 ArmV8架构下最基础、最高效的并发同步机制,其核心是“硬件指令保证不可分割性”,底层通过LDREX/STREX(ArmV8.0)或LSE扩展指令(ArmV8.1+)实现,内核封装了统一的API,开发者无需关注底层细节,即可便捷使用。
本文从原理、底层实现、API用法、实战案例四个维度,全面解析了Linux6.6 ArmV8原子操作,重点突出了ArmV8架构的特性和Linux6.6的新增优化,同时给出了避坑指南,希望能帮助开发者吃透原子操作,在多核并发场景中写出高可靠、高性能的内核代码和设备驱动。
后续可进一步学习原子操作与其他同步机制(自旋锁、互斥锁、RCU)的搭配使用,结合具体业务场景,选择最合适的并发保护方案。