无锁编程的精髓在于它通过使用原子操作(最核心的就是CAS)来避免传统的互斥锁,从而管理共享数据。它的核心优势是非阻塞:即使某个线程在执行过程中被意外延迟或挂起,其他线程也依然能够继续执行任务,整个系统不会因此“卡死”。但这容易产生一个误解,认为“无锁 = 完全不使用锁”。实际上,在硬件层面,原子操作可能需要短暂的总线或缓存锁定,但这种锁定是暂时的、有保障的,与传统软件锁有本质区别。它不会导致线程无限期阻塞,从而满足了无锁编程对进度保证的核心要求。下表清晰地展示了无锁编程与基于互斥锁的传统编程之间的核心差异。
⚙️ 核心机制:CAS操作
CAS 是无锁编程的基石。它包含三个操作数:内存位置(V)、预期原值(A)和新值(B)。该操作原子性地执行以下步骤:
比较内存位置V的当前值是否等于预期值A。
如果相等,则将V的值 set 为新值B,并返回操作成功。
如果不相等,则操作失败,通常选择重试或执行其他处理。
在C++中,std::atomic模板类提供了实现CAS的成员函数,主要是 compare_exchange_weak和 compare_exchange_strong
compare_exchange_weak 与 compare_exchange_strong 的区别与选择
一个典型的使用 compare_exchange_weak的模式是在循环中重试,以实现一个简单的计数器递增:
std::atomic<int> counter(0);voidincrement(){ int expected = counter.load(); // 读取当前值 while (!counter.compare_exchange_weak(expected, expected + 1)) { // 如果CAS失败,expected 已被自动更新为当前的最新值 // 循环体可以为空,因为expected已更新,我们将使用新的expected+1再次尝试 // 如果需要在失败时进行复杂计算,则需在循环内重新计算新值 }}
在这个循环中,如果 compare_exchange_weak失败(包括伪失败),它会将 expected参数更新为原子变量当前的实际值,然后循环会立即用这个新值再次尝试,直到成功。
⚠️ 关键挑战与对策
无锁编程并非银弹,它面临几个著名挑战:
1、ABA问题
描述:线程1读取变量值为A;此时线程2将值改为B,然后又改回A;线程1执行CAS操作,发现值还是A,于是操作“成功”,但它可能忽略了中间的状态变化,导致逻辑错误。
对策:最常用的方法是使用版本号或标记。C++标准库提供了std::atomic<T>的一个特化类 std::atomic_compare_exchange_strong,但更直接的方案是使用 std::atomic<std::shared_ptr<T>>(C++20后保证无锁)或自行实现一个包含版本号的结构体,每次修改不仅值更新,版本号也递增。
2、内存顺序
描述:现代处理器和编译器会对内存访问进行重排以优化性能。在无锁代码中,不正确的重排可能导致一个线程看到另一个线程操作的顺序与源码书写顺序不一致,从而引发错误。
对策:C++的 std::atomic操作允许你指定内存序参数,如 std::memory_order_acq_rel,来控制可见性和顺序。初学时可默认使用 std::memory_order_seq_cst,它提供最强的顺序一致性保证,但性能开销最大。在深入理解后,再根据特定场景选择更宽松的内存序以提升性能。
3、CPU忙等待与性能
📚 如何系统学习
第一步:掌握基础
这个阶段的目标是建立对原子操作和CAS的直观理解。
1. 核心原子操作
std::atomic提供了一系列成员函数,用于安全地进行读写和算术运算 。
#include<atomic>#include<iostream>intmain(){ std::atomic<int> counter(0); // 定义一个原子整数 // 基础读写操作 counter.store(10); // 原子写入,等价于 counter = 10; int value = counter.load(); // 原子读取,等价于 int value = counter; // 原子算术运算 (返回的是操作前的值) int previous = counter.fetch_add(5); // 原子加5,previous是加之前的值(10) previous = counter.fetch_sub(2); // 原子减2,previous是15 // 简洁的后缀运算符 (但注意:++counter 等价于 fetch_add(1) + 1,返回新值) counter++; std::cout << "Final value: " << counter.load() << std::endl; // 输出 14 return 0;}
2. CAS操作:compare_exchange_weak与compare_exchange_strong
CAS是无锁编程的基石。它的逻辑是:“如果当前值等于我预期的值,我就修改它;否则,告诉我现在实际是多少。”
比较原子变量的当前值是否与 expected相等。
如果相等,则将原子变量设置为 desired并返回 true。
如果不相等,则将原子变量的当前值写入 expected并返回 false。
两者的区别与选择 :
基础用法示例:实现一个简单的原子乘法
std::atomic<int> value(10);voidmultiply_by(int multiplier){ int old_value = value.load(); // 循环直到CAS成功或发现值已被其他线程改变 while (!value.compare_exchange_weak(old_value, old_value * multiplier)) { // 如果CAS失败,old_value已被更新为当前最新值,循环会继续尝试 }}
第二步:模仿与实践
在理解基础操作后,最好的方式是阅读和模仿经典的无锁结构。
1. 无锁栈(Lock-Free Stack)
这是一个最经典的例子,核心是使用一个单向链表,并通过CAS原子地修改头指针 。
#include<atomic>template<typename T>struct Node { T data; Node* next; Node(const T& data) : data(data), next(nullptr) {}};template<typename T>class LockFreeStack {private: std::atomic<Node<T>*> head{nullptr};public: voidpush(const T& data){ Node<T>* new_node = new Node<T>(data); new_node->next = head.load(); // 1. 设置新节点的next指向当前头节点 // 2. 使用CAS将头指针原子地替换为新节点 while (!head.compare_exchange_weak(new_node->next, new_node)) { // CAS失败:说明在步骤1之后,head被其他线程修改了 // new_node->next 已被CAS函数更新为新的head,循环会重试 } } boolpop(T& result){ Node<T>* old_head = head.load(); while (old_head != nullptr && !head.compare_exchange_weak(old_head, old_head->next)) { // CAS失败:head已被其他线程修改,用新的head重试 } if (old_head == nullptr) { return false; // 栈为空 } result = old_head->data; delete old_head; // 注意:在无锁结构中安全释放内存是个复杂问题 return true; }};
这个栈的要点:push操作的关键在于,CAS确保只有当head仍然是我们之前看到的值时,才将其修改为new_node。
2. 编写测试用例
实现后,必须用多线程进行压力测试。
#include<thread>#include<vector>#include<iostream>intmain(){ LockFreeStack<int> stack; std::vector<std::thread> threads; // 两个线程并发push for (int i = 0; i < 2; ++i) { threads.emplace_back([&stack, i]() { for (int j = 0; j < 1000; ++j) { stack.push(i * 1000 + j); } }); } // ... 等待线程结束,再创建pop线程 ... for (auto& t : threads) t.join(); return 0;}
第三步:深入研究与优化
这是从“会用”到“精通”的关键阶段,涉及到底层原理和性能陷阱。
1. 内存序(Memory Order)
这是无锁编程中最复杂也最重要的概念之一。它规定了原子操作周围的内存访问指令可以被编译器/CPU重排序的程度 。
std::memory_order_seq_cst:默认选项,最强一致性。保证所有线程看到的操作顺序一致。最安全,但性能开销最大。
std::memory_order_relaxed:最弱约束。只保证原子操作本身是原子的,不保证任何顺序。适用于计数器等场景。
std::memory_order_acquire/release/acq_rel:用于建立线程间的同步关系。简单来说,release操作之前的写操作,对后续执行了acquire操作并读到这次release写入值的线程来说,是可见的 。
示例:在无锁栈中,我们可以使用更宽松的内存序来优化 。
void push_optimized(const T& data) { Node<T>* new_node = new Node<T>(data); // load可以使用 relaxed,因为这只是为了初始化循环 new_node->next = head.load(std::memory_order_relaxed); // CAS操作需要使用 acq_rel,因为它既要“释放”新的头节点,也要“获取”其他线程的修改 while (!head.compare_exchange_weak(new_node->next, new_node, std::memory_order_acq_rel, // 成功时的内存序 std::memory_order_relaxed)) { // 失败时的内存序可以更宽松 // 循环体 }}
建议:初学者始终使用默认的memory_order_seq_cst。在性能确成为瓶颈且经过充分测试后,再考虑优化内存序。
2. 关键挑战与陷阱
ABA问题:线程1读取头指针A。线程2执行pop,删除A,然后push一个新节点,巧合的是新节点的地址也是A。线程1执行CAS,发现头指针还是A,操作“成功”,但此时它指向的可能是一个已被释放的节点。解决方案:使用“带标签的指针”或风险指针(Hazard Pointers)等 。
伪共享(False Sharing):两个高度竞争的、无关的原子变量(如两个计数器)恰好位于同一个CPU缓存行(通常64字节)中。一个线程修改变量A会导致另一个线程的缓存行失效,即使它只读变量B。解决方案:让变量缓存行对齐 。
struct alignas(64) AlignedCounter { // 64字节对齐 std::atomic<int> counter{0};};AlignedCounter c1, c2; // c1和c2很可能在不同的缓存行中
💎 核心要义
无 lock 编程通过原子操作(尤其是CAS)避免了传统锁的阻塞问题,提升了并发程序的响应能力和在特定场景下的性能。然而,它带来了更高的设计复杂性和诸如ABA问题、内存顺序等新的挑战。切勿盲目追求“无锁”。首先优化你的有锁代码结构。只有当性能分析表明锁竞争已成为瓶颈,且你有信心解决无锁带来的复杂性时,再考虑无锁方案。