当前位置：首页>Linux>[linux 调度器第五讲] 红黑树:CFS 的高效引擎

[linux 调度器第五讲] 红黑树:CFS 的高效引擎

2026-06-28 01:54:38

红黑树：CFS 的高效引擎

Linux 调度子系统技术文档系列 · 第 5 篇

由于缺乏高效的增删改查机制，传统就绪队列在应对大规模进程时产生的 O(n) 耗时，是导致调度器启动延迟的核心瓶颈。Linux 选择了红黑树——一种自平衡二叉搜索树，让查找、插入、删除的时间复杂度全部锁定在 O(log n)。无论就绪进程是 10 个还是 1200 个，调度器的核心操作耗时始终稳定在一个可预期的范围内。

红黑树的"自平衡"并非追求完美平衡。它通过五条颜色规则约束树的形态：根节点为黑色、红色节点不能有红色子节点、每条路径上的黑色节点数量相同。这些规则保证树高不超过 2log(n+1)。代价是插入和删除后需要执行旋转和重新着色操作，但这些调整最多只需两次旋转，不会引发连锁反应。对于调度器这种高频操作场景，局部调整远比全局重平衡高效。

CFS 红黑树的核心组件有哪些？

CFS 将就绪进程组织在 cfs_rq（CFS 就绪队列）中。这个结构体的 tasks_timeline 字段是红黑树的根，类型为 rb_root_cached——Linux 内核提供的一种增强型红黑树，自带最左节点缓存。

每个进程对应的 sched_entity 中嵌入了 rb_node 节点。进程从等待态进入就绪态时，内核通过 run_node 将 sched_entity 挂入红黑树。内核用 container_of（通过 rb_entry 宏封装）从 rb_node 反查 sched_entity，实现零额外内存开销的双向关联。

红黑树的排序键是 vruntime。vruntime 越小的进程，在树中越靠左。理论上，查找最小 vruntime 进程需要从根节点一路向左走 O(log n) 步。但内核在这里做了一个关键的工程优化——rb_root_cached 缓存了最左节点的指针，让调度器最频繁执行的操作降到了 O(1)。

在 EEVDF（Earliest Eligible Virtual Deadline First）算法下，红黑树的功能进一步扩展。树不仅按 deadline 排序，还通过 min_vruntime 增强字段维护子树最小值，实现 O(log n) 的资格剪枝。调度器可以在遍历时快速跳过不满足资格的子树，而不需要遍历所有节点。

进程入树：从等待到就绪的完整路径

进程从阻塞态被唤醒时，内核执行 enqueue_entity。这个函数要完成三件事：更新负载统计、校准时间基准、插入红黑树。插入红黑树只发生在进程不是当前运行进程的情况下——如果是当前进程重新入队，它不需要进树，因为它已经在运行了。

place_entity 负责给新入队的进程分配一个合理的初始 vruntime。对于刚 fork 的子进程，内核会给它一个略高于 min_vruntime 的值，让它有公平竞争的机会。对于从睡眠中唤醒的进程，place_entity 会考虑它等待了多久，适当补偿它的 vruntime。

真正执行树插入的是 __enqueue_entity。内核使用 rb_add_augmented_cached 这个增强版红黑树 API，它同时处理树节点插入、平衡调整、最左节点缓存更新，以及 min_vruntime 增强字段的维护。比较函数 __entity_less 决定节点在树中的位置，回调 min_vruntime_cb 负责在树结构调整后更新 min_vruntime。

rb_add_augmented_cached 内部执行了完整的红黑树插入流程：先按比较函数找到插入位置，挂入节点，执行旋转和重新着色平衡树结构，最后更新最左节点缓存和 min_vruntime。整个过程 O(log n)，最多两次旋转。

出队路径同样简洁。__dequeue_entity 调用 rb_erase_augmented_cached 删除节点，平衡树结构，更新缓存和增强字段，最后减去负载统计。__pick_eevdf 从根节点出发，利用 min_vruntime 做资格剪枝，在 O(log n) 时间内找到最早可达截止期的 eligible 进程。

为什么 CFS 选择红黑树？

这个问题的答案需要从调度场景的特殊约束说起。调度器每毫秒执行一次，每次执行都要做一次查找、可能的删除和可能的插入。这意味着红黑树的操作频率是每秒数千次。在这种频率下，数据结构的选择直接决定了系统的吞吐量和延迟。

让我们逐一排除其他选项。数组的缓存局部性最好，查找最小值却需要 O(n) 的线性扫描。1200 个进程时就是 1200 次比较，加上分支预测失败的代价，调度延迟急剧上升。链表的插入是 O(1)，但查找最小值同样是 O(n)。堆结构查找最小值是 O(1)，删除最小值是 O(log n)，但删除任意元素需要先找到它，最坏是 O(n)——而调度场景中经常需要删除特定进程（比如进程主动退出或被信号杀死）。

红黑树的选择体现了内核开发者的工程权衡。O(log n) 比 O(1) 差吗？在调度场景下，答案是否定的。1200 个进程的 log(1200) 约等于 11，意味着红黑树查找最多 11 次比较。而缓存优化把最常见的查找最小值操作提升到了 O(1)。换句话说，红黑树在 O(log n) 的框架内，通过 rb_leftmost 缓存把最高频操作优化到了 O(1)，同时保持了插入、删除、任意查找全部 O(log n) 的一致性。

这种一致性是红黑树不可替代的核心优势。调度器不能容忍"大部分时候快，偶尔很慢"的行为——一次 O(n) 的抖动就意味着数百毫秒的调度延迟，在实时场景下这是不可接受的。红黑树保证了无论就绪队列多大，每次操作的耗时都在一个可预期的范围内。

从用户空间的角度看，这个选择直接影响了大规模容器部署的体验。在一台运行 1200 个容器的宿主机上，每个容器的启动时间、网络请求响应时间都间接依赖调度器的查找效率。红黑树让调度延迟从 O(n) 的线性增长变成了 O(log n) 的对数增长，1200 个进程相比 10 个进程，理论延迟只增加了 log(1200)/log(10) ≈ 3.1 倍，而不是 120 倍。

总结

红黑树在 CFS 中扮演的角色远不止一个"排序容器"。它是调度器公平性和响应速度的基础设施：通过 vruntime 排序保证进程按虚拟时间公平竞争，通过 rb_leftmost 缓存实现 O(1) 的最小值查找，通过增强型 min_vruntime 字段支持 EEVDF 的资格剪枝，通过 O(log n) 的一致性操作保证大规模场景下的可预期延迟。

Linux 内核在这里做了一个经典的工程决策：不追求理论最优，而追求综合最优。堆在查找最小值上更快，但不支持高效的任意删除；B 树在缓存局部性上更好，但实现复杂度更高。红黑树在所有维度上都达到"足够好"，同时保证了最坏情况下的可预期性。对于操作系统内核，可预期性就是可靠性。

互动问题： 如果你的服务器从 50 个进程扩展到 5000 个容器，红黑树的 O(log n) 能让调度延迟保持在什么范围？EEVDF 引入的 min_vruntime 增强字段相比传统 CFS 的简单左最节点查找，在高并发场景下能减少多少无效遍历？欢迎在评论区分享你的测算结果。

本系列文章基于 Linux 6.19.13 内核源码采用 CC BY-NC-SA 4.0 协议，转载请注明出处

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

[linux 调度器第五讲] 红黑树:CFS 的高效引擎

红黑树：CFS 的高效引擎

CFS 红黑树的核心组件有哪些？

进程入树：从等待到就绪的完整路径

为什么 CFS 选择红黑树？

总结

最新文章

热门文章

随机文章

[linux 调度器第五讲] 红黑树:CFS 的高效引擎

红黑树：CFS 的高效引擎

CFS 红黑树的核心组件有哪些？

进程入树：从等待到就绪的完整路径

为什么 CFS 选择红黑树？

总结

Java开发现在饱和了吗?2026前景非常好!

同样找库,Linux 和 Windows 的逻辑差了多远?

最新文章

热门文章

随机文章