当前位置：首页>Linux>linux 调度器全景图:从 CPU 占用率说起--基于kernel6.19

linux 调度器全景图:从 CPU 占用率说起--基于kernel6.19

2026-06-28 01:39:21

调度器全景图：从 CPU 占用率说起

Linux 调度子系统技术文档系列 · 第 1 篇

大半夜，你的告警群里突然弹出一条消息：某台生产服务器的 CPU 持续 100% 超过 5 分钟。你打开终端，敲下 top，赫然看到某个 PID 的进程占据了整颗核心。你心里一紧——这个进程会不会把其他服务"饿死"？如果这是一台 48 核机器，情况可能没那么糟糕；但如果它是跑在容器里的单核 Pod，其他所有线程可能已经被阻塞到崩溃。

这个时候，大部分运维工程师会先 kill -9 保命。但如果你是一名内核开发者，你自然会追问一个问题：调度器在做什么？它为什么会允许某个进程霸占 CPU？ 换句话说，当我们看到 CPU 100% 这个数字时，内核究竟经历了怎样的决策链？

答案不在 top 命令里，而在 kernel/sched/ 下的几千行 C 代码中。

调度器是什么？它有哪些职责？

Linux 调度器是内核中负责"谁用 CPU、用多久"的决策模块。它的核心职责可以概括为以下几点：

进程选择
：从就绪队列中选出下一个要执行的进程
上下文切换
：保存当前进程状态、恢复目标进程状态
时间分配
：通过时间片和权重机制控制每个进程的执行长度
优先级管理
：高优先级任务必须能抢占低优先级任务
负载均衡
：在多核系统中将任务分散到不同的 CPU

这些职责并不是由一段函数完成的。现代 Linux 调度器采用了一种分层调度类（Scheduling Class）的设计——每种调度策略被封装成一个独立的模块，按优先级串联在一起。

为什么要这样做？早期的 Linux 内核只有一个统一调度器，所有任务共用一套逻辑。随着实时任务、Deadline 任务、CFS 公平调度的需求涌入，单一调度器变成了巨大的 if-else 堆砌。2007 年，Ingo Molnar 在内核 2.6.23 中引入了 CFS，随后调度类分层架构逐渐成型。这种设计的本质是关注点分离：每一层只关心自己的任务类型，调度器主循环只需要"从上到下问一遍谁有活儿"。

调度类有哪些？它们的层次关系是什么？

Linux 内核按优先级从高到低定义了五个调度类。优先级数字越小，级别越高——这不是随意约定的，它决定了调度器扫描的顺序：

stop_sched_class
（最高）：用于 CPU 热插拔、停机迁移等关键操作
dl_sched_class
：Deadline 实时调度，为有严格截止时间约束的任务服务
rt_sched_class
：传统的 SCHED_FIFO / SCHED_RR 实时任务
fair_sched_class
：CFS 完全公平调度，承载 99% 的普通进程
idle_sched_class
（最低）：空闲任务，只在 CPU 无事可做时运行

每个调度类本质上是一个函数指针集合。内核通过 struct sched_class 将各种操作抽象成统一接口：

queue_mask
：位掩码，标识该类在运行队列中是否有任务。stop=16、dl=8、rt=4、fair=2、idle=0
enqueue_task / dequeue_task
：任务入队和出队，每个调度类有自己的队列实现
pick_task / pick_next_task
：核心选择逻辑，返回该类中下一个要运行的任务
put_prev_task / set_next_task
：上下文切换前后处理，负责记账和状态更新
wakeup_preempt
：唤醒检查，决定新唤醒的任务是否可以抢占当前任务
task_tick
：周期性 tick 回调，用于时间片耗尽检测和统计

这里有一个关键的性能权衡：为什么 pick_task 和 pick_next_task 要分成两个接口？因为 pick_task 只需要"看看有没有"，而 pick_next_task 需要完成 put_prev + set_next 的完整切换流程。在快路径（fast path）优化中，如果只需要判断某调度类是否可运行，直接调 pick_task 可以避免不必要的状态切换开销。

运行队列 struct rq 是什么？它有哪些核心成员？

每个 CPU 都拥有一个独立的运行队列 struct rq。这是调度器最重要的数据结构之一——所有的调度决策都围绕着它展开。

queue_mask
：与 sched_class->queue_mask 对应，标记当前 CPU 上哪些调度类有可运行任务。调度器在选择下一个任务时，先看这个掩码来决定要不要跳过某一层
cfs / rt / dl
：三种主要调度类的子队列。CFS 使用红黑树维护虚拟运行时间（vruntime），RT 使用 FIFO 数组，DL 使用 Earliest Deadline First 算法
curr
（或 donor）：指向当前正在 CPU 上运行的 task_struct 指针。调度器每次选择新任务后，会把这个指针指向新的任务
clock
：调度器的时间基准。每次 pick_next_task 都会先更新这个时钟，确保时间片计算准确

为什么要每个 CPU 一个独立队列？想象一下，如果所有 CPU 共享一个全局队列，每次入队、出队都需要加同一把锁。在 64 核系统上，64 个核同时竞争一把锁，调度延迟会直接飙升到毫秒级。独立队列将锁粒度缩小到单核级别，代价是负载均衡变得复杂——但这是一个值得的交换。

从 schedule() 到 pick_next_task()：一次完整的调度流程

当用户态程序调用 sched_yield()、或者等待 I/O 进入睡眠、或者时间片耗尽被中断触发时，最终都会走到同一个入口：schedule()。

__schedule_loop 是一个 do-while 循环。它先禁止内核抢占，调用 __schedule() 执行核心调度逻辑，然后重新打开抢占。循环条件 need_resched() 检查当前任务是否被设置了重调度标志——如果有，说明在刚刚的调度过程中又有更高优先级的任务被唤醒了，需要再跑一轮。

真正的选择逻辑在 __schedule() 内部，它最终会调用 pick_next_task()：

这段代码揭示了一个非常重要的设计：快路径 vs 慢路径。在生产环境中，99% 以上的调度场景只有 CFS 任务（普通进程），所以内核在入口处做了一个短路判断——如果当前运行队列全是 CFS 任务，直接调 pick_next_task_fair，跳过 stop/dl/rt 三层检查。这个优化将调度路径从多次函数调用缩减为一次直接跳转。

当存在实时任务时，才会走慢路径：for_each_active_class 从 stop_sched_class 开始逐层向下询问，一旦某一层返回了非空任务，就立刻返回。这就是为什么一个 SCHED_FIFO 任务可以完全"饿死"普通进程——只要它不主动让出 CPU，for_each_active_class 永远在 RT 层就返回了，根本轮不到 CFS 层。

现在回到文章开头的问题：为什么某个进程能霸占 CPU？ 三种可能的根因：

RT 任务死循环
：SCHED_FIFO 任务没有阻塞点，调度器永远不会强制抢占
CFS 权重失衡
：一个 nice=-20 的进程获得的 CPU 时间是 nice=19 的 1024 倍，在极端情况下低优先级进程可能几乎得不到调度
自旋锁忙等待
：用户态程序在自旋锁上忙等，虽然它是 CFS 任务，但调度器会按时间片分配 CPU，而忙等待会持续消耗整个时间片

要排查这类问题，top 只能告诉你"谁在跑"，而 perf sched 或者 /proc/sched_debug 才能告诉你"为什么它一直在跑"。

架构哲学

Linux 调度器的分层架构可以概括为三句话：

高优先级必须能抢占低优先级
——这通过 for_each_active_class 的从上到下扫描顺序保证
快路径要够快，慢路径要够全
——CFS 快路径优化是性能工程师的精心之作
每一层只管自己的事
——调度类之间通过统一接口通信，内部实现完全隔离

这种设计的代价是代码量庞大，好处是每一种调度策略都可以独立演进。SchedExt（eBPF 扩展调度器）能在 6.12 内核中被合并，正是得益于调度类接口的开放性。

思考题

如果一个 SCHED_FIFO 实时任务在单核机器上执行死循环，会发生什么？系统还有救吗？
top
命令显示的 %CPU 列，和内核中的 rq->nr_running 有什么关系？
在 __pick_next_task 的快路径中，为什么需要检查 !sched_class_above(prev->sched_class, &fair_sched_class)？这个条件不满足时会发生什么？

欢迎在评论区分享你的调试经验和思考。

本系列文章基于 Linux 6.19.13 内核源码采用 CC BY-NC-SA 4.0 协议，转载请注明出处

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

linux 调度器全景图:从 CPU 占用率说起--基于kernel6.19

调度器全景图：从 CPU 占用率说起

调度器是什么？它有哪些职责？

调度类有哪些？它们的层次关系是什么？

运行队列 struct rq 是什么？它有哪些核心成员？

从 schedule() 到 pick_next_task()：一次完整的调度流程

架构哲学

思考题

最新文章

热门文章

随机文章

linux 调度器全景图:从 CPU 占用率说起--基于kernel6.19

调度器全景图：从 CPU 占用率说起

调度器是什么？它有哪些职责？

调度类有哪些？它们的层次关系是什么？

运行队列 struct rq 是什么？它有哪些核心成员？

从 schedule() 到 pick_next_task()：一次完整的调度流程

架构哲学

思考题

Linux通知链

tar 不是压缩工具:一篇讲透 Linux 归档与压缩的设计哲学

最新文章

热门文章

随机文章