Linux内核调度机制全解析(分层架构+触发逻辑+定时器链路)
Linux内核调度机制采用分层解耦的设计思路,核心目标是为不同类型进程(实时/非实时)提供高效、公平且稳定的CPU调度能力。本文从分层架构、触发逻辑、定时器核心机制到代码链路,全方位解析从“触发调度”到“完成进程切换”的完整流程。
一、调度机制的分层架构
调度机制拆解为6个核心层次,每层专注解决一类问题,上层依赖下层、下层不感知上层;辅助层为所有层级提供通用支撑。
1.1 分层架构流程图
1.2 各层级核心职责与组件
| | |
|---|
| | 触发场景:内核抢占/中断返回/定时器/进程主动调度;标记:TIF_NEED_RESCHED |
| | 函数:preempt_schedule_irq/preempt_schedule/schedule |
| | 调度器类:DL(硬实时)> RT(软实时)> CFS(普通进程);接口:pick_next_task |
| | 函数:__schedule(总入口)、pick_next_task(选进程)、put_prev_task |
| | 函数:context_switch(总入口)、switch_to(寄存器切换)、mm_switch |
| | 组件:runqueue(每CPU运行队列)、sched_entity、负载均衡/调度统计 |
二、调度触发层深度解析
触发层分为被动触发(内核强制) 和主动触发(进程自愿) 两大类,是调度机制的“启动开关”。
2.1 被动触发(内核强制调度)
进程不主动发起请求,由内核触发调度:
| | | | |
|---|
| | TIF_NEED_RESCHED | preempt_schedule | |
| | TIF_NEED_RESCHED | preempt_schedule_irq | |
| | | schedule | |
| | 负载均衡检查 + TIF_NEED_RESCHED | schedule | |
2.2 主动触发(进程自愿调度)
进程主动调用内核接口放弃CPU,可控性最强:
- 1. 进程主动放弃CPU:调用
schedule()(强制)、cond_resched()(条件)、yield()(用户态让步),典型场景如sleep(1); - 2. 进程状态变更:从可运行态(
TASK_RUNNING)切换到非可运行态(等待I/O/信号量),主动调用schedule(); - 3. 系统调用/异常处理:
fork()/exec()/缺页异常等收尾阶段,检测TIF_NEED_RESCHED触发调度。
2.3 特殊触发源
- • CPU热插拔:CPU上下线时迁移进程触发调度;
- • 调试/跟踪:内核调试器暂停/恢复进程时触发调度。
三、定时器触发调度的核心机制
定时器触发是被动调度的核心场景,基于CPU周期性时钟中断驱动,形成“注册-触发-检查-切换”闭环。
3.1 核心依赖:内核定时器
关键关联:每个CPU的runqueue绑定调度专用定时器,超时周期由进程时间片长度决定。
3.2 定时器触发调度流程
步骤1:定时器初始化与注册
进程被选中运行时,调度器根据其调度器类计算时间片:
- • RT(SCHED_RR):固定时间片(默认100ms,可通过
/proc/sys/kernel/sched_rr_timeslice_ms配置); - • 负载均衡:固定周期(如200ms)。为当前CPU的
runqueue注册定时器,并绑定超时处理函数sched_tick()。
步骤2:定时器到期触发时钟中断
定时器超时后触发CPU时钟中断,CPU暂停当前进程进入内核态,最终调用sched_tick()。
步骤3:sched_tick() 核心处理
衔接定时器与调度器类的核心函数,执行以下操作:
- 1. 更新当前进程运行时间、
runqueue负载统计; - 2. 调用对应调度器类的
task_tick接口(如CFS→task_tick_fair)设置TIF_NEED_RESCHED; - 3. 触发
load_balance()检查并迁移进程,平衡CPU负载。
步骤4:抢占安全点检测
内核在安全点(如系统调用返回、中断返回)检测TIF_NEED_RESCHED标记,调用调度入口函数进入核心决策层,完成进程切换。
3.3 关键数据结构与函数
| |
|---|
runqueue | 每CPU运行队列,包含定时器、进程列表、负载统计等核心调度数据 |
sched_tick() | 定时器中断的核心处理函数,衔接定时器与调度器类的时间片逻辑 |
task_tick_xxx() | 各调度器类的时间片检查函数(task_tick_fair/task_tick_rt) |
TIF_NEED_RESCHED | |
hrtimer | |
四、CFS调度器定时器触发的代码链路
以CFS(普通进程)为例,梳理从定时器到期到进程切换的完整代码调用链路,聚焦核心逻辑。
4.1 整体调用链路
4.2 核心函数拆解(按执行顺序)
步骤1:时钟中断触发(起点)
定时器到期触发CPU时钟中断,最终调用sched_tick():
// 时钟中断处理核心逻辑(精简版)void update_process_times(int user_tick){struct task_struct *p = current; account_process_tick(p, user_tick); // 统计进程运行时间 sched_tick(); // 调度器Tick核心入口}static void tick_sched_handle(struct tick_sched *ts, struct pt_regs *regs){ update_process_times(user_mode(regs)); // 衔接时钟中断与调度器}
步骤2:sched_tick() —— 调度器Tick入口
void sched_tick(void) { int cpu = smp_processor_id();struct rq *rq = cpu_rq(cpu); // 获取当前CPU的runqueuestruct task_struct *donor = rq->donor; update_rq_clock(rq); // 更新运行队列时钟 // 调用当前进程所属调度器类的时间片检查接口(CFS→task_tick_fair) donor->sched_class->task_tick(rq, donor, 0); calc_global_load_tick(rq); // 负载均衡检查}
步骤3:task_tick_fair() —— CFS时间片检查
void task_tick_fair(struct rq *rq, struct task_struct *curr, int queued) {struct cfs_rq *cfs_rq;struct sched_entity *se = &curr->se; // 遍历找到当前进程所属的CFS运行队列 for_each_sched_entity(se) { cfs_rq = cfs_rq_of(se); entity_tick(cfs_rq, se, queued); // 检查时间片消耗 } update_misfit_status(curr, rq); // 负载适配检查 task_tick_core(rq, curr); // 判断是否需要触发调度}
步骤4:task_tick_core() —— 时间片耗尽判断
通过vruntime(虚拟运行时间)判断公平性,时间片耗尽则标记调度:
static inline void task_tick_core(struct rq *rq, struct task_struct *curr){ if (!sched_core_enabled(rq)) return; // 检测时间片耗尽且存在空闲CPU,触发调度 if (rq->core->core_forceidle_count && rq->cfs.nr_queued == 1 && __entity_slice_used(&curr->se, MIN_NR_TASKS_DURING_FORCEIDLE)) resched_curr(rq); // 标记需要调度}
步骤5:resched_curr() —— 设置调度标记
为当前进程设置TIF_NEED_RESCHED标记,触发后续调度:
void resched_curr(struct rq *rq){ __resched_curr(rq, TIF_NEED_RESCHED);}static void __resched_curr(struct rq *rq, int tif){struct task_struct *curr = rq->curr;struct thread_info *cti = task_thread_info(curr); // 已标记则直接返回 if (cti->flags & ((1 << tif) | _TIF_NEED_RESCHED)) return; // 本地CPU进程:直接设置标记 if (cpu_of(rq) == smp_processor_id()) { set_ti_thread_flag(cti, tif); if (tif == TIF_NEED_RESCHED) set_preempt_need_resched(); return; } // 远端CPU进程:发送IPI中断触发调度 if (set_nr_and_not_polling(cti, tif)) smp_send_reschedule(cpu_of(rq));}
步骤6:抢占安全点检测与调度入口
内核在安全点检测TIF_NEED_RESCHED标记,调用对应入口函数:
// 中断返回场景的调度检测void raw_irqentry_exit_cond_resched(void){ if (!preempt_count()) { // 无抢占计数(安全上下文) rcu_irq_exit_check_preempt(); if (need_resched() && arch_irqentry_exit_need_resched()) preempt_schedule_irq(); // 中断上下文调度入口 }}// 中断上下文调度入口函数asmlinkage __visible void __sched preempt_schedule_irq(void){enum ctx_state prev_state; BUG_ON(preempt_count() || !irqs_disabled()); prev_state = exception_enter(); do { preempt_disable(); // 禁用抢占,防止递归 local_irq_enable(); // 临时开启中断 __schedule(SM_PREEMPT); // 进入核心决策层 local_irq_disable(); sched_preempt_enable_no_resched(); } while (need_resched()); // 循环直到标记清除 exception_exit(prev_state);}
步骤7:__schedule() —— 核心调度决策
void __sched __schedule(unsigned int sched_mode) {struct task_struct *prev, *next;struct rq *rq = cpu_rq(smp_processor_id()); prev = rq->curr; // 选择下一个要运行的进程(CFS→pick_next_task_fair) next = pick_next_task(rq, rq->donor, &rf); // 进程不同则触发上下文切换 if (likely(prev != next)) { rq->nr_switches++; rq = context_switch(rq, prev, next, &rf); // 切换CPU执行权 }}
步骤8:context_switch() —— 上下文切换(终点)
完成寄存器、地址空间的切换,转移CPU执行权:
static __always_inline struct rq *context_switch(struct rq *rq, struct task_struct *prev, struct task_struct *next, struct rq_flags *rf){ // 内核线程:复用前进程地址空间(懒切换TLB) if (!next->mm) { enter_lazy_tlb(prev->active_mm, next); next->active_mm = prev->active_mm; } else { // 用户进程:切换页表(地址空间) switch_mm_irqs_off(prev->active_mm, next->mm, next); } // 寄存器/栈切换(汇编实现) switch_to(prev, next, prev); return finish_task_switch(prev);}
五、核心设计总结
- 1. 分层解耦:6层架构实现“触发-适配-策略-决策-切换-支撑”全流程解耦,适配不同进程类型和触发场景;
- 2. 触发逻辑:被动触发(定时器/抢占)为核心,主动触发为补充,通过
TIF_NEED_RESCHED标记统一管控; - 3. 公平性核心:CFS通过
vruntime动态分配CPU时间,无固定时间片,实现“完全公平”; - 4. 高效性设计:
runqueue和定时器均为每CPU私有,无全局锁竞争,提升调度效率; - 5. 精度适配:高精度定时器(
hrtimer)支撑CFS/RT的纳秒级时间片管理,兼顾性能与实时性。