Linux 内核 4.10+ 引入的无级联分层时间轮,通过砍掉主动级联、引入位图检索,彻底解决了经典时间轮在百万级定时器场景下的性能问题。
本文重点拆解无级联时间轮的设计原理与边界处理,历史方案仅作为对照出现。
前置术语说明:
jiffies:系统节拍计数器,HZ 为每秒节拍数,HZ=250 时 1 jiffy=4ms;
NOHZ(Tickless):空闲时关闭系统周期性节拍,降低功耗;
时间轮 (timer wheel):内核普通低精度定时器,基于 jiffies 实现;
hrtimer:高精度定时器,基于纳秒硬件时钟,底层采用红黑树;
slack:定时器松弛度,允许轻微超时以批量调度降低开销。
为了更好理解无级联时间轮的设计初衷,我们快速回顾前代方案,并总结其无法适配百万级定时器的根本问题。
早期内核使用有序链表管理定时器,新增时需要遍历链表保证顺序,时间复杂度为 O(n)。定时器数量达到百万级别后,插入、删除开销完全不可接受,仅适用于定时器数量极少的场景。
// 有序链表定时器基础结构struct timer {struct list_head list;unsigned long expires;void (*callback)(void *data);void *data;};// 插入:最坏、平均复杂度均为 O(n)voidadd_timer(struct timer *t) {struct timer *pos;list_for_each_entry(pos, &timer_list, list) {if (pos->expires > t->expires) {list_add_tail(&t->list, &pos->list);return;}}list_add_tail(&t->list, &timer_list);}
红黑树将增删复杂度优化至 O(logn),百万定时器仅需约 20 次节点比较,但在海量短超时场景依然存在明显缺陷:
红黑树节点内存占用高,树旋转带来锁竞争开销。
无法批量处理到期事件;
NOHZ 场景下不能快速定位最早到期定时器,易产生 CPU 尖峰。
红黑树更适合数量少、精度要求高的定时场景。Linux里的hrtimer高精度定时器就是使用红黑树实现。
2005 年内核正式落地5级级联时间轮,巧妙解决内存与性能的平衡问题,也是统治内核十余年的经典架构。
经典时间轮用 5 级桶数组 覆盖全部 32 位时间空间,总桶数仅 512 个,极致节省内存:
核心规则:上层 1 个桶的粒度 = 下层整轮总时长。例如 tv2 的 1 个桶 = 256 jiffies = 一整轮 tv1。
┌─────────────────────────────────────────────────────────────────────────────┐│ 经典5级级联时间轮 │├─────────────────────────────────────────────────────────────────────────────┤│ ││ tv1 (256个桶,1桶=1 jiffy) ← 近期定时器 (直接扫描) ││ ││ 0 1 2 3 50 254 255 ││ │ │ │ │ │ │ │ ││ ▼ ▼ ▼ ▼ ▼ ▼ ▼ ││ ┌──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┐ ││ │ │ │ │ │ │ │ │ │● │ │ │ │ │ │ │ │ ││ └──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┘ ││ ↑ ││ │ ││ 例1: 50 jiffy 定时器 ││ 直接放入 tv1[50] ││ ││ ════════════════════════════════════════════════════════════════════════ ││ ││ tv2 (64个桶,1桶=256 jiffies) ← 中期定时器 (需要级联) ││ ││ 0 1 2 3 62 63 ││ │ │ │ │ │ │ ││ ▼ ▼ ▼ ▼ ▼ ▼ ││ ┌──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┐ ││ │ │● │ │ │ │ │ │ │ │ │ │ │ │ │ │ │ ││ └──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┘ ││ ↑ ││ │ ││ 例2: 300 jiffy 定时器 ││ 先放入 tv2[1] (300/256=1.17 → 索引1) ││ 等待 j=256 时级联下沉到 tv1 ││ ││ ════════════════════════════════════════════════════════════════════════ ││ ││ tv3 (64个桶,1桶=16384 jiffies) ← 长期定时器 ││ tv4 (64个桶,1桶=1048576 jiffies) ← 更长期 ││ tv5 (64个桶,1桶=67108864 jiffies)← 最远期 ││ │└─────────────────────────────────────────────────────────────────────────────┘
图注解读
tv1 [50] 位置用 ● 标出例 1 的 50 jiffy 定时器,直接放入,无需级联;
tv2 [1] 位置用 ● 标出例 2 的 300 jiffy 定时器,先存入粗粒度高层桶,等待时机下沉;
核心规则复用:上层单桶时长 = 下层完整一轮总时长。
例子 1:256 jiffies 内定时器(无需级联)
当前 jiffies = 0,新增一个 50 jiffies 后到期的定时器。
判定:50 落在 tv1 区间 0~255 内;
入桶:直接放入 tv1 [50];
触发:jiffies 走到 50,内核扫描对应桶执行回调; 全程无需跨层级联迁移。
例子 2:300 jiffies 定时器(需 1 次主动级联下沉)
当前 jiffies = 0,新增一个 300 jiffies 后到期的定时器。
入桶高层:300 超出 tv1 区间,按内核取模公式 (300 / 256) % 64 = 1,存入 tv2 [1];
级联触发:jiffies = 256,tv1 走完完整一轮,全局触发层级下沉;
重算下沉:剩余超时 = 300 - 256 = 44 jiffy,摘除定时器,迁移至 tv1 [44];
到期执行:jiffies 走到 300,扫描 tv1 [44] 执行回调;
完整流转路径:tv2[1] → 级联下沉 → tv1[44] → 回调触发
缺陷 1:级联带来不可控 CPU 开销
网络业务绝大多数定时器(TCP 重传、连接保活、conntrack 跟踪)属于异常兜底定时器,绝大多数会在到期前主动删除。 但旧式级联为了规整时序,不管定时器是否有效,都会强制遍历链表、重算超时、跨层迁移。业务高峰期单次级联遍历上万定时器,直接产生瞬时 CPU 毛刺,稳定性极差。
缺陷 2:NOHZ 休眠模式性能雪崩
服务器开启 Tickless 空闲省电模式后,系统长时间关闭节拍休眠,唤醒后 jiffies 会一次性跳增数万。 旧级联时间轮无全局最小超时位图索引,只能逐节拍模拟时间流逝、每 256 节拍触发一次级联下沉,积压海量迁移任务,瞬间拉高 CPU。
通俗类比:睡过头后,过往几小时所有闹钟全部同时响起,集中爆发压力。
正是因为经典级联时间轮存在级联风暴核心隐患,无法适配百万级高频增删定时器场景,Linux 内核在 4.10 版本完成架构重构,彻底砍掉主动跨层级联逻辑。
2016 年 Thomas Gleixner 提交内核重构补丁,彻底推翻经典级联逻辑,推出无级联分层时间轮 。核心设计哲学: 放弃极致精度,换取绝对稳定的高性能。
无级联时间轮的本质:每一级都有自己的 “时钟精度”。
LVL0 的时钟每 4ms 走一格
LVL1 的时钟每 32ms 走一格
LVL2 的时钟每 256ms 走一格
时钟只能按自己的精度前进,定时器也只能按这个精度被触发。定时器创建时就被 “对齐” 到所在层级的时间边界上,永久固定,不再迁移。
下面以 HZ=250 为例,无级联时间轮共 9 层,每层固定 64 个桶,上层粒度 = 下层粒度 × 8。各层级的粒度、误差、覆盖范围如下:
500ms 定时器如何工作
当前时间 = 0ms,设置一个 500ms 后到期的定时器。
第 1 步:确定层级 500ms 落在 LVL1 的范围(256ms ~ 2047ms),放入 LVL1。
第 2 步:向上取整,确定桶位置 LVL1 精度 32ms,定时器只能按 32ms 的整数倍触发,遵循只晚不早原则:
32ms × 15 = 480ms(太小,会提前触发)32ms × 16 = 512ms(合适,只晚不早)
最终放入 LVL1 [16](桶索引从 0 开始,对应绝对时间 512ms),索引计算:512 / 32 = 16。
第 3 步:触发 当内核时间走到 512ms 时,LVL1 的时钟走到第 16 格,检查该桶,触发回调。
全程无级联:定时器创建时放入 LVL1 [16] 后永久固定,不再迁移。
核心差异:经典轮中这个定时器会从 tv2 级联到 tv1,而无级联轮中它永久固定在 LVL1 [16],这就是 “无级联” 的含义。
经典时间轮与无级联时间轮二者取舍对比:
经典时间轮:追求精度 → 定时器不断迁移 → 带来级联开销
无级联时间轮:放弃部分精度 → 定时器固定不动 → 换来 O (1) 增删和无级联开销
下面这个图对比出同样是500ms的定时器,经典级联轮和无级联轮的差异。
【经典级联轮】定时器搬家,精度高0ms 256ms 500ms│ │ │▼ ▼ ▼tv2[1] ──级联──► tv1[44] ──触发──► 精确500ms触发【无级联轮】定时器固定,精度换性能0ms 256ms 512ms│ │ │▼ ▼ ▼LVL1[16] ────────────────► 触发,晚了12ms(永久固定) (无级联开销)
误差来源:定时器被 “对齐” 到所在层级时钟的整数倍边界。 最坏情况误差 = 所在层级的单桶粒度。
如2.1的表格
可以计算出最大相对误差 = 12.5%(单桶粒度 / 该层起始边界 = 32ms / 256ms)
这里可以看到如果定时一个6天的定时器,这个定时器是LVL8层级,这样最大误差会达到18小时。
网络场景可接受该误差的原因:
超时本身属于 “最坏情况兜底”,小幅延迟不影响业务;
误差单向(只晚不早),不会提前误触发;
以 TCP 重传超时(默认 200ms)为例,32ms 误差完全在容忍范围内。
无级联:定时器固定不动,彻底消除级联遍历带来的 CPU 开销
位图加速:每层维护位图标记非空桶,O (1) 定位最早到期定时器,解决 NOHZ 模式线性扫描问题
天然批处理:分层粒度本身就是时间分片,无需单独计算 slack 松弛度
Linux 定时器从链表、红黑树、经典级联时间轮,最终演进到无级联分层时间轮,整个迭代过程始终围绕业务负载特征做取舍。
无级联时间轮之所以成为当前百万级定时器场景的性能之选,核心原因:
如 2.3 节误差分析所示,无级联时间轮以放弃精度为代价换取性能。这是它的设计哲学,也是它的天生局限:
如果你的业务需要纳秒级定时精度(如音频采样、硬件驱动、实时控制系统),就需要 hrtimer 实现高精度定时。
下篇预告:本文讲的是“用精度换性能”的 timer wheel,下篇将讲“用性能换精度”的 hrtimer,敬请期待。
LWN 2005 经典时间轮介绍:https://lwn.net/Articles/152436/
2005 LKML 多级时间轮性能论证:https://lkml.org/lkml/2005/10/19/46
2016 无级联时间轮重构提交邮件:https://lkml.iu.edu/hypermail/linux/kernel/1606.1/03951.html
内核重构核心 commit:500462a9de65 ("timers: Switch to a non-cascading wheel")