当前位置：首页>Linux>Linux 时间子系统深度解析(二):百万级场景下的无级联时间轮详解

Linux 时间子系统深度解析(二):百万级场景下的无级联时间轮详解

2026-07-03 02:16:33

Linux 时间子系统深度解析（二）：百万级场景下的无级联时间轮详解

引言

Linux 内核 4.10+ 引入的无级联分层时间轮，通过砍掉主动级联、引入位图检索，彻底解决了经典时间轮在百万级定时器场景下的性能问题。

本文重点拆解无级联时间轮的设计原理与边界处理，历史方案仅作为对照出现。

前置术语说明：

jiffies：系统节拍计数器，HZ 为每秒节拍数，HZ=250 时 1 jiffy=4ms；
NOHZ（Tickless）：空闲时关闭系统周期性节拍，降低功耗；
时间轮 (timer wheel)：内核普通低精度定时器，基于 jiffies 实现；
hrtimer：高精度定时器，基于纳秒硬件时钟，底层采用红黑树；
slack：定时器松弛度，允许轻微超时以批量调度降低开销。

一、技术演进与旧方案核心痛点

为了更好理解无级联时间轮的设计初衷，我们快速回顾前代方案，并总结其无法适配百万级定时器的根本问题。

1.1 有序链表：最简单也最拉胯（上古内核）

早期内核使用有序链表管理定时器，新增时需要遍历链表保证顺序，时间复杂度为 O(n)。定时器数量达到百万级别后，插入、删除开销完全不可接受，仅适用于定时器数量极少的场景。

// 有序链表定时器基础结构struct timer {    struct list_head list;    unsigned long expires;    void (*callback)(void *data);    void *data;};// 插入：最坏、平均复杂度均为 O(n)voidadd_timer(struct timer *t) {    struct timer *pos;    list_for_each_entry(pos, &timer_list, list) {        if (pos->expires > t->expires) {            list_add_tail(&t->list, &pos->list);            return;        }    }    list_add_tail(&t->list, &timer_list);}

1.2 红黑树：精度优先，牺牲吞吐量

红黑树将增删复杂度优化至 O(logn)，百万定时器仅需约 20 次节点比较，但在海量短超时场景依然存在明显缺陷：

红黑树节点内存占用高，树旋转带来锁竞争开销。
无法批量处理到期事件；
NOHZ 场景下不能快速定位最早到期定时器，易产生 CPU 尖峰。

红黑树更适合数量少、精度要求高的定时场景。Linux里的hrtimer高精度定时器就是使用红黑树实现。

1.3 经典5级级联时间轮（Linux 2.6~4.10）：曾经的最优解

2005 年内核正式落地5级级联时间轮，巧妙解决内存与性能的平衡问题，也是统治内核十余年的经典架构。

数据结构：5 级桶数组

经典时间轮用 5 级桶数组覆盖全部 32 位时间空间，总桶数仅 512 个，极致节省内存：

级别	桶数量	单桶粒度	覆盖范围	作用
tv1	256	1 jiffy	0 ~ 255	近期定时器，直接扫描触发
tv2	64	256 jiffies	256 ~ 16383	中期定时器，需级联下沉
tv3	64	16384 jiffies	16384 ~ 1048575	长期定时器
tv4	64	1048576 jiffies	1048576 ~ 67108863	更长期定时器
tv5	64	67108864 jiffies	67108864 ~ 4294967295	最远期定时器

核心规则：上层 1 个桶的粒度 = 下层整轮总时长。例如 tv2 的 1 个桶 = 256 jiffies = 一整轮 tv1。

层级结构 ASCII 示意图

┌─────────────────────────────────────────────────────────────────────────────┐│                         经典5级级联时间轮                                   │├─────────────────────────────────────────────────────────────────────────────┤│                                                                             ││   tv1 (256个桶，1桶=1 jiffy)        ← 近期定时器 (直接扫描)                 ││                                                                             ││       0    1    2    3        50               254  255                     ││       │    │    │    │        │                │    │                       ││       ▼    ▼    ▼    ▼        ▼                ▼    ▼                       ││     ┌──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┐                       ││     │  │  │  │  │  │  │  │  │● │  │  │  │  │  │  │  │                       ││     └──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┘                       ││                              ↑                                              ││                              │                                              ││                         例1: 50 jiffy 定时器                                ││                     直接放入 tv1[50]                                        ││                                                                             ││   ════════════════════════════════════════════════════════════════════════  ││                                                                             ││   tv2 (64个桶，1桶=256 jiffies)    ← 中期定时器 (需要级联)                  ││                                                                             ││       0    1    2    3                    62   63                           ││       │    │    │    │                     │    │                           ││       ▼    ▼    ▼    ▼                     ▼    ▼                           ││     ┌──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┬──┐                       ││     │  │● │  │  │  │  │  │  │  │  │  │  │  │  │  │  │                       ││     └──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┴──┘                       ││           ↑                                                                 ││           │                                                                 ││     例2: 300 jiffy 定时器                                                   ││     先放入 tv2[1] (300/256=1.17 → 索引1)                                    ││     等待 j=256 时级联下沉到 tv1                                             ││                                                                             ││   ════════════════════════════════════════════════════════════════════════  ││                                                                             ││   tv3 (64个桶，1桶=16384 jiffies)   ← 长期定时器                            ││   tv4 (64个桶，1桶=1048576 jiffies) ← 更长期                                ││   tv5 (64个桶，1桶=67108864 jiffies)← 最远期                                ││                                                                             │└─────────────────────────────────────────────────────────────────────────────┘

图注解读

tv1 [50] 位置用 ● 标出例 1 的 50 jiffy 定时器，直接放入，无需级联；
tv2 [1] 位置用 ● 标出例 2 的 300 jiffy 定时器，先存入粗粒度高层桶，等待时机下沉；
核心规则复用：上层单桶时长 = 下层完整一轮总时长。

例子 1：256 jiffies 内定时器（无需级联）

当前 jiffies = 0，新增一个 50 jiffies 后到期的定时器。

判定：50 落在 tv1 区间 0~255 内；
入桶：直接放入 tv1 [50]；
触发：jiffies 走到 50，内核扫描对应桶执行回调；全程无需跨层级联迁移。

例子 2：300 jiffies 定时器（需 1 次主动级联下沉）

当前 jiffies = 0，新增一个 300 jiffies 后到期的定时器。

入桶高层：300 超出 tv1 区间，按内核取模公式 (300 / 256) % 64 = 1，存入 tv2 [1]；
级联触发：jiffies = 256，tv1 走完完整一轮，全局触发层级下沉；
重算下沉：剩余超时 = 300 - 256 = 44 jiffy，摘除定时器，迁移至 tv1 [44]；
到期执行：jiffies 走到 300，扫描 tv1 [44] 执行回调；

完整流转路径：tv2[1] → 级联下沉 → tv1[44] → 回调触发

经典时间轮两大致命缺陷

缺陷 1：级联带来不可控 CPU 开销

网络业务绝大多数定时器（TCP 重传、连接保活、conntrack 跟踪）属于异常兜底定时器，绝大多数会在到期前主动删除。但旧式级联为了规整时序，不管定时器是否有效，都会强制遍历链表、重算超时、跨层迁移。业务高峰期单次级联遍历上万定时器，直接产生瞬时 CPU 毛刺，稳定性极差。

缺陷 2：NOHZ 休眠模式性能雪崩

服务器开启 Tickless 空闲省电模式后，系统长时间关闭节拍休眠，唤醒后 jiffies 会一次性跳增数万。旧级联时间轮无全局最小超时位图索引，只能逐节拍模拟时间流逝、每 256 节拍触发一次级联下沉，积压海量迁移任务，瞬间拉高 CPU。

通俗类比：睡过头后，过往几小时所有闹钟全部同时响起，集中爆发压力。

正是因为经典级联时间轮存在级联风暴核心隐患，无法适配百万级高频增删定时器场景，Linux 内核在 4.10 版本完成架构重构，彻底砍掉主动跨层级联逻辑。

二、核心：Linux 4.10+ 无级联分层时间轮

2016 年 Thomas Gleixner 提交内核重构补丁，彻底推翻经典级联逻辑，推出无级联分层时间轮 。核心设计哲学： 放弃极致精度，换取绝对稳定的高性能。

2.1 核心原理：用精度换性能

无级联时间轮的本质：每一级都有自己的 “时钟精度”。

LVL0 的时钟每 4ms 走一格
LVL1 的时钟每 32ms 走一格
LVL2 的时钟每 256ms 走一格

时钟只能按自己的精度前进，定时器也只能按这个精度被触发。定时器创建时就被 “对齐” 到所在层级的时间边界上，永久固定，不再迁移。

下面以 HZ=250 为例，无级联时间轮共 9 层，每层固定 64 个桶，上层粒度 = 下层粒度 × 8。各层级的粒度、误差、覆盖范围如下：

层级	粒度	最大误差	支持范围
LVL0	4 ms	4 ms	0 ms – 255 ms
LVL1	32 ms	32 ms	256 ms – 2047 ms (256ms – ~2s)
LVL2	256 ms	256 ms	2048 ms – 16383 ms (~2s – ~16s)
LVL3	2048 ms	2 秒	16384 ms – 131071 ms (~16s – ~2m)
LVL4	16384 ms	16 秒	131072 ms – 1048575 ms (~2m – ~17m)
LVL5	131072 ms	2 分钟	1048576 ms – 8388607 ms (~17m – ~2h)
LVL6	1048576 ms	17 分钟	8388608 ms – 67108863 ms (~2h – ~18h)
LVL7	8388608 ms	2 小时	67108864 ms – 536870911 ms (~18h – ~6d)
LVL8	67108864 ms	18 小时	536870912 ms – 4294967288 ms (~6d – ~49d)

500ms 定时器如何工作

当前时间 = 0ms，设置一个 500ms 后到期的定时器。

第 1 步：确定层级 500ms 落在 LVL1 的范围（256ms ~ 2047ms），放入 LVL1。

第 2 步：向上取整，确定桶位置 LVL1 精度 32ms，定时器只能按 32ms 的整数倍触发，遵循只晚不早原则：

32ms × 15 = 480ms（太小，会提前触发）32ms × 16 = 512ms（合适，只晚不早）

最终放入 LVL1 [16]（桶索引从 0 开始，对应绝对时间 512ms），索引计算：512 / 32 = 16。

第 3 步：触发 当内核时间走到 512ms 时，LVL1 的时钟走到第 16 格，检查该桶，触发回调。

全程无级联：定时器创建时放入 LVL1 [16] 后永久固定，不再迁移。

核心差异：经典轮中这个定时器会从 tv2 级联到 tv1，而无级联轮中它永久固定在 LVL1 [16]，这就是 “无级联” 的含义。

2.2 对比图示

经典时间轮与无级联时间轮二者取舍对比：

经典时间轮：追求精度 → 定时器不断迁移 → 带来级联开销
无级联时间轮：放弃部分精度 → 定时器固定不动 → 换来 O (1) 增删和无级联开销

下面这个图对比出同样是500ms的定时器，经典级联轮和无级联轮的差异。

【经典级联轮】定时器搬家，精度高    0ms          256ms          500ms     │             │              │     ▼             ▼              ▼  tv2[1] ──级联──► tv1[44] ──触发──► 精确500ms触发【无级联轮】定时器固定，精度换性能    0ms          256ms          512ms     │             │              │     ▼             ▼              ▼  LVL1[16] ────────────────► 触发，晚了12ms  (永久固定)                    (无级联开销)

2.3 误差分析

误差来源：定时器被 “对齐” 到所在层级时钟的整数倍边界。最坏情况误差 = 所在层级的单桶粒度。

如2.1的表格

层级	粒度	最大误差	支持范围
LVL0	4 ms	4 ms	0 ms – 255 ms
LVL1	32 ms	32 ms	256 ms – 2047 ms (256ms – ~2s)
LVL2	256 ms	256 ms	2048 ms – 16383 ms (~2s – ~16s)
LVL3	2048 ms	2 秒	16384 ms – 131071 ms (~16s – ~2m)
LVL4	16384 ms	16 秒	131072 ms – 1048575 ms (~2m – ~17m)
LVL5	131072 ms	2 分钟	1048576 ms – 8388607 ms (~17m – ~2h)
LVL6	1048576 ms	17 分钟	8388608 ms – 67108863 ms (~2h – ~18h)
LVL7	8388608 ms	2 小时	67108864 ms – 536870911 ms (~18h – ~6d)
LVL8	67108864 ms	18 小时	536870912 ms – 4294967288 ms (~6d – ~49d)

可以计算出最大相对误差 = 12.5%（单桶粒度 / 该层起始边界 = 32ms / 256ms）

这里可以看到如果定时一个6天的定时器，这个定时器是LVL8层级，这样最大误差会达到18小时。

网络场景可接受该误差的原因：

超时本身属于 “最坏情况兜底”，小幅延迟不影响业务；
误差单向（只晚不早），不会提前误触发；
以 TCP 重传超时（默认 200ms）为例，32ms 误差完全在容忍范围内。

2.4 三大优化点

无级联：定时器固定不动，彻底消除级联遍历带来的 CPU 开销
位图加速：每层维护位图标记非空桶，O (1) 定位最早到期定时器，解决 NOHZ 模式线性扫描问题
天然批处理：分层粒度本身就是时间分片，无需单独计算 slack 松弛度

2.5 新旧时间轮核心差异对比

特性	经典5级级联时间轮	4.10+无级联分层时间轮
跨层迁移	每轮结束主动下沉，存在无界开销	无主动跨层级联
NOHZ表现	长时间休眠后CPU尖峰	位图O(1)定位，无波动
精度误差	随级联次数递增	最大12.5%可控
Slack处理	需手动计算松弛值	分层粒度天然批处理
层级数量	5层	9层

三、总结与展望

3.1 本文总结

Linux 定时器从链表、红黑树、经典级联时间轮，最终演进到无级联分层时间轮，整个迭代过程始终围绕业务负载特征做取舍。

无级联时间轮之所以成为当前百万级定时器场景的性能之选，核心原因：

砍掉主动级联：定时器固定不动，消除级联遍历带来的 CPU 开销
位图加速检索：O(1) 定位最早到期定时器，解决 NOHZ 休眠后的线性扫描问题
天然时间分片：分层粒度本身就是批处理，无需单独计算 slack

3.2 精度边界与下一篇预告

如 2.3 节误差分析所示，无级联时间轮以放弃精度为代价换取性能。这是它的设计哲学，也是它的天生局限：

LVL1 误差 32ms，LVL2 误差 256ms，层级越深误差越大
适合海量短超时场景（TCP 重传、连接跟踪），不适合高精度场景

如果你的业务需要纳秒级定时精度（如音频采样、硬件驱动、实时控制系统），就需要 hrtimer 实现高精度定时。

下篇预告：本文讲的是“用精度换性能”的 timer wheel，下篇将讲“用性能换精度”的 hrtimer，敬请期待。

参考文献

LWN 2005 经典时间轮介绍：https://lwn.net/Articles/152436/
2005 LKML 多级时间轮性能论证：https://lkml.org/lkml/2005/10/19/46
2016 无级联时间轮重构提交邮件：https://lkml.iu.edu/hypermail/linux/kernel/1606.1/03951.html
内核重构核心 commit：500462a9de65 ("timers: Switch to a non-cascading wheel")

Linux时间子系统系列:

Linux 时间子系统深度解析（一）：jiffies 回绕与时间比较宏的奥秘

jiffies 回绕与时间比较宏的奥秘-补充说明

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Linux 时间子系统深度解析(二):百万级场景下的无级联时间轮详解

Linux 时间子系统深度解析（二）：百万级场景下的无级联时间轮详解

引言

一、技术演进与旧方案核心痛点

1.1 有序链表：最简单也最拉胯（上古内核）

1.2 红黑树：精度优先，牺牲吞吐量

1.3 经典5级级联时间轮（Linux 2.6~4.10）：曾经的最优解

数据结构：5 级桶数组

层级结构 ASCII 示意图

经典时间轮两大致命缺陷

二、核心：Linux 4.10+ 无级联分层时间轮

2.1 核心原理：用精度换性能

2.2 对比图示

2.3 误差分析

2.4 三大优化点

2.5 新旧时间轮核心差异对比

三、总结与展望

3.1 本文总结

3.2 精度边界与下一篇预告

参考文献

最新文章

热门文章

随机文章

Linux 时间子系统深度解析(二):百万级场景下的无级联时间轮详解

Linux 时间子系统深度解析（二）：百万级场景下的无级联时间轮详解

引言

一、技术演进与旧方案核心痛点

1.1 有序链表：最简单也最拉胯（上古内核）

1.2 红黑树：精度优先，牺牲吞吐量

1.3 经典5级级联时间轮（Linux 2.6~4.10）：曾经的最优解

数据结构：5 级桶数组

层级结构 ASCII 示意图

经典时间轮两大致命缺陷

二、核心：Linux 4.10+ 无级联分层时间轮

2.1 核心原理：用精度换性能

2.2 对比图示

2.3 误差分析

2.4 三大优化点

2.5 新旧时间轮核心差异对比

三、总结与展望

3.1 本文总结

3.2 精度边界与下一篇预告

参考文献

Linux进程内存监测与内存泄漏示例

别再死磕Vim!Linux新手必备nano实战教程,运维日常直接用

最新文章

热门文章

随机文章