想象一下,你正驾驶一辆高速行驶的超级跑车(你的Linux系统),突然引擎发出奇怪的“咯噔”声——应用卡顿、延迟飙升、CPU莫名其妙地100%占用。你打开引擎盖,却只能看到一团黑盒子……ftrace 就是那台X光机,能直接照亮内核最深处:每一个函数调用、每一次中断关闭、每一次调度唤醒,甚至硬件延迟。它不是用户态的“表面功夫”(像strace),而是内核原生的“飞行记录仪”,能实时抓取函数级、事件级、延迟级的“黑匣子数据”。
ftrace(Function Tracer)自2008年由Red Hat的Steven Rostedt(受Ingo Molnar启发)引入Linux 2.6.28内核,已成为内核开发者、性能工程师、实时系统调优者的“必备神器”。它轻量、原生、可控,开销可低至几乎零(禁用时),却能揭示调度器、文件系统、网络栈、内存管理等内核“黑魔法”。今天我们来一次最生动、最全面、最实战的深度之旅,从原理到最佳实践,一步步带你“解剖”内核。
1. ftrace 的诞生与演进:从“函数追踪”到“全能追踪框架”
2008年前,内核调试靠 printk、kgdb 或外部工具,效率低下。Steven Rostedt 在2.6.28-rc2中首次提交ftrace,最初只追踪函数调用(function tracer)。后续迅速进化:
- 2009年:支持function_graph、irqsoff/preemptoff等latency tracers。
- 2010年后:动态ftrace(实时patch)、tracepoints、kprobes集成。
- 4.1+:独立tracefs文件系统(不再依赖debugfs)。
- 现代内核(6.x+):支持histograms、synthetic events、multiple instances、trace triggers,甚至与eBPF深度融合。
它如今是Linux tracing子系统的基石,与perf、eBPF形成“黄金三角”。官方文档(kernel.org)至今仍在持续更新。
内核中的位置一览(静态tracepoints如何嵌入内核各模块):

2. 工作原理:动态插桩 + 环形缓冲区(超生动图解)
ftrace的核心是编译器插桩 + 动态patch:
- 内核编译时开启
CONFIG_DYNAMIC_FTRACE(默认),GCC用-pg(老版本)或-mfentry(现代x86/arm64)在几乎每个函数入口插入mcount / __fentry__调用。 - 启动时,这些调用被实时patch成NOP(无操作指令)——禁用时零开销!
- 启用追踪时,ftrace把NOP动态替换为跳转到
ftrace_caller / ftrace_graph_caller。 - 函数图追踪额外劫持返回地址,实现调用深度 + 入口/出口时间戳 + 时长统计。
- 数据存入每个CPU独立的ring buffer(环形缓冲,避免锁争用)。
动态patch流程图(syscall被hook的完整生命周期):

环形缓冲区示意图(数据如何流动,避免OOM):

Kernel配置界面(你编译内核时能看到的tracers选项):

3. tracefs:ftrace的“控制中枢”
挂载后进入“指挥室”:
mount -t tracefs nodev /sys/kernel/tracingcd /sys/kernel/tracingls -l
核心文件/目录速查表:
available_tracers / current_tracer:切换追踪器(改tracer会清空buffer)。tracing_ontrace:快照读取(读时可能暂停新事件);trace_pipe:实时流式输出(推荐live tracing)。buffer_size_kb:每CPU缓冲(默认4MB,调大防溢出,但监控内存)。set_ftrace_filter / set_ftrace_notrace / set_graph_function:精准过滤(通配符*,模块过滤mod:ext4)。events/:静态tracepoints(sched、irq、kmem、net等,远比全函数高效)。instances/options/ / trace_options:输出格式(stacktrace、funcgraph-duration等)。per_cpu/
4. 所有tracers使用场景介绍
cat available_tracers 常见tracers:
- function
- function_graph:入口+出口+深度+时长+overhead。输出带缩进,像调用树!
- 时长标记:
+ (>10us) / ! (>100us) / # (>1ms) / * (>10ms) 等。 - 示例截图(真实function_graph输出):

- irqsoff / preemptoff / preemptirqsoff:抓中断/抢占关闭最长时间(latency tracer)。场景:实时系统卡顿排查。
- wakeup / wakeup_rt
- hwlat
- nop
latency tracer输出示例(带延迟标记和栈):
5. 实战命令 + 高级功能(一步步上手)
入门function_graph:
cd /sys/kernel/tracingecho function_graph > current_tracerecho'ext4_*' > set_ftrace_filter # 只看ext4文件系统echo 1 > tracing_on# 现在运行你的程序:dd if=/dev/zero of=test.img bs=1M count=100sleep 5echo 0 > tracing_oncat trace | less
高级玩法:
- PID过滤:
echo $$ > set_ftrace_pid(只追踪当前shell及其子进程)。 - 触发器:
echo 'sys_open:traceoff:1' > set_ftrace_filter(第一次open后自动停止)。 - Histograms:
events/sched/sched_wakeup/trigger 统计唤醒次数。 - Multi-instances:
mkdir instances/io_trace 隔离IO追踪。
trace-cmd一键脚本(用户态友好版,Brendan Gregg风格):
sudo trace-cmd record -p function_graph -l 'ext4_*' -o trace.dat sleep 10trace-cmd report -i trace.dat
KernelShark GUI(可视化神器,时间线+火焰图+过滤):
(实际界面类似Trace Compass的ftrace flame chart)


6. 一些使用案例
- Netflix IO延迟:用ftrace + perf-tools的
iosnoop抓blk层,定位ext4 journal问题。 - 调度器卡顿:irqsoff tracer发现中断关闭超200us → 优化驱动。
- 高CPU:function_graph看到某个模块疯狂kmem_alloc → 内存泄漏。
7. ftrace vs 其他工具对比(选型指南)
8. 最佳实践(生产级避坑指南)
- 永远过滤! 全局function tracer = 自杀。必用
set_ftrace_filter + set_ftrace_pid。 - 短时+脚本:写一个
ftrace-start.sh + ftrace-stop.sh,用tracing_on开关。 - Buffer调优:
echo 16384 > buffer_size_kb(高负载),监控/proc/meminfo。 - 优先events而非function
- 生产策略
- 结合Brendan Gregg perf-tools(github.com/brendangregg/perf-tools)。
- 全局开关:
/proc/sys/kernel/ftrace_enabled=0 紧急关闭。
- 常见坑
- 读
trace会暂停追踪 → 用trace_pipe。 - 大buffer易OOM → 用
free_buffer。 -mfentry
推荐脚本模板(保存为ftrace-debug.sh):
#!/bin/bashTRACER=function_graphFILTER='ext4_*|blk_*'echo$TRACER > current_tracerecho"$FILTER" > set_ftrace_filterecho 1 > tracing_onecho"Tracing started... Ctrl+C to stop"trap'echo 0 > tracing_on; echo nop > current_tracer; echo "Trace saved to trace.log"; cat trace > trace.log' INTsleep infinity
9. 总结 + 进阶学习
ftrace让你从“猜”变成“看”——内核不再是黑盒。掌握它,你能轻松解决90%的内核性能谜题。
官方必读:
- https://www.kernel.org/doc/html/latest/trace/ftrace.html
- Brendan Gregg《Systems Performance》 + perf-tools