
关注「Raymond运维」公众号,并设为「星标」,也可以扫描底部二维码加入群聊,第一时间获取最新内容,不再错过精彩内容。
凌晨三点,手机疯狂震动,监控告警显示某台服务器 CPU 使用率飙到 98%。这种场景对于运维来说再熟悉不过了。问题是,很多时候我们手忙脚乱地登上服务器,top 一看全是进程,却不知道从哪下手。更糟糕的是,等领导问起来"到底是什么原因",我们支支吾吾说不清楚,最后锅就背上了。
这篇文章要解决的就是这个问题:建立一套标准化的 CPU 飙高排查流程,让你在 5 分钟内定位到问题根因,留下完整的证据链,不再稀里糊涂地背锅。
很多人到了现场才发现工具没装,这是大忌。提前把排查工具装好是基本功。
# CentOS/RHEL 系统sudo yum install -y sysstat perf strace htop iotop lsof# Ubuntu/Debian 系统sudo apt install -y sysstat linux-tools-common linux-tools-$(uname -r) strace htop iotop lsof# 验证安装which mpstat pidstat perf strace处理故障时最重要的原则:先采集,再操作。
# 创建故障现场目录INCIDENT_DIR="/tmp/incident_$(date +%Y%m%d_%H%M%S)"mkdir -p $INCIDENT_DIRcd$INCIDENT_DIR# 记录当前时间戳,后续所有数据都以此为基准echo"故障处理开始时间: $(date '+%Y-%m-%d %H:%M:%S')" > timeline.log# 第一眼:看整体负载和 CPU 分布uptime# 输出示例:10:30:01 up 45 days, 3:22, 2 users, load average: 12.53, 8.21, 4.15# load average 三个数字分别是 1分钟、5分钟、15分钟的平均负载# 如果 1分钟 >> 15分钟,说明是刚刚飙起来的# CPU 各核心使用情况mpstat -P ALL 1 3说明:mpstat 输出中重点关注 %usr(用户态)、%sys(内核态)、%iowait(IO等待)这三列。如果 %usr 高,问题在应用代码;如果 %sys 高,可能是系统调用频繁或内核问题;如果 %iowait 高,其实是 IO 问题伪装成 CPU 问题。
# 方法一:top 实时查看(按 P 键按 CPU 排序)top -bn1 -o %CPU | head -20 > $INCIDENT_DIR/top_snapshot.txt# 方法二:ps 一次性快照ps aux --sort=-%cpu | head -20 > $INCIDENT_DIR/ps_snapshot.txt# 方法三:pidstat 持续采样(更准确)pidstat -u 1 10 > $INCIDENT_DIR/pidstat_cpu.txt &实战经验:top 看到的 CPU% 是瞬时值,有时候会"漏掉"那些短暂飙高的进程。pidstat 持续采样 10 秒取平均值,数据更可靠。
找到可疑进程后,立刻记录它的详细信息:
# 假设发现 PID 12345 是问题进程PID=12345# 记录进程的完整命令行cat /proc/$PID/cmdline | tr '\0'' ' > $INCIDENT_DIR/proc_cmdline.txt# 记录进程的环境变量(有时候能看出是哪个应用)cat /proc/$PID/environ | tr '\0''\n' > $INCIDENT_DIR/proc_environ.txt# 记录进程打开的文件描述符ls -la /proc/$PID/fd > $INCIDENT_DIR/proc_fd.txt# 记录进程的内存映射(能看出加载了哪些库)cat /proc/$PID/maps > $INCIDENT_DIR/proc_maps.txt一个进程里可能有几十个线程,我们需要知道具体是哪个线程在消耗 CPU。
# 查看进程内各线程的 CPU 使用情况top -Hp $PID -bn1 | head -20 > $INCIDENT_DIR/threads_snapshot.txt# 或者用 pidstatpidstat -t -p $PID 1 5 > $INCIDENT_DIR/pidstat_threads.txt说明:-H 参数让 top 显示线程而不是进程。找到 CPU 最高的那个线程 ID(TID),后面分析堆栈时会用到。
知道了哪个线程消耗 CPU,下一步是看它在执行什么代码。
# 对于 Java 应用TID=12346 # 假设这是 CPU 最高的线程 IDprintf"%x\n"$TID# 转成十六进制,jstack 用得到# 假设输出 303a# 打印 Java 线程堆栈jstack $PID > $INCIDENT_DIR/jstack.txt# 然后在 jstack.txt 里搜索 nid=0x303a 就能找到这个线程的堆栈# 对于 C/C++/Go 等原生应用pstack $PID > $INCIDENT_DIR/pstack.txt 2>&1# 或者用 gdb(更详细但会短暂暂停进程)gdb -p $PID -batch -ex "thread apply all bt" > $INCIDENT_DIR/gdb_bt.txt 2>&1如果堆栈看不出问题,可能是在等待某个系统调用。
# strace 跟踪系统调用(注意:会影响性能,生产环境慎用)timeout 10 strace -c -p $PID > $INCIDENT_DIR/strace_summary.txt 2>&1# 如果需要看具体调用timeout 5 strace -tt -T -p $PID > $INCIDENT_DIR/strace_detail.txt 2>&1警告:strace 对性能有影响,在生产环境只采集几秒钟就够了,千万别挂着不管。
perf 是 CPU 性能分析的大杀器,采集数据用于后续生成火焰图。
# 对特定进程采样 30 秒perf record -F 99 -p $PID -g -- sleep 30mv perf.data $INCIDENT_DIR/# 生成报告(文本格式)perf report --stdio > $INCIDENT_DIR/perf_report.txt# 如果安装了 FlameGraph 工具,可以生成火焰图# perf script | stackcollapse-perf.pl | flamegraph.pl > $INCIDENT_DIR/flamegraph.svg在找到根因之前,可能需要先控制住局面。
# 方案一:降低进程优先级(让出 CPU 给其他服务)renice 19 -p $PID# 方案二:限制 CPU 使用(需要 cgroups)# 创建一个限制组sudo cgcreate -g cpu:/limit_group# 限制为 50% CPUecho 50000 | sudo tee /sys/fs/cgroup/cpu/limit_group/cpu.cfs_quota_usecho 100000 | sudo tee /sys/fs/cgroup/cpu/limit_group/cpu.cfs_period_us# 把问题进程放进去sudo cgclassify -g cpu:/limit_group $PID# 方案三:最后手段——重启服务(确保已经采集完数据)# systemctl restart xxx# 持续观察 CPU 使用情况watch -n 1 "ps -p $PID -o %cpu,cmd"# 或者用 top 盯着看top -p $PID#!/bin/bash# CPU高负载故障现场采集脚本# 文件名:cpu_incident_collector.shset -e# 检查是否为 rootif [ "$EUID" -ne 0 ]; thenecho"请使用 root 权限运行此脚本"exit 1fi# 创建采集目录INCIDENT_DIR="/tmp/cpu_incident_$(date +%Y%m%d_%H%M%S)"mkdir -p $INCIDENT_DIRcd$INCIDENT_DIRecho"=== CPU 故障现场采集开始 ===" | tee -a collect.logecho"采集时间: $(date '+%Y-%m-%d %H:%M:%S')" | tee -a collect.logecho"采集目录: $INCIDENT_DIR" | tee -a collect.log# 1. 系统基本信息echo"[1/8] 采集系统基本信息..." | tee -a collect.loguname -a > system_info.txtuptime >> system_info.txtcat /etc/os-release >> system_info.txt 2>/dev/null || cat /etc/redhat-release >> system_info.txt 2>/dev/null# 2. CPU 使用情况echo"[2/8] 采集 CPU 使用情况..." | tee -a collect.logmpstat -P ALL 1 5 > mpstat.txt &vmstat 1 10 > vmstat.txt &# 3. 进程快照echo"[3/8] 采集进程快照..." | tee -a collect.logps auxf > ps_tree.txtps aux --sort=-%cpu | head -50 > ps_cpu_top50.txttop -bn3 > top_3samples.txt# 4. 找出 CPU 最高的进程TOP_PID=$(ps aux --sort=-%cpu | awk 'NR==2{print $2}')echo"CPU 最高的进程 PID: $TOP_PID" | tee -a collect.log# 5. 采集问题进程详情echo"[4/8] 采集问题进程详情 (PID: $TOP_PID)..." | tee -a collect.logif [ -d "/proc/$TOP_PID" ]; then mkdir -p proc_$TOP_PID cat /proc/$TOP_PID/cmdline | tr '\0'' ' > proc_$TOP_PID/cmdline.txt cat /proc/$TOP_PID/status > proc_$TOP_PID/status.txt cat /proc/$TOP_PID/limits > proc_$TOP_PID/limits.txt ls -la /proc/$TOP_PID/fd > proc_$TOP_PID/fd_list.txt 2>&1 cat /proc/$TOP_PID/maps > proc_$TOP_PID/maps.txt 2>&1# 线程信息 top -Hp $TOP_PID -bn1 > proc_$TOP_PID/threads.txt# 尝试获取堆栈ifcommand -v pstack &> /dev/null; then pstack $TOP_PID > proc_$TOP_PID/pstack.txt 2>&1fifi# 6. pidstat 持续采样echo"[5/8] pidstat 持续采样中..." | tee -a collect.logpidstat -u 1 30 > pidstat_cpu.txt &pidstat -r 1 30 > pidstat_mem.txt &pidstat -d 1 30 > pidstat_io.txt &# 7. 网络和 IO 状态echo"[6/8] 采集网络和 IO 状态..." | tee -a collect.lognetstat -tlnp > netstat.txt 2>&1 || ss -tlnp > ss.txtiostat -x 1 5 > iostat.txt &# 8. 内存状态echo"[7/8] 采集内存状态..." | tee -a collect.logfree -h > memory.txtcat /proc/meminfo >> memory.txt# 9. perf 采样(如果可用)echo"[8/8] perf 采样..." | tee -a collect.logifcommand -v perf &> /dev/null; then perf record -F 99 -p $TOP_PID -g -o perf.data -- sleep 10 2>&1 || echo"perf record failed" >> collect.log perf report --stdio -i perf.data > perf_report.txt 2>&1 || truefi# 等待后台任务完成wait# 打包echo"=== 采集完成,正在打包 ===" | tee -a collect.logcd /tmptar czf cpu_incident_$(date +%Y%m%d_%H%M%S).tar.gz $(basename $INCIDENT_DIR)echo"采集结果已保存到: /tmp/cpu_incident_*.tar.gz"echo"请将此文件发送给开发人员进行分析"场景描述:某 Spring Boot 应用突然 CPU 飙到 100%,服务无响应。
排查过程:
# 1. 确认问题进程ps aux --sort=-%cpu | head -5# 输出:# USER PID %CPU %MEM COMMAND# app 8421 99.8 12.3 java -jar app.jar# 2. 找出最忙的线程top -Hp 8421 -bn1 | head -10# 输出:# PID USER %CPU COMMAND# 8435 app 98.2 java# 8422 app 0.5 java# 3. 转换线程 IDprintf"%x\n" 8435# 输出:20f3# 4. 获取线程堆栈jstack 8421 > jstack.txt# 5. 搜索对应线程grep -A 30 "nid=0x20f3" jstack.txt运行结果:
"pool-1-thread-1"#15 prio=5 os_prio=0 tid=0x00007f4c8c0d1800 nid=0x20f3 runnable [0x00007f4c7c5fe000] java.lang.Thread.State: RUNNABLE at com.example.service.DataProcessor.processLoop(DataProcessor.java:127) at com.example.service.DataProcessor.run(DataProcessor.java:45) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)根因:DataProcessor.java 第 127 行有个死循环,缺少 sleep 或退出条件。
场景描述:Nginx 服务器突然 CPU 高,但 %usr 不高,%sys 很高。
排查过程:
# 1. 确认是系统态消耗mpstat 1 5# 输出:# %usr %sys %iowait %idle# 5.2 78.3 0.1 16.4# 2. 查看网络连接ss -s# 输出:# TCP: 45892 (estab 234, closed 44521, orphaned 1203, timewait 44521)# 大量 TIME_WAIT!# 3. perf 看内核在干什么perf top -g# 发现大量 tcp_v4_connect、inet_csk_accept 调用# 4. 查看连接速率watch -n 1 "netstat -an | grep -c ESTABLISHED"# 每秒新建几千个连接根因:上游调用方没有使用连接池,每次请求都新建 TCP 连接,导致内核处理大量连接建立/销毁开销。
解决方案:
# 临时缓解:优化 TCP 参数sysctl -w net.ipv4.tcp_tw_reuse=1sysctl -w net.ipv4.tcp_fin_timeout=15sysctl -w net.core.somaxconn=65535# 根本解决:让调用方使用 HTTP Keep-Alive 或连接池平时就要采集正常状态下的性能数据,故障时才有对比基准。
# 每天定时采集基线数据# 加入 crontab: 0 */4 * * * /opt/scripts/collect_baseline.sh#!/bin/bash# collect_baseline.shBASELINE_DIR="/var/log/baseline/$(date +%Y%m%d)"mkdir -p $BASELINE_DIRmpstat -P ALL 1 60 > $BASELINE_DIR/mpstat_$(date +%H%M).txtpidstat -u 1 60 > $BASELINE_DIR/pidstat_$(date +%H%M).txtvmstat 1 60 > $BASELINE_DIR/vmstat_$(date +%H%M).txt# 保留 30 天find /var/log/baseline -mtime +30 -delete不同级别的 CPU 告警,处理方式不同:
告警触发时自动执行采集脚本,避免人工响应延迟错过现场:
# Prometheus Alertmanager webhook 配置示例receivers:-name:'cpu-high-handler'webhook_configs:-url:'http://localhost:9999/cpu-incident'send_resolved:false# webhook 服务示例(cpu_incident_handler.py)from flask import Flask, requestimport subprocessimport osapp = Flask(__name__)@app.route('/cpu-incident', methods=['POST'])defhandle_cpu_incident(): alert = request.jsonif alert['status'] == 'firing':# 触发采集脚本 subprocess.Popen(['/opt/scripts/cpu_incident_collector.sh'])return'OK'if __name__ == '__main__': app.run(host='0.0.0.0', port=9999)警告:以下操作在生产环境需谨慎!
kill -SIGSTOP 或 gcore 这类会暂停进程的操作sysctl -w kernel.perf_event_paranoid=0 | ||
采集的数据可能包含敏感信息:
/proc/PID/environ 可能包含密码等环境变量CPU 使用率高├── %usr 高(用户态)│ ├── Java 应用 → jstack 看线程堆栈│ ├── 数据库 → 查看慢查询、锁等待│ └── 其他应用 → perf + 火焰图├── %sys 高(内核态)│ ├── 网络连接数多 → 检查短连接、优化内核参数│ ├── IO 操作频繁 → iostat 检查磁盘│ └── 系统调用频繁 → strace 分析├── %iowait 高│ ├── 磁盘慢 → iostat -x 检查磁盘队列│ └── 等待网络 IO → 检查 NFS、网络存储└── %steal 高 └── 虚拟机被抢占 → 联系云厂商或检查宿主机# Prometheus 监控规则groups:-name:cpu_alertsrules:# CPU 使用率告警-alert:HighCpuUsageexpr:100-(avgby(instance)(irate(node_cpu_seconds_total{mode="idle"}[5m]))*100)>85for:5mlabels:severity:warningannotations:summary:"CPU 使用率超过 85%"description:"实例 {{ $labels.instance }} CPU 使用率 {{ $value }}%"# CPU 使用率严重告警-alert:CriticalCpuUsageexpr:100-(avgby(instance)(irate(node_cpu_seconds_total{mode="idle"}[5m]))*100)>95for:2mlabels:severity:criticalannotations:summary:"CPU 使用率超过 95%"description:"实例 {{ $labels.instance }} CPU 使用率 {{ $value }}%,请立即处理"# 系统态 CPU 过高-alert:HighSystemCpuexpr:avgby(instance)(irate(node_cpu_seconds_total{mode="system"}[5m]))*100>30for:5mlabels:severity:warningannotations:summary:"系统态 CPU 过高"description:"实例 {{ $labels.instance }} 系统态 CPU {{ $value }}%,可能存在内核瓶颈"#!/bin/bash# cpu_health_check.sh - CPU 健康检查脚本echo"========== CPU 健康检查报告 =========="echo"检查时间: $(date '+%Y-%m-%d %H:%M:%S')"echo""# 1. 基本信息echo"【1. CPU 基本信息】"lscpu | grep -E "^(Architecture|CPU\(s\)|Model name|CPU MHz)"echo""# 2. 当前负载echo"【2. 系统负载】"uptimeecho""# 3. CPU 使用情况echo"【3. CPU 使用情况】"mpstat 1 3 | tail -4echo""# 4. CPU 占用 TOP 10 进程echo"【4. CPU 占用 TOP 10 进程】"ps aux --sort=-%cpu | head -11echo""# 5. 运行队列和上下文切换echo"【5. 运行队列状态】"vmstat 1 3echo""# 6. 健康评估CPU_USAGE=$(mpstat 1 1 | tail -1 | awk '{print 100-$NF}')LOAD_1=$(uptime | awk -F'load average:''{print $2}' | cut -d',' -f1 | xargs)CPU_COUNT=$(nproc)echo"【6. 健康评估】"echo"当前 CPU 使用率: ${CPU_USAGE}%"echo"1 分钟负载: ${LOAD_1}"echo"CPU 核心数: ${CPU_COUNT}"# 简单判断if (( $(echo"$CPU_USAGE > 85" | bc -l) )); thenecho"状态: [异常] CPU 使用率过高,请排查"elif (( $(echo"$LOAD_1 > $CPU_COUNT * 2" | bc -l) )); thenecho"状态: [警告] 系统负载过高"elseecho"状态: [正常]"fi火焰图深度应用
eBPF 技术
Java 性能调优
# 查看整体 CPU 使用率mpstat -P ALL 1 5# 查看进程 CPU 使用(按 CPU 排序)ps aux --sort=-%cpu | head -20# 查看进程内线程 CPU 使用top -Hp <PID># 查看进程堆栈pstack <PID> # C/C++jstack <PID> # Java# 系统调用跟踪strace -c -p <PID> # 统计模式strace -tt -T -p <PID> # 详细模式# perf 采样perf record -F 99 -p <PID> -g -- sleep 30perf report# 上下文切换统计vmstat 1pidstat -w 1# 降低进程优先级renice 19 -p <PID>微
信
群
WeChat group
为了方便大家更好的交流运维等相关技术问题,创建了微信交流群,需要加群的小伙伴们可以扫一扫下面的二维码加我为好友拉您进群(备注:加群)。

代
码
仓
库
| 代码仓库 | 网址 |
| Github | https://github.com/raymond999999 |
| Gitee | https://gitee.com/raymond9 |
博
客
Blog
| 博客 | 网址 |
| https://blog.csdn.net/qq_25599925 | |
| 稀土掘金 | https://juejin.cn/user/4262187909781751 |
| 知识星球 | https://wx.zsxq.com/group/15555885545422 |
| 阿里云社区 | https://developer.aliyun.com/profile/snzh3xpxaf6sg |
| 腾讯云社区 | https://cloud.tencent.com/developer/user/11823619 |
| 华为云社区 | https://developer.huaweicloud.com/usercenter/mycommunity/dynamics |
访问博客网站,查看更多优质原创内容。