一、SRE 故障排查方法论(先背这个🔥)
👉 标准流程:
现象 → 定位范围 → 收集数据 → 分析 → 验证 → 修复 → 复盘
👉 三板斧(必须熟):
ss / tcpdumptop / pidstatiostat
二、案例1:CPU 飙高(容器导致)
🎯 现象
🔍 定位
发现:
👉 深入分析(RHEL10重点)
dnf install -y bpftracebpftrace -e 'profile:hz:99 { @[comm] = count(); }'
🧠 根因
🛠️ 解决
🔒 预防
🎤 面试表达
我通过 eBPF 定位 CPU 热点进程,比传统 top 更精准
三、案例2:磁盘 IO 100%(数据库卡死)
🎯 现象
🔍 定位
发现:
发现某进程 IO 很高
🧠 根因
🛠️ 解决
🔒 预防
四、案例3:端口通但访问超时(最常见🔥)
🎯 现象
🔍 定位
确认服务在监听
发现:
🧠 根因
🛠️ 解决
🔒 预防
🎤 面试亮点
网络没问题,问题在应用层
五、案例4:SSH 无法登录
🎯 现象
🔍 定位
🧠 根因
🛠️ 解决
systemctl restart sshdsetenforce 0(临时)
🔒 预防
六、案例5:DNS 解析失败(经典)
🎯 现象
🔍 定位
🧠 根因
🛠️ 解决
echo "nameserver 8.8.8.8" > /etc/resolv.conf
🔒 预防
七、案例6:内存不高但系统卡死(高级🔥)
🎯 现象
🔍 定位
关注:
🧠 根因
🛠️ 解决
🎤 面试亮点
CPU 不高不代表系统健康,关键看 IO wait
八、案例7:服务频繁自动重启(systemd问题)
🎯 现象
🔍 定位
systemctl status nginxjournalctl -u nginx
🧠 根因
🛠️ 解决
九、RHEL10 高级排障(加分项🔥)
1️⃣ eBPF 排障(核心能力)
bpftrace -e 'tracepoint:syscalls:sys_enter_execve { printf("%s\n", comm); }'
👉 用途:
2️⃣ 容器排障(重点)
podman logs <container>podman inspect <container>
3️⃣ 网络深度排查
十、总结(面试收尾🔥)
👉 你可以这样说:
在 RHEL10 环境下,我建立了一套标准化故障排查体系:
最终将故障处理从“人工经验”升级为“体系化SRE能力”