在上一篇《运维监控体系入门:我们到底在监控什么?》中,我们讲清楚了一件事: 监控不是为了好看,而是为了发现问题、提前预警、快速定位。
运维监控体系入门:我们到底在监控什么?
那这一篇,我们就从最基础、也最常用的部分开始—— Linux 主机资源监控。
一、为什么主机监控永远是第一步?
在所有监控体系中,主机监控一定是地基。
不管你跑的是 Web 服务、数据库、微服务还是容器:
👉 所以,任何运维监控,第一件事永远是:先看主机。
二、CPU 监控:不只是“用没用满”
1️⃣ CPU 监控到底在看什么?
很多新手只看一个指标:
CPU 使用率 90% 了!
但在运维里,这远远不够。
CPU 监控,至少要关注三类信息:
2️⃣ 常用 CPU 监控命令
🔹 top / htop(最常用)
top
重点关注:
💡 经验判断:
🔹 uptime / load average
uptime
输出示例:
load average: 2.15, 1.98, 1.76
含义:
👉 判断是否正常:
Load ≤ CPU 核心数 → 正常
Load 长期 > CPU 核心数 → 有性能瓶颈
🧠 小案例:CPU 监控在真实场景中的作用
场景: 用户反馈系统“偶尔很卡”。
排查思路:
top # 查看 CPU 使用情况
uptime # 查看系统负载
发现:
👉 结论: 不是算力不足,而是进程阻塞 / IO 等待问题。
三、内存监控:别等 OOM 才后悔
1️⃣ 内存监控重点看什么?
内存监控不是只看“还剩多少”。
真正要关注的是:
2️⃣ 常用内存监控命令
🔹 free -h(最常用)
free -h
重点看:
⚠️ 一旦开始大量使用 swap,性能一定下降
🔹 vmstat(看趋势)
vmstat 1
重点字段:
si / so:swap in / swap out
🧠 小案例:内存监控的真实意义
场景: 服务经常“莫名其妙挂掉”。
排查过程:
free -h
dmesg | tail
发现:
- 日志中大量 Out of memory: Kill process
👉 结论:内存监控不到位,OOM 是必然结果。
四、磁盘监控:90% 才看?已经晚了
1️⃣ 磁盘监控要看哪几件事?
磁盘监控至少包括:
2️⃣ 常用磁盘监控命令
🔹 df -h(看容量)
df -h
经验值:
🔹 df -i(看 inode)
df -i
很多小文件(日志、缓存) inode 用尽 = 磁盘“逻辑死亡”
🔹 iostat(看 IO)
iostat -x 1
重点字段:
🧠 小案例:磁盘监控救命现场
场景: 业务突然无法登录,数据库报错。
排查发现:
df -h
/var 分区 100%。
👉 原因: 日志疯狂增长,磁盘写满。
👉 教训:磁盘监控 + 日志轮转 = 运维基本功。
五、主机监控的正确姿势
真正成熟的主机监控,应该做到:
六、写在最后:主机监控只是开始
主机监控解决的是一句话:
“机器还活着吗?还能撑得住吗?”
但下一步,你一定会遇到更现实的问题:
👉 这正是下一篇要讲的内容:
Linux 服务监控实战:端口、进程、接口怎么监控?
💬 互动话题
你第一次排查线上问题时, 最先敲下的监控命令是什么?
欢迎在评论区分享你的“第一次运维现场”👇