对于Linux运维工程师来说,定时任务(Cron)+ 日志管理(Log)+ 故障排查(Troubleshooting) 是每天都会接触的核心技能。
如果把运维能力比作武功:
掌握这三项,才能从“会部署”成长为“会运维”。
一、Cron(定时任务管理)
1. Cron的作用
实现:
例如:
每天凌晨备份数据库每5分钟检查服务状态每周清理历史日志每月生成巡检报告
2. 服务状态检查
RHEL9/Kylin:
启动:
systemctl enable --now crond
查看是否开机启动:
systemctl is-enabled crond
3. crontab格式
* * * * * command│ │ │ │ ││ │ │ │ └── 星期│ │ │ └──── 月│ │ └────── 日│ └──────── 小时└────────── 分钟
4. 常见案例
每5分钟执行
*/5 * * * * /data/check.sh
每天凌晨1点
每周日凌晨
5. 查看任务
编辑:
删除:
6. Cron故障排查
查看日志:
检查:
常见问题:
推荐:
*/5 * * * * /data/check.sh >> /var/log/check.log 2>&1
二、Linux日志管理
1. 为什么日志重要
日志记录:
故障发生后:
日志就是第一现场。
2. systemd日志
查看全部日志:
实时查看:
最近启动日志:
查看服务日志:
查看今天日志:
3. 常见日志文件
系统日志
安全日志
查看登录:
grep sshd /var/log/secure
内核日志
查看错误:
Cron日志
审计日志
4. 日志分析命令
查看最新100行
tail -100 /var/log/messages
实时监控
tail -f /var/log/messages
搜索错误
搜索异常
grep -Ei "error|fail|warn|critical"
统计出现次数
grep ERROR app.log | wc-l
5. 日志轮转
配置:
目录:
测试:
logrotate -vf /etc/logrotate.conf
三、Linux基础排错体系
运维排错核心原则:
现象 → 定位 → 分析 → 验证 → 解决
1. 服务无法访问
检查进程
或
检查端口
查看:
检查防火墙
检查SELinux
查看拒绝:
2. CPU过高
查看:
推荐:
排序:
查看线程:
3. 内存不足
查看:
分析:
查看进程:
ps aux --sort=-%mem | head
4. 磁盘空间满
查看:
目录分析:
查找大文件:
5. 磁盘IO高
查看:
重点:
6. 网络故障
查看网卡:
路由:
DNS:
测试:
端口:
或
7. 登录失败
查看:
失败登录:
认证日志:
grep sshd /var/log/secure
四、运维排错黄金流程(面试必答)
用户反馈故障 │ ▼确认现象 │ ▼查看日志 │ ▼检查服务状态 │ ▼检查资源(CPU/内存/磁盘) │ ▼检查网络 │ ▼检查配置变更 │ ▼定位根因 │ ▼修复验证 │ ▼输出故障报告
五、高级运维必须掌握的20个命令
tophtopfreevmstatiostatsardmesgjournalctlsystemctlsslsoftcpdumpstraceperfpidstatmpstatiftopiotopausearchsealert
运维核心能力成长路线
L1 运维工程师├── Cron├── 日志分析├── 基础排错L2 高级运维├── 性能分析├── 网络排障├── 安全审计├── 自动化运维L3 SRE├── 故障复盘├── 可观测性├── 容量规划├── 混沌工程L4 架构师├── 高可用设计├── 容灾设计├── 云原生架构├── AI运维(AIOps)
对于有 10 年传统运维经验的工程师而言,Cron、日志、基础排错已经属于基本功。下一阶段更值得重点投入的是:系统化故障分析(RCA)、性能调优(CPU/内存/IO/网络)、自动化巡检、可观测性平台(Prometheus + Grafana + ELK)、以及SRE体系建设。这些能力更容易形成技术壁垒和架构视角。