大家好,我是良许。
最近在社区看到这么一篇帖子,一个应届毕业生在咨询linux运维的一天是怎么度过的。
告警就是起床号
运维这活儿,从来没有朝九晚六。
你以为的工作时间是早九晚六,实际上是从睁眼到闭眼,甚至睡着了手机也得放枕头边。
凌晨两点服务器宕机,三点数据库主从切换失败,四点CDN被打爆,这都是家常便饭。
有人问我为啥不关手机睡觉?
兄弟,关了手机第二天就能关工位了。现在的监控系统比你妈还了解你,电话、短信、企业微信、钉钉,四路夹击,根本躲不掉。
白天是在救火还是在去救火的路上
上午十点,产品经理跑来说新功能要上线,让帮忙看看服务器扛不扛得住。
我打开Grafana一看,CPU使用率已经飙到80%,内存也快见底了。
这边还没理清,开发又来喊测试环境挂了,让赶紧重启容器。
运维从来不是只敲敲命令行那么简单,我们更像全公司的背锅侠:服务慢了怪运维,数据丢了怪运维,网络抖了还是怪运维。
哪怕是代码写得稀烂导致内存泄漏,最后也得运维半夜起来重启服务擦屁股。
中午十二点半,刚端起外卖盒子,告警又来了。
某个微服务突然502,流量全打到备用节点上。筷子一扔,立马ssh上去查日志,翻了半天发现是依赖服务挂了,赶紧切流量、降级、通知开发。
等处理完,外卖早就凉透了。
晚上才是真正的工作时间
六点下班?不存在的。
晚上七点开始灰度发布,先切5%流量观察,没问题再切20%、50%,最后全量。
每一步都得盯着监控,CPU、内存、网络、磁盘IO、接口响应时间,哪个指标异常都得立马回滚。
九点终于发布完,以为能走了,结果业务方说发现小bug,要不要紧急修复?
看了眼时间,知道今晚别想睡了。
十一点改完代码重新发布,十二点验证完功能,凌晨一点写完发布报告。
拖着疲惫的身体回家,躺在床上还得把手机音量开到最大,怕错过半夜的告警。
为什么运维这么累还有人干
说白了,运维就是用命换钱。
睡眠质量、头发、健康,都在给公司的系统稳定性买单。
公司赚钱了,老板说是产品做得好;服务挂了,所有人都骂运维不行。
更扯的是,很多公司根本不重视运维:开发工资更高,产品话语权更大,就连测试都能对运维指手画脚。
熬夜保障系统稳定没人看见,一旦出故障,所有人都能看见。
但我们还在坚持,因为总得有人守着这些服务器。
那些半夜购物的用户,凌晨刷视频的人,不知道背后有多少运维在默默扛着。
我们不是英雄,只是一群被告警短信支配的打工人。
下次你半夜下单秒到账时,或许有个运维刚从被窝爬起来,顶着乱发盯着屏幕,确保你的每一次点击都有回应。