近两年,AI一词高频出现在我们生活与工作的方方面面,作为运维管理人员,是否拥抱AI、如何合理运用AI,是我时常思考的问题。关于这个问题,每个人都有自己的衡量视角——有人出于安全考量保持审慎,有人为提升效率积极尝试,也有人从成本角度权衡取舍。但我想跳出这些常规视角,回归问题本身,从另一个核心维度去探讨:运维工作中,人的“兜底”能力。
在探讨之前,我们不妨先审视自身在运维管理中的角色定位。日常工作中,我们常自嘲是“管机器的、管网络的、管数据库的、管办公电脑的”,这些表述虽通俗,却精准点出了运维工作的载体——机器、网络、数据库等设备与系统,是我们工作中不可或缺的组成部分。但这仅仅是“做什么”的层面,而这一层面,AI同样能够胜任,甚至在某些场景下表现得比人更出色。比如,在明确需求的前提下撰写代码、编写shell脚本,或是分析清晰的报错信息,AI的效率与准确率往往不逊于人工——当然,这里的“明确需求”“清晰报错”是关键限定词,也是AI发挥作用的前提。
那么,我们不妨再深究一层:同样能完成这些基础工作,为什么必须是我们来做?这正是我们今天讨论问题的落脚点——我们能为运维管理中的任何突发、复杂情况,提供“兜底”保障。
谈及“兜底”,我们首先要摒弃一个狭义认知——它绝不是简单的“背锅”,而是运维人员在工作中必须承担的责任与具备的核心能力。结合运维工作实际,我从两个角度,谈谈对“兜底”的理解。
技术解决能力的兜底。不可否认,当前AI的“智力”水平已达到较高水准,比如在分析OOM(内存溢出)场景时,它能从内存占用、swap分区、JVM参数、系统日志等多个维度全面拆解,给出的分析结论准确率也相当高。但在真实的企业生产环境中,即便我们借助AI完成了问题分析,是否会让它直接执行后续操作、落实预防措施,却是一个需要谨慎考量的问题——这一点,有经验的运维老手或许更能感同身受。
我们所说的技术兜底,核心是能够准确甄别AI给出信息的真伪与适用性,基于这些信息制定合理的执行方案,并做好后续的善后工作。AI可以告诉我们“问题是OOM导致的”,也能给出初步的解决方案,但不同的生产场景、AI自身的覆盖范围局限,都会导致其结论出现偏差甚至失真。作为运维管理人员,我们需要结合上下游系统关联情况、近期版本变更记录、数据异常波动、流量峰值变化,甚至当前故障影响的客户范围等多方面因素,综合判断AI给出信息的准确性,最终制定出贴合实际的执行操作。或许最终的解决动作只是简单的kill某个异常进程,但前期的综合研判、风险评估,以及后续的隐患排查、预防优化,这些全流程的把控,目前AI尚无法完全覆盖;更重要的是,在企业生产环境中,这类敏感的技术决策与操作,也绝不会轻易交给AI来执行——即便通过OpenClaw等工具能够实现自动化操作,也需要人来把控核心风险。这也就意味着,在技术层面,AI目前只能作为辅助工具,敏感的技术决策与关键操作,始终需要人来兜底。
专业能力的兜底。从本质上来说,当前AI所能处理的问题,大多局限于有明确规则、可量化、可预判的场景,而运维工作中,恰恰充斥着大量无固定规则、需灵活协同的突发情况。结合我遇到的一个真实场景:运营商某地区骨干网络遭遇DDoS攻击,触发了IP封堵规则(封堵整个网段),导致我方系统入口IP被误封堵。面对这种情况,AI能发挥的作用十分有限——它或许能通过日志或者监控告警信息进行分析,告知我们“IP被封堵”这一表象结论,但无法从根本上解决问题。
有人可能会提出,这是系统架构设计的疏漏,若提前部署双活架构,并利用AI实现故障时的自动切换,就能规避此类问题。不可否认,这种思路有其合理性,也是提升系统可用性的重要手段,但在ToB实际运维场景中,仍会面临新的难题:如果未受影响的区域(运营商或合作方)未开放对应防火墙出规则,或是我方切换后的新IP未及时添加至对方的地址白名单,不仅无法解决原有故障,还会引发新的连通性问题,导致故障范围扩大。
事实上,解决此类突发IP误封堵问题最直接、最高效的方式,是迅速与运营商建立沟通,清晰说明误封堵情况,协调其快速开放对应IP权限。而这种需要跨主体、多环节沟通协调、灵活判断的操作,恰恰是当前AI无法实现的,无法应对此类无固定规则、需主观判断的协同场景。这也正是运维管理人员专业能力兜底的核心体现,不仅要懂技术,更要具备应急处置、沟通协调、风险预判的综合专业能力,在AI无法发挥作用的场景中,守住系统稳定运行的防线。
所以,在运维管理工作中,AI是提升效率、拓展工作上限的优质辅助工具,但技术能力与专业能力的沉淀恰恰是最为核心的,配合AI可以提高运维管理的上限。唯有守住自身的兜底能力,合理借助AI的优势,才能实现守正出奇——既保障系统稳定运行,又提升运维工作效率。