十几年前云计算兴起的时候,很多人预言运维会被取代。结果呢?运维没死,反而变成了SRE、DevOps、平台工程,换了个名字活得好好的。现在AI来了,大家又开始预言运维会被取代。但有意思的是,AI Coding已经遍地开花,Cursor、Claude Code、Copilot到处都是。上一期Agent管理学论坛,Nick分享了用Bmad方法论做生产级开发的经验,AI写代码已经是可验证的成功案例了。但AI运维呢?喊了很多年,落地的成功案例却寥寥无几。运维为什么更难
为什么AI应用于运维落后于AI应用于开发?我的朋友Leo给了一个非常系统的分析:
研发是同构技术,运维是异构技术。研发有GIT,也就是海量的、公开的同构语料,而且代码本来就是结构化的。而运维,没有这些公开的东西,运维连私有化数据集都还不齐全。
AI运维并不难
不过我的朋友林兆祥意见有些不一样。林兆祥是腾讯云CloudMate的研发负责人,他认为运维尤其是根因定位,技术上其实是最容易的。AI运维进展不如其他领域,完全是因为市场空间没有吸引来足够的投入。
更有意思的是他的判断:完全AI替代的运维是可以实现的。但构建和维护这样系统的成本很高。怎么办?让AI自己来维护——这就是"自进化"的由来。
付权智博士在他的CloudMate分析文章中写道:早在AI运维兴起之前,很多团队就意识到手工维护知识库的局限性。RAG出来之后又火了一波。但喊着要做的人很多,真正落地的成功案例却寥寥无几。因为知识验证本身太复杂了——每增加一份新文档,潜在冲突点以O(n)的速度增长,远超人工维护的能力边界。
让AI自己维护自己
腾讯云的CloudMate团队提出了一个思路:既然人工维护知识库成本太高,那就让AI自己来。
具体怎么做?不去纠结"这个知识对不对",而是看"Agent用了这个知识之后,能不能解决问题"。他们摒弃了通用搜索模式,为每个业务场景构建专属的高确定性知识库,用"评估-探索-总结-检验"的闭环让知识库自主迭代。
这个思路有点像给AI知识库做测试驱动开发:不管你的知识库里写了什么,只要Agent在基准案例上能达到预期效果,更新就被接受;达不到,更新就被拒绝。
具体怎么做?今晚维吉尼亚理工付权智博士对谈CloudMate的研发负责人林兆祥详细分享。
Agent管理学论坛第十期:自进化的Agentic运维系统
- 嘉宾:林兆祥,腾讯云Cloud Mate研发负责人
会讨论的问题包括:如何让知识库稳定迭代?如何打造场景专属的高确定性知识库?如何突破RAG模式的不确定性?
代码已经交给AI了。系统运维呢?今晚来聊聊。