当前位置：首页>Linux>AWS工程师敲响的警钟:Linux内核动了,你的PostgreSQL还好吗?

AWS工程师敲响的警钟:Linux内核动了,你的PostgreSQL还好吗?

2026-06-28 17:57:07

前两天AWS工程师给Linux内核社区报了一个case。他说，Linux 7.0开发版内核跑起来之后，PostgreSQL数据库服务器的吞吐量只有之前内核版本的一半左右。

消息传开之后，好几个金融客户的DBA直接来找我：老师，我们正在做PG的生产环境扩容，要不要等一等这个内核问题解决再说？我还没开口，另一个银行的架构师已经补了一刀：我们的云数据库底层是云厂商的定制内核，到底用的是哪个版本？有没有被影响？

坦白说，我回答不了第二个问题——没有人能回答。因为AWS工程师报告的是一个开发中的内核分支，离正式GA还有距离。真正让我在意的不是技术本身，而是这件事背后的逻辑。

内核改了一点东西，数据库就被拦腰一刀。这种跨层的蝴蝶效应，在传统IT架构时代就已经存在。但到了云原生时代，底层基础设施被抽象成黑盒，DBA和运维团队往往只能看到自己的数据库实例，看不到宿主机的内核版本变更记录，甚至不知道哪一天云平台默默把你的虚拟机迁到了另一台宿主机上。

2026年，数据库确实越来越“智能”了。Oracle那边推出了AI数据库Agentic创新，把Agentic AI和数据库做了一体化架构设计。阿里云的可观测团队有多项AIOps研究成果登上了VLDB、ICDE、SIGMOD等国际顶会。但这些美好的事情，并不能帮你解决一个来自操作系统层面的性能问题。当数据库性能突然掉了一半，业务方打电话来质问的时候，你不能说“这是内核的问题”——没有人会接受这个理由。

类似的跨层故障，过去几年已经见过不少

某股份制商业银行，几年前在高峰期遭遇了一次诡异的性能抖动。APM监控显示数据库的响应时间从几毫秒突然飙升到几百毫秒，持续了十几分钟后自动恢复。所有数据库层面的监控指标都是正常的——CPU不忙、内存够用、I/O延迟正常、没有锁冲突、慢查询日志里一条异常都没有。排查团队整整找了三天，最后发现问题出在宿主机操作系统的NUMA策略上。内核根据某种启发式算法把数据库进程的内存跨了Node，跨Node访问的延迟直接把数据库性能拖垮了。

修复方案很简单：在启动PostgreSQL的时候绑个numactl参数。但定位这个问题花了三天，业务部门那三天的脸色可想而知。

还有一个案例。某大型电商平台，双11前一个月把内核从5.x版本升级到了6.x，结果PostgreSQL的WAL写入延迟从几毫秒飙升到了几百毫秒，主从复制的延迟直接上了分钟级。定位到最后，是内核的ext4文件系统在特定的写入模式下触发了一个性能bug。他们花了整整一周回滚内核，但那一周的业务高峰期已经损失了不少交易。

这两个案例的共同点是什么？都是操作系统层面出问题，但背锅的都是数据库团队。这就是DBA的宿命。

你有什么看法，欢迎留言讨论~