当前位置：首页>Linux>Linux内存溢出OOM:原理、实验与排查优化全指南

Linux内存溢出OOM:原理、实验与排查优化全指南

2026-07-01 22:15:14

Linux内存溢出OOM：原理、实验与排查优化全指南

在 Linux 服务器运维中，内存溢出（Out Of Memory，简称 OOM）是最常见的性能故障之一。很多开发者会遇到服务突然消失、进程无故退出的问题，排查后才发现是系统触发了 OOM Killer。本文将从原理、实验、排查到优化，带你全面掌握 OOM 问题的处理方法。

一、什么是内存溢出 OOM

内存溢出，指的是程序运行时，需要使用的内存超过了系统能提供的最大内存，导致无法继续分配内存，程序无法正常运行。

OOM 通常分为两种常见场景：

1. 应用层 OOM：JVM、Python 等应用自身的内存配额耗尽，抛出 OOM 异常，比如 Java 的java\.lang\.OutOfMemoryError，这类错误只会影响单个应用。
2. 系统层 OOM：整个 Linux 系统的物理内存 + 交换分区全部耗尽，此时系统为了避免彻底宕机，会触发OOM Killer机制，主动杀掉最耗内存的进程，释放内存来保住整个系统。

这也是为什么很多时候，我们会发现服务突然挂了，但是系统本身还能正常 SSH 连接 —— 这不是系统崩溃，是 OOM Killer 的保护机制在起作用，牺牲了一个进程，保住了整个服务器。

二、Linux OOM Killer 核心机制

当系统内存不足时，Linux 内核会启动 OOM Killer，它的核心逻辑是：

1. 进程打分：内核会给所有进程计算一个oom\_score分数（范围 0-1000），分数越高，越容易被 kill。
2. 打分依据：进程的内存占用、运行时间、优先级等，越耗内存、越新的进程，分数越高；系统核心进程的分数会被压低，避免被误杀。
3. 执行杀进程：最终杀掉分数最高的进程，释放它占用的内存，保证系统不宕机。

这个机制的设计目标非常明确：牺牲一个进程，保住整个系统，避免整个服务器宕机导致更大的业务损失。

三、OOM 常见诱因

常见的 OOM 触发原因有以下几种：

1. 内存泄漏：应用代码存在内存泄漏，比如不断申请内存却不释放，导致内存占用越来越高，最终吃满系统内存。
2. 超大内存申请：程序一次性申请超大块内存，比如一次性加载几个 G 的大文件到内存，超过了系统的可用内存。
3. 配置错误：比如 JVM 的\-Xmx参数设置过大，超过了服务器的物理内存；或者 Redis、MySQL 的缓存配置过大，导致内存耗尽。
4. 异常流量：突发的大流量，导致服务的连接数暴涨，每个连接都占用内存，最终耗尽内存。

四、实战：模拟 OOM 触发实验

我们可以通过一个简单的 Python 脚本，模拟无限申请内存，触发系统的 OOM Killer，来还原整个故障过程。

4.1 编写测试脚本

我们写一个简单的 Python 脚本，无限循环申请内存：

# oom.py 无限申请内存，触发系统OOM killer
if __name__ == "__main__":
    mem_list = []
whileTrue:
# 每次循环申请 100MB 内存
        data = "" * 1024 * 1024 * 100
        mem_list.append(data)

4.2 运行脚本，触发 OOM

运行这个脚本，它会不断申请内存，直到系统内存耗尽：

python3 python.oom.py

4.3 查看进程状态

在另一个终端，我们可以查看这个进程的状态，会发现它的 CPU 占用极高，因为一直在疯狂申请内存：

ps -ef | grep python.oom.py

输出如下：

root       2236  2086  99 13:16 pts/0    00:00:03 python3 python.oom.py
root       2238  2149   0 13:16 pts/1    00:00:00 grep --color=auto python

可以看到，这个 Python 进程的 CPU 占用达到了 99%，正在疯狂消耗系统资源，此时系统的内存也会被它快速吃光。

4.4 查看 OOM 日志

当系统内存耗尽，OOM Killer 触发后，我们可以在系统日志中看到对应的记录：

tail -f /var/log/messages | grep OOM

日志中会输出类似这样的内容：

Out of memory: Killed process 2236 (python3) total-vm:8388608kB, anon-rss:7168000kB, file-rss:0kB, shmem-rss:0kB

这就说明，系统已经触发了 OOM Killer，杀掉了我们的 Python 进程，释放了内存，系统恢复正常。

五、OOM 问题排查指南

当线上出现 OOM 问题时，我们可以按照以下步骤快速排查：

5.1 第一步：确认是不是 OOM

首先查看系统日志，确认是不是 OOM 导致的进程退出：

tail -n 100 /var/log/messages | grep -i 'out of memory\|OOM'

日志中会记录被 kill 的进程 ID、进程名、内存占用等信息，帮我们快速定位是哪个进程出了问题。

5.2 查看内存使用历史

如果是事后排查，我们可以通过系统监控工具查看内存的历史使用情况，确认内存是不是被慢慢吃光的：

• sar \-r：查看内存使用率的历史数据
• nmon：监控系统资源的历史变化
这些工具可以帮我们看到，是不是有进程的内存占用一直在涨，最终吃满了内存。

5.3 实时查看进程内存占用

排查时，我们可以实时查看哪个进程的内存占用最高：

# 按内存占用排序，查看TOP10进程
ps aux --sort=-%mem | head -10

或者用top命令，按M键，按内存排序，快速找到耗内存最多的进程。

5.4 查看 OOM 评分

我们可以查看进程的 OOM 评分，判断它是不是最可能被 OOM Killer 杀掉的进程：

cat /proc/<进程ID>/oom_score

分数越高，越容易被 kill。

六、OOM 问题优化与解决方案

找到问题后，我们可以通过以下方法解决 OOM 问题：

6.1 应用层优化

• 修复内存泄漏：通过内存分析工具，比如 Python 的tracemalloc、Java 的 MAT，找到内存泄漏的代码，修复它。
• 优化内存使用：避免一次性加载超大文件到内存，改用流式读取；拆分大任务，避免一次性申请超大内存。
• 优化缓存：给缓存设置过期时间，避免缓存无限增长，比如 Redis 设置maxmemory参数。

6.2 系统层优化

• 调整 OOM 优先级：给核心进程调低 OOM 评分，避免它被 OOM Killer 误杀：

# 给进程设置负的oom_adj，降低它的oom_score，让它不容易被kill
echo -17 > /proc/<进程ID>/oom_adj

• 开启交换分区：如果物理内存不足，可以开启交换分区，临时缓解内存压力，避免 OOM。

6.3 资源限制

使用ulimit限制进程的最大内存，避免单个进程吃满整个系统的内存：

# 限制进程的最大虚拟内存为 2G
ulimit -v 2097152

6.4 监控与告警

配置内存监控告警，当系统内存使用率超过 80%、或者某个进程的内存占用异常增长时，及时告警，提前处理问题，避免 OOM 发生。

6.5 资源扩容

如果经过优化后，系统的内存还是不够用，说明你的业务已经需要更多的内存资源，此时可以考虑升级服务器的内存，或者做集群扩容，分摊压力。

总结

OOM 并不是什么可怕的故障，它本质上是 Linux 系统的一种自我保护机制。通过理解 OOM Killer 的原理，掌握实验、排查和优化的方法，我们可以快速定位并解决 OOM 问题，保障服务的稳定运行。

在日常运维中，提前做好内存监控、优化应用的内存使用，是避免 OOM 故障的最好方式。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Linux内存溢出OOM:原理、实验与排查优化全指南

Linux内存溢出OOM：原理、实验与排查优化全指南

一、什么是内存溢出 OOM

二、Linux OOM Killer 核心机制

三、OOM 常见诱因

四、实战：模拟 OOM 触发实验

4.1 编写测试脚本

4.2 运行脚本，触发 OOM

4.3 查看进程状态

4.4 查看 OOM 日志

五、OOM 问题排查指南

5.1 第一步：确认是不是 OOM

5.2 查看内存使用历史

5.3 实时查看进程内存占用

5.4 查看 OOM 评分

六、OOM 问题优化与解决方案

6.1 应用层优化

6.2 系统层优化

6.3 资源限制

6.4 监控与告警

6.5 资源扩容

总结

最新文章

热门文章

随机文章

Linux内存溢出OOM:原理、实验与排查优化全指南

Linux内存溢出OOM：原理、实验与排查优化全指南

一、什么是内存溢出 OOM

二、Linux OOM Killer 核心机制

三、OOM 常见诱因

四、实战：模拟 OOM 触发实验

4.1 编写测试脚本

4.2 运行脚本，触发 OOM

4.3 查看进程状态

4.4 查看 OOM 日志

五、OOM 问题排查指南

5.1 第一步：确认是不是 OOM

5.2 查看内存使用历史

5.3 实时查看进程内存占用

5.4 查看 OOM 评分

六、OOM 问题优化与解决方案

6.1 应用层优化

6.2 系统层优化

6.3 资源限制

6.4 监控与告警

6.5 资源扩容

总结

银河麒麟V10 2503尽快修复Linux 内核Dirty Frag高危漏洞!

Python2和3傻傻分不清?记住这5个关键差异,迁移老项目不踩坑

最新文章

热门文章

随机文章