当前位置：首页>Linux>Day 21: 物理内存 - Linux如何管理你的RAM

Day 21: 物理内存 - Linux如何管理你的RAM

2026-02-08 20:11:57

理解物理内存（RAM）的管理机制是进行性能调优、容量规划和故障排查的基石。Linux内核将物理内存这一硬件资源，抽象、分割并组织成一套高度复杂但极其高效的管理体系。

一、物理内存的基石：页帧（Page Frame）

核心概念：Linux内核管理物理内存的基本单位不是字节，而是页帧（Page Frame）。在大多数体系结构（如x86_64）上，一个标准页帧的大小是4KB。（第一次接触Page Frame的概念的时候是在初学Linux内核，当时我是怎么都不能理解页帧的概念。。。。。）

1.1 页帧的元数据：`struct page`

每个物理页帧在内核中都对应一个 struct page 结构体，它是内存管理的“户口簿”。

// 摘自 Linux 内核源码 (include/linux/mm_types.h)
structpage {
// 1. 标志位：描述页的状态（非常重要！）
unsignedlong flags;

// 2. 引用计数：跟踪有多少“用户”在使用此页
//    当 _refcount 为 0 时，表示该页空闲，可被分配
atomic_t _refcount;

// 3. 所属的虚拟映射区域（如果被映射）
structaddress_space *mapping;
pgoff_t index; // 在映射区内的偏移

// 4. 链表连接点：用于连接到不同的管理链表
union {
structlist_headlru;// 用于页面回收的LRU链表
struct {// 用于slab分配器（管理小对象）
void *freelist;
structslab *slab_cache;
        };
    };

// 5. 所属的内存区域 (Zone)
unsignedlongprivate;
};

理解要点：struct page 并不存储你的数据，它存储的是关于这个4KB物理页的管理数据（元数据）。这些结构体本身占用的内存（称为 mem_map 数组）在系统启动时就被保留。

运维视角：你可以通过 /proc/kpageflags、/proc/kpagecount 等文件（需要 CONFIG_PROC_PAGE_MONITOR 内核配置）间接窥探这些元数据，但直接操作极为罕见。

二、物理内存的组织架构：三级视图

Linux并非将物理内存视为一个平坦的整体，而是根据硬件特性（如NUMA）和用途进行分层组织。

物理内存
    │
    ├─── NUMA 节点 0 (Node 0)   // 靠近 CPU 0 的内存
    │        │
    │        ├─── ZONE_DMA      // 用于老旧 DMA 设备
    │        ├─── ZONE_DMA32    // 用于 32 位地址 DMA 设备
    │        ├─── ZONE_NORMAL   // “普通”可直接映射的内存
    │        └─── ZONE_MOVABLE  // 为内存热插拔预留
    │
    └─── NUMA 节点 1 (Node 1)   // 靠近 CPU 1 的内存
             │
             └─── ... (同样的 Zone 划分)

2.1 第一级：节点（Node） - NUMA 架构的体现

NUMA（非统一内存访问） 是现代多路服务器的标准架构。CPU访问其“本地”节点的内存速度最快，访问其他“远程”节点的内存则较慢。

# 查看系统的 NUMA 拓扑结构
numactl --hardware

# 输出示例：
available: 2 nodes (0-1)
node 0 cpus: 0 1 2 3
node 0 size: 32768 MB  # 节点0有32GB内存
node 0 free: 2048 MB
node 1 cpus: 4 5 6 7
node 1 size: 32768 MB  # 节点1有32GB内存
node 1 free: 4096 MB
node distances:        # 访问延迟矩阵
node   0   1
  0:  10  21           # node0访问node1内存的延迟是本地访问的2.1倍
  1:  21  10

运维命令：

numastat: 查看各节点内存分配统计。
numactl --cpunodebind=0 --membind=0 <command>: 将程序绑定在特定节点运行，避免远程内存访问，对高性能计算（HPC）或延迟敏感型数据库至关重要。

2.2 第二级：区域（Zone） - 按功能分区

在每个 NUMA 节点内部，内存被进一步划分为不同的区域（Zone），主要基于其物理地址和用途：

区域类型	地址范围 (x86_64)	主要用途
ZONE_DMA	0 ~ 16MB	供需要 DMA 且只能寻址24位地址的老旧设备使用。
ZONE_DMA32	16MB ~ 4GB	供需要 DMA 且能寻址32位地址的现代设备使用。
ZONE_NORMAL	4GB ~ 直接映射区结尾	内核自身使用的核心区域。内核的代码、数据结构和大部分动态分配 (`kmalloc`) 都来自这里。用户进程的内存也可能来自这里。
ZONE_HIGHMEM	（x86_64上已废弃）	在32位系统上，用于映射超过1GB的物理内存。64位系统地址空间巨大，无需此区域。
ZONE_MOVABLE	与物理地址无关	一个逻辑区域，包含可迁移的页面，主要用于支持内存热插拔。

为什么需要 Zones？ 主要是为了兼容性（DMA）和管理的便利性。当内核需要分配内存时，它会按照一个区域列表（zonelist） 的顺序进行尝试，例如先尝试 ZONE_NORMAL，如果不够再尝试 ZONE_DMA32。

# 查看每个 Zone 的详细统计信息
cat /proc/zoneinfo

输出中你可以看到每个 Zone 的页面总数、空闲数、最低水位 (min)、低水位 (low)、高水位 (high) 标记，这些是内核页回收机制 (kswapd) 的关键参数。

2.3 第三级：页帧（Page） - 管理的终极单元

如前所述，每个 Zone 都由无数个 4KB 的页帧 (struct page) 组成，它们是分配和回收操作的最小单位。

三、核心分配机制：伙伴系统（Buddy System）

当内核需要分配连续的物理页（例如 1 页、2 页、4 页直到 MAX_ORDER 页，通常是 1024 页即 4MB）时，它依赖的是伙伴系统。

3.1 工作原理：二分与合并

伙伴系统将每个 Zone 的空闲内存组织成 11 个（阶数 0-10）空闲链表数组。

阶数 0 的链表：存放单个（2⁰）空闲页（4KB）。
阶数 1 的链表：存放成对（2¹）的连续空闲页（8KB）。
...
阶数 10 的链表：存放 1024（2¹⁰）个连续空闲页（4MB）。

分配过程：

假设需要分配 8 个连续页（阶数 3，32KB）。
系统检查阶数 3 的空闲链表。如果有，直接分配。
如果没有，它向上查找阶数 4 的链表。如果找到一块 16 页的内存，将其分割成两个“伙伴”块：一块用于分配，另一块放入阶数 3 的空闲链表。
如果阶数 4 的链表也为空，则继续向上查找并分割，直到最高阶。

释放过程：

释放 8 个页（阶数 3）。
系统会检查其“伙伴”块（地址相邻的另一 8 页）是否也空闲。
如果伙伴空闲，则将它们合并成一个 16 页（阶数 4）的块，放入阶数 4 的空闲链表。
系统会递归尝试继续向上合并。

伙伴系统的目标：在提供连续物理内存分配的同时，最大限度地减少外部碎片。

# 查看伙伴系统的碎片情况 - 这是诊断内存问题的金钥匙！
cat /proc/buddyinfo

# 输出示例：
Node 0, zone   Normal     31     28     15      8      4      2      1      1      0      0      0
Node 1, zone   Normal     42     40     30     20     10      5      2      1      0      0      0

解读：以 Node 0, Zone Normal 为例，第一列 31 表示有 31 个 2⁰（1页，4KB）的连续空闲块，第二列 28 表示有 28 个 2¹（2页，8KB）的连续空闲块，依此类推。如果高阶（右侧）的数字非常小甚至为 0，而低阶（左侧）的数字很大，说明存在严重的外部碎片，系统可能无法分配大块连续内存。

四、处理小内存分配：Slab 分配器

伙伴系统分配的最小单位是页（4KB）。但对于内核中无数细小、频繁的对象（如 task_struct, inode, dentry 缓存），每次分配一页是巨大的浪费，并且会导致严重的内部碎片。

Slab 分配器 就是为了解决这个问题而生的。它在伙伴系统分配的整页之上，构建了针对特定大小对象的高速缓存。

工作原理：

缓存（Cache）：为每一种内核对象（如 task_struct）创建一个专属的缓存。
Slab：一个 Slab 是从伙伴系统申请来的一整页或一组连续页。它被划分为一个个大小相等的对象槽。
三态 Slab：

Full：所有对象槽都已分配。
Partial：部分对象槽已分配。
Empty：所有对象槽都空闲。

当内核需要分配一个 inode 对象时，它会：

找到 inode_cachep。
从一个 partial slab 中分配一个空闲对象槽。
如果所有 partial slab 都满了，就从 empty slab 里取一个，或向伙伴系统申请新页创建新的 slab。
对象释放时，只是标记为空闲，slab 本身不会立即返还给伙伴系统，以便快速重用。

# 查看系统中所有 slab 缓存的统计信息
slabtop
cat /proc/slabinfo

# 查看特定缓存（如 inode 缓存）的详细信息
grep “^inode_cache” /proc/slabinfo

运维意义：/proc/slabinfo 是分析内核内存使用和对象泄漏的宝库。如果某个缓存的 active_objs 数量异常增长且不下降，可能存在内核级的内存泄漏。

五、物理内存的监控与调优

5.1 核心监控命令

命令/文件	核心信息	运维解读
`free -m`	系统总内存、已用、空闲、缓冲/缓存。	关键看 `available`，它估算出应用程序可用的内存（含可回收的缓存）。`free` 值低不代表内存紧张。
`cat /proc/meminfo`	最详细的内存状态信息，包含 `MemTotal`, `MemFree`, `Cached`, `Active`, `Inactive`, `Dirty` 等数十项。	分析内存组成、脏页数量、页回收活动的主战场。
`cat /proc/buddyinfo`	伙伴系统各阶连续空闲块数量。	诊断内存外部碎片。
`cat /proc/pagetypeinfo`	更详细的页面类型和迁移类型信息。	诊断页面因类型不同而无法合并导致的碎片。
`vmstat -s`	以单行统计形式展示 `/proc/meminfo` 的关键内容。	便于脚本抓取和趋势比较。
`numastat`	各 NUMA 节点的内存分配、命中率、错配率。	诊断 NUMA 内存不均衡。远程访问过多会显著降低性能。

5.2 关键调优参数 (`/proc/sys/vm/`)

swappiness (0-100)：控制内核交换（swap）匿名页与回收页面缓存之间的倾向。值越高越倾向于交换。对于数据库等期望缓存大量文件的服务，可适当调低（如10-30）。
vfs_cache_pressure：控制内核回收用于目录项（dentry）和索引节点（inode）缓存的倾向。默认值100。增大该值会使内核更积极地回收这些缓存。
min_free_kbytes：系统保留的绝对最小空闲内存（KB）。这是触发直接内存回收（direct reclaim）的底线。在内存巨大的系统上，适当调高此值可以避免偶发的性能毛刺。
zone_reclaim_mode：控制 NUMA 节点在内存不足时的回收策略。在某些场景下，启用它（设为1）可以强制节点优先回收本地内存，而不是从远程节点分配，有利于保证本地访问性能。

总结

Linux 的物理内存管理是一个从硬件抽象到软件策略的宏大工程：

硬件感知：通过 Node 和 Zone 来尊重 NUMA 和 DMA 的硬件约束。
高效分配：通过伙伴系统解决大块连续内存的分配和外部碎片问题。
精细管理：通过 Slab 分配器解决海量小对象分配的性能和内部碎片问题。
智能回收：通过 LRU 链表、水位标记和 kswapd 在内存使用与性能之间取得平衡。

作为一名资深运维，我们的价值在于：

解读数据：从 /proc/meminfo, /proc/buddyinfo, numastat 中看出系统内存的健康状况。
预判问题：通过碎片率、NUMA 平衡度预测潜在的性能风险。
合理调优：根据应用特征（是文件密集型还是内存计算密集型）调整 swappiness 等参数，而不是盲目套用“优化指南”。
理解本质：当出现内存相关的性能问题时，能沿着“应用->虚拟内存->物理内存->伙伴系统/Slab->硬件”的链条进行精准排查。

物理内存是系统活力的源泉，理解它的管理机制，是你驾驭复杂系统、保障其稳定高效运行的核心能力。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Day 21: 物理内存 - Linux如何管理你的RAM

理解物理内存（RAM）的管理机制是进行性能调优、容量规划和故障排查的基石。Linux内核将物理内存这一硬件资源，抽象、分割并组织成一套高度复杂但极其高效的管理体系。

一、物理内存的基石：页帧（Page Frame）

1.1 页帧的元数据：`struct page`

二、物理内存的组织架构：三级视图

2.1 第一级：节点（Node） - NUMA 架构的体现

2.2 第二级：区域（Zone） - 按功能分区

2.3 第三级：页帧（Page） - 管理的终极单元

三、核心分配机制：伙伴系统（Buddy System）

3.1 工作原理：二分与合并

四、处理小内存分配：Slab 分配器

五、物理内存的监控与调优

5.1 核心监控命令

5.2 关键调优参数 (`/proc/sys/vm/`)

总结

最新文章

热门文章

随机文章

Day 21: 物理内存 - Linux如何管理你的RAM

理解物理内存（RAM）的管理机制是进行性能调优、容量规划和故障排查的基石。Linux内核将物理内存这一硬件资源，抽象、分割并组织成一套高度复杂但极其高效的管理体系。

一、物理内存的基石：页帧（Page Frame）

1.1 页帧的元数据：struct page

二、物理内存的组织架构：三级视图

2.1 第一级：节点（Node） - NUMA 架构的体现

2.2 第二级：区域（Zone） - 按功能分区

2.3 第三级：页帧（Page） - 管理的终极单元

三、核心分配机制：伙伴系统（Buddy System）

3.1 工作原理：二分与合并

四、处理小内存分配：Slab 分配器

五、物理内存的监控与调优

5.1 核心监控命令

5.2 关键调优参数 (/proc/sys/vm/)

总结

一张图吃透Python!最常用的超强单行代码全总结

零编程,大学生1周做出SaaS,靠Discord语音室＂偷偷演示＂半年月入14K刀

最新文章

热门文章

随机文章

1.1 页帧的元数据：`struct page`

5.2 关键调优参数 (`/proc/sys/vm/`)