当前位置：首页>Linux>深入浅出Linux内核(内存篇):页表映射分段

深入浅出Linux内核(内存篇):页表映射分段

2026-06-29 04:50:24

大家好，我是蟹老板~本文基于Linux5.6.4版本

操作系统的核心任务，说白了就是管CPU、管内存。为了让跑在上面的那些进程别整天为了抢那点可怜的内存打架，用户进程统统被安排运行在虚拟内存上。每个进程都被发了一个“虚拟大别墅”，大家各自在自己的空间里折腾。这谁也不干涉谁啊。

但画饼归画饼，虚拟内存再花哨，数据终究是需要被实打实地写进物理内存里的。

所以怎么把那个虚拟地址（VA）巧妙地转换成物理地址（PA）？

这就是整个机制里最骚的操作了——地址转换。

大家瞅下面这张图。

进程1和进程2，都有自己完整的虚拟地址空间，而且都分用户空间和内核空间。这里有个容易搞混的点，记好了：不管哪个进程，面对的都是同一个内核，所以它们内核空间的VA K地址，最终都映射到物理内存的同一个PA K上。但用户空间就不一样了，哪怕俩进程的虚拟地址长得一样（比如都是0x12345678），映射到的物理地址也是完全不同的，不然进程间的数据不就串了？

这个从VA到PA的转换过程，行话就叫地址转换。

光靠软件做地址转换不现实，效率能低到你怀疑人生，还得靠硬件帮忙——就是内存管理单元（MMU），这玩意儿相当于地址转换的“专属工具人”：

要求	说明
特权模式	区分内核空间和用户空间，用户进程没法直接碰内核地址，碰了就报错
基址/界限寄存器	记着地址转换的基址，帮着找到地址映射表，相当于“地图索引”
地址转换	核心活儿，把虚拟地址转换成物理地址，缺一不可
检查越界	转换地址的时候，顺便检查是不是越权访问了，比如用户态碰内核态的地址
基址/界限寄存器特权操作指令	只有内核能改这俩寄存器，保证每个进程的映射表不一样，不然映射就乱套了
触发异常	越权、越界的时候，会触发异常通知操作系统，不然程序就崩得不明不白
异常处理特权操作指令	操作系统处理内存访问异常的入口，相当于“急救通道”

有了MMU硬件助力，操作系统的内存管理直接起飞。

用户和内核的环境隔离，靠特权模式把资源分层管着。用户态程序想直接操作内核的数据？门儿都没有！非得走系统调用、硬件中断这些合法路子，才能进高权限状态。

逻辑地址到物理地址的映射，MMU会用基址/界限寄存器里的页目录起始地址，再结合当前指令的逻辑地址，在硬件层面完成转换，比软件转换快多了。

多任务环境下，每个进程的虚存都是独立的，这也是MMU的功劳。进程切换的时候，操作系统会更新段基址和范围，MMU就能准确加载对应进程的页转换表，不会搞混。

还有个延迟分配物理内存的策略，特别实用。程序声明了一块内存，但还没实际用的时候，系统不会立马分配物理内存，也不建立页映射。等程序真要访问这块内存了，触发缺页中断，系统再动态分配——这样能省不少内存，不然好多声明了不用的内存就浪费了。对了，页属性里还有各种异常检测，比如访问权限不够、越界，都能及时发现，提升系统安全性。

咱们今天重点说的，就是MMU的核心机制之一——基于分页原理实现逻辑地址与实体内存之间的动态映射关系。

一、分段

用户进程的虚拟地址空间，其实是被拆成了好几个功能区的，不是一整块混沌的空间：

指令区和数据区是基础，指令区存程序的核心逻辑，数据区存全局变量、静态变量这些常驻数据。程序加载到内存的时候，内核会先把这俩区域的页表项配好，物理内存也分配好，不用咱们操心。

栈区就简单了，存程序运行时的临时数据，比如函数调用的参数、局部变量，用完就释放。

mmap映射区，主要靠mmap系统调用，实现page cache或者匿名内存页的映射，比如咱们读大文件的时候，就常用到这个。

堆空间，就是咱们用malloc、new动态分配内存的地方，也是最容易出bug的地方，比如内存泄漏、越界，我当年不知因为这玩意儿改了多少bug。

看下图，清楚了解下这些区域的分布：

正因为进程地址空间是这么划分的，MMU才采用了分段管理的架构。一个段，就是地址空间里连续、等长的一块，一般分成代码段、栈段、堆段三类。

分段的好处很明显，系统能给每个段分配不同的物理内存位置，灵活得很。

但要实现分段，MMU还得额外具备一些能力，不然玩不转：

要求	说明
段基址/界限寄存器	每个段都得有这俩寄存器，基址记段的起始地址，界限记段的大小，防止越界
段选择	靠虚拟地址（逻辑地址）的某些位，找到对应的段，相当于“选段钥匙”
反向增长	栈是向下增长的，MMU得支持这种反向增长的段，不然栈就乱了
权限	给每个段标识读写、执行权限，比如代码段只能读和执行，不能写，不然容易被篡改

二、X86分段

说了这么多分段的基础，再说说X86架构里的分段，老一辈的程序员都知道，X86架构的历史包袱重得能压死人——这才是坑最多的地方，当年我啃这部分的时候，差点放弃内核开发。

为了兼容，X86硬生生在这套寻址体系里塞了三种地址。我就问你烦不烦？

第一种是逻辑地址（logical address），分段寻址的时候用的，由段（segment）和偏移量（offset）组成。偏移量就是这个地址相对于段起始位置的距离，很好理解吧？给你们看张图，看看逻辑地址的具体结构：

第二种是线性地址（linear address），逻辑地址经过分段映射后生成的，就是个32位的无符号整数，没啥花里胡哨的。

第三种是物理地址（physical address），线性地址再经过分页映射，最终得到的实际内存单元编号，数据就存在这个地址里。

这三种地址的转换，全靠MMU来完成，它们之间的转换路线图长这样：

再回头说逻辑地址，它的核心就是段选择符和偏移量。段选择符是用来定位段描述符（Segment Descriptor）的，而段描述符里，才真正存着段的属性信息。段选择符是16位的，里面有三个关键字段：

字段	说明
index	用来选择GDT或者LDT里的段描述符，相当于“描述符索引”
TI	0选GDT（全局描述符表），1选LDT（局部描述符表），二选一
RPL	请求特权等级，决定了访问这个段需要的权限

GDT和LDT，说白了就是存段描述符的“表格”，GDT是全局的，整个系统就一个，起始地址和容量存在gdtr寄存器里；LDT是局部的，每个进程可能有一个，由ldtr寄存器记录。

X86架构的Linux里，常用的段描述符有三种：数据段描述符、代码段描述符、系统段描述符（比如任务状态段）。给你们看张图，看看这三种描述符的结构，虽然看着复杂，但核心字段就那几个：

这些描述符里的信息，其实和咱们之前说的MMU分段需求是对应的，我挑几个关键的说说：

BASE是段的起始地址，LIMIT是段的大小，DPL是描述符特权等级（和RPL对应），G位是粒度位——G=0的时候，按字节算大小；G=1的时候，按4K字节算，这个我当年搞错过一次，把G位设成1，结果段大小算错了，导致内存越界，查了半天才找到问题。

搞懂了段选择符和GDT/LDT，逻辑地址转线性地址的流程就很简单了，看下图：

第一步，看段选择符的TI位，决定用GDT还是LDT；第二步，用段选择符的Index，定位到GDT/LDT里的段描述符——因为每个段描述符占8字节，所以用GDT/LDT的起始地址，加上Index乘以8，就能找到目标描述符；第三步，把段描述符里的BASE和逻辑地址的偏移量加起来，得到的就是线性地址，是不是很简单？

三、内核分段

前面说了这么多X86的分段，你们肯定以为Linux内核里也用得风生水起吧？

错了！实际开发里，Linux内核早就弃用了硬件层面的传统分段机制，为啥呢？全是坑啊。

传统分段靠基址计算，麻烦得很。首先，进程切换的时候，得保存和还原所有段寄存器的内容，耗时又麻烦；其次，每个进程的地址空间划分不一样，长期运行下来，物理内存会出现很多碎片，浪费内存；最关键的是，现在很多处理器架构（比如RISC）根本不支持分段，为了跨平台兼容，Linux只能放弃传统分段，改用页表管理。

不过X86架构下，GDT还是得有，不然系统启动不了。Linux的GDT一共有32个条目，里面最关键的就是4个：内核代码段、内核数据段、用户态默认代码段、用户态默认数据段。

给你们看段源码，这是Linux里GDT的布局，我写了注释，尽量能让大家都能看懂：

/*  * Linux下每个CPU的GDT布局说明（注释是我加的，方便新手理解） * 0号条目：空描述符（必须有，占位用）			<=== 第一个缓存行 * 1-3号条目：保留，暂不用 * 4-5号条目：未使用							<=== 第二个缓存行 * ------- TLS段开始（线程局部存储，比如glibc、Wine会用到）： * 6号条目：TLS段1			[ glibc的TLS段 ] * 7号条目：TLS段2			[ Wine的%fs Win32段 ] * 8号条目：TLS段3							<=== 第三个缓存行 * 9-11号条目：保留 * ------- 内核段开始： * 12号条目：内核代码段<=== 第四个缓存行 * 13号条目：内核数据段 * 14号条目：默认用户态代码段 * 15号条目：默认用户态数据段 * 16号条目：TSS（任务状态段）				<=== 第五个缓存行 * 17号条目：LDT（局部描述符表） * 18-25号条目：PNPBIOS和APM BIOS相关支持（老硬件用，现在基本用不上） * 26号条目：ESPFIX small SS（栈相关，修复栈指针问题） * 27号条目：per-cpu			[ 指向每个CPU的专属数据区 ] * 28号条目：stack_canary-20		[ 栈保护，防止栈溢出 ]	<=== 第八个缓存行 * 29-30号条目：未使用 * 31号条目：双重故障处理程序的TSS（防止系统崩溃） */

Linux内核启动的时候，会通过宏定义来构建GDT，下面这段代码就是构建GDT的核心，可以看看（不用死记，知道大概逻辑就行）：

// 定义GDT条目初始化宏，参数分别是：标志位、基址、界限#define GDT_ENTRY_INIT(flags, base, limit)			\	{							\		.limit0		= (u16) (limit),		// 界限的低16位		.limit1		= ((limit) >> 16) & 0x0F,	// 界限的高4位（和G位配合）		.base0		= (u16) (base),			// 基址的低16位		.base1		= ((base) >> 16) & 0xFF,	// 基址的中8位（16-23位）		.base2		= ((base) >> 24) & 0xFF,	// 基址的高8位（24-31位）		.type		= (flags & 0x0f),		// 段类型（代码段/数据段等）		.s		= (flags >> 4) & 0x01,		// 0表示系统段，1表示代码/数据段		.dpl		= (flags >> 5) & 0x03,		// 描述符特权等级（0-3）		.p		= (flags >> 7) & 0x01,		// 存在位（1表示段存在，0表示不存在）                .avl                = (flags >> 12)                = (flags >> 13) & 0x01,         .d                = (flags >> 14) & 0x01,                .g                = (flags >> 15) & 0x01,         }// 定义每个CPU的GDT页面（按页对齐），初始化GDT条目_PER_CPU_PAGE_ALIGNED(struct gdt_page, gdt_page) = { .gdt = {#ifdef CONFIG_X86_64        /* 64位模式下，也需要有效的段         * IRET指令会检查段类型（kkeil 2000/10/28注）         * sysret指令要求特定的GDT布局         位不一样，希望没人依赖固定位置（比如Wine？）             [GDT_ENTRY_KERNEL32_CS]                = GDT_ENTRY_INIT(0xc09b内核代码段        [GDT_ENTRY_KERNEL_CS]                = G 0, 0xfffff),  // 64位内核代码段        [GDT_ENTRY_KERNEL_DS]_ENTRY_INIT(0xc093, 0, 0xfffff),  // 内核数据段        [GDT_ENTRY_DEFAULT_CS]        = GDT_ENTRY_INIT(0xc0fb, 0, 0xfffff), // 32位用户DT_ENTRY_DEFAULT_USER_DS]        = GDT_ENTRY_INIT(0xc0f3, 0, 0xfffff), //        [GDT_ENTRY_DEFAULT_USER_CS]        = GDT_ENTRY_INIT(0xa0fb, 0, 0位用户代码段#else        // 32位模式下的GDT条目        [GDT_E]                = GDT_ENTRY_INIT(0xc09a, 0, 0xfffff),  _ENTRY_KERNEL_DS]                = GDT_ENTRY_INIT(0xc092, 0, 0x数据段        [GDT_ENTRY_DEFAULT_USER_CS]        = GDT_ENTRY_IN0xfffff),  // 用户代码段        [GDT_ENTRY_DEFAULT_USER_DS]        = G0xc0f2, 0, 0xfffff),  // 用户数据段        /* 用于调用PN段，字节粒度，代码/数据段固定64K界限         * 传输设置         */        [GDT_ENTRY_PNPBIOS_CS32]        = GDT_ 0xffff),  // 32位PNP BIOS代码段        [GDT_ENTRY_PNPBIOS_CS16]     _INIT(0x009a, 0, 0xffff),  // 16位PNP BIOS代码段        [GDT_NPBIOS_DS]                = GDT_ENTRY_INIT(0x0092, 0, 0xffff),  // 16[GDT_ENTRY_PNPBIOS_TS1]                = GDT_ENTRY_INIT(0x0092, 0 16位PNP BIOS传输段1        [GDT_ENTRY_PNPBIOS_TS2]               092, 0, 0),       // 16位PNP BIOS传输段2        /* APM ，字节粒度，基址运行时设置，界限64K         */    _APMBIOS_BASE]        = GDT_ENTRY_INIT(0x409a, 0, 0xffff),  // BIOS代码段        [GDT_ENTRY_APMBIOS_BASE+1]        = GDT_ENa, 0, 0xffff),  // 16位APM BIOS代码段        [GDT_ENTRY_APMBIOS_B= GDT_ENTRY_INIT(0x4092, 0, 0xffff),  // APM BIOS数据段        [GD_ESPFIX_SS]                = GDT_ENTRY_INIT(0xc092, 0, 0xfffff段        [GDT_ENTRY_PERCPU]                = GDT_ENTRY_INIT(0xc092, 0, 0xf        GDT_STACK_CANARY_INIT                // 栈保护初始化#endif}ffff),  // per-cpu数据段),  // ESPFIX栈T_ENTRYASE+2]        TRY_INIT(0x009 32位APM    [GDT_ENTRYBIOS相关段 = GDT_ENTRY_INIT(0x0, 0),       //位PNP BIOS数据段        ENTRY_P   = GDT_ENTRYENTRY_INIT(0x409a, 0,段大小在运行时P BIOS的DT_ENTRY_INIT(IT(0xc0fa, 0, fffff),  // 内核// 内核代码段        [GDTNTRY_KERNEL_CSxfffff), // 64 用户数据段代码段        [G_USER32                = GDTDT_ENTRY_INIT(0xa09b,, 0, 0xfffff), // 32位    */* TLS描述符的位置和32释，保留原注释内核代码/数据DEFINE               // 粒度位（1表示4K，0表示字节）        // 32位模式标志（1表示32位）               // 64位模式标志（1表示64位）                 & 0x01,                // 保留位，可自定义使用                .l

从这段代码能看出来，GDT_ENTRY_INIT宏主要初始化了四个关键的段描述符：内核代码段（KERNEL_CS）、内核数据段（KERNEL_DS）、用户代码段（USER_CS）、用户数据段（USER_DS）。

它们的参数我整理成了一个表：

段	Limit	G	S	DPL	P	Type
KERNEL_CS	0XFFFF	1	1	0	1	0xA
KERNEL_DS	0XFFFF	1	1	0	1	0x2
USER_CS	0XFFFF	1	1	3	1	0xA
USER_DS	0XFFFF	1	1	3	1	0x2

这里有个关键点，你们发现没？

这四个段的BASE都是0！也就是说，逻辑地址的偏移量，和线性地址是一样的。DPL字段是权限等级，内核态是0，用户态是3，这样就能保证内核态的段，用户态程序没法随便访问。

所以啊，虽然X86架构支持分段，但Linux内核实际上没怎么用传统分段机制，主要还是靠页表管理内存。毕竟分段的坑太多，不如分页灵活、高效。

至于分页机制的具体实现，我昨天写过，感兴趣的可以看一看→深入浅出Linux内核（内存篇）：页表映射分页

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

深入浅出Linux内核(内存篇):页表映射分段

一、分段

二、X86分段

三、内核分段

最新文章

热门文章

随机文章

深入浅出Linux内核(内存篇):页表映射分段

一、分段

二、X86分段

三、内核分段

Python编程零基础学习

600个常用Linux命令

最新文章

热门文章

随机文章