本文约2100字,今天开始阅读《深入Linux内核架构》中文版关于“内存管理”章节的内容,内存管理是内核最复杂同时也是最重要的一部分,其特点在于非常需要处理器和内核之间的协作。这本书我打算按照自己想读的内容来读,不从头开始了,本文整理了内存管理的读书笔记,内容比较多,分多篇整理完,本篇先整理Linux内核中内存管理的核心概念、数据结构和初始化过程。
关注公众号, 即可获得与Linux相关的电子书籍(含《深入Linux内核架构》)以及常用开发工具,文末有文档清单。
一 内存管理概述
Linux内核的内存管理涵盖了许多领域:
[1].内存中的物理内存页的管理
[2].分配大块内存的伙伴系统
[3].分配较小内存块的slab、slub和slob分配器
[4].分配非连续内存块的vmalloc机制
[5].进程的地址空间管理
1.虚拟地址空间划分:
Linux将处理器的虚拟地址空间分为两部分:
用户空间:底部大部分区域,供用户进程使用
内核空间:顶部区域,专供内核使用
在IA-32系统上,典型的划分比例是3:1(用户空间3GiB,内核空间1GiB)。这种划分可以通过配置选项调整。
2.物理内存管理挑战:
高端内存(highmem):当物理内存超过内核直接映射范围时,需要特殊处理。
在IA-32系统上,直接管理的内存不超过896MiB。超过该值(直到最大4GiB为止)的内存只能通过高端内存寻址。
3.内存模型差异:
[1].UMA计算机(一致内存访问):将可用内存以连续方式组织起来(可能有小的缺口)。SMP系统中的每个处理器访问各个内存区都是同样快,也即速度相同。
[2].NUMA计算机(非一致内存访问):总是多处理器计算机。系统的各个CPU都有本地内存,可支持特别快速的访问。处理器优先访问本地内存,访问远程内存较慢。

4.内存配置选项:
内核支持三种内存配置模型:
[1].FLATMEM:平坦内存模型(默认)
[2].DISCONTIGMEM:不连续内存模型
[3].SPARSEMEM:稀疏内存模型
二 (N)UMA模型中的内存组织

1.内存管理采用层次化组织:
[1].结点(Node):每个结点关联到系统中的一个处理器,在内核中表示为pg_data_t的实例.
[2].内存域(Zone):结点内进一步细分,用于不同用途的内存区域。
[3].页帧(Page Frame):内存管理的基本单位

2.内存域类型:
内核定义了多种内存域类型:
<mmzone.h>enum zone_type {#ifdef CONFIG_ZONE_DMAZONE_DMA, // 直接内存访问区域#endif#ifdef CONFIG_ZONE_DMA32ZONE_DMA32, // 32位DMA区域(64位系统)#endifZONE_NORMAL, // 普通内存域#ifdef CONFIG_HIGHMEMZONE_HIGHMEM, // 高端内存域#endifZONE_MOVABLE, // 可移动内存域(防碎片)MAX_NR_ZONES};
说明:内核使用数组为每个内存域管理物理内存页(页帧),并为每个页帧分配一个struct page实例及管理数据。内存结点以单链表形式组织,供内核遍历。
为提升性能,内核优先从当前CPU关联的NUMA结点为进程分配内存。若该结点内存耗尽,则通过结点的备用列表(struct zonelist)查找其他可用结点或内存域。列表中位置越靠后的选项,分配优先级越低。
3.数据结构:
[1]. 结点管理(pg_data_t)
每个内存结点对应一个pg_data_t(结点的基本元素)结构:
typedef struct pglist_data {struct zone node_zones[MAX_NR_ZONES]; // 结点内存域数组struct zonelist node_zonelists[MAX_ZONELISTS]; // 备用结点列表int nr_zones; // 内存域数量struct page *node_mem_map; // 页描述符数组unsigned long node_start_pfn; // 起始页帧号unsigned long node_present_pages; // 物理页总数unsigned long node_spanned_pages; // 总页数(含空洞)int node_id; // 结点ID// ... 其他字段} pg_data_t;
[2]. 内存域(struct zone)
描述每个内存域的详细信息:
struct zone {/* 页分配器相关字段 */unsigned long pages_min, pages_low, pages_high; // 水位标记unsigned long lowmem_reserve[MAX_NR_ZONES]; // 保留页数struct per_cpu_pageset pageset[NR_CPUS]; // 每CPU页缓存/* 空闲区域管理 */spinlock_t lock;struct free_area free_area[MAX_ORDER]; // 伙伴系统空闲列表/* 页面回收相关 */struct list_head active_list; // 活动页列表struct list_head inactive_list; // 非活动页列表unsigned long flags; // 内存域标志// ... 其他重要字段};
说明:pages_min、pages_high、pages_low是页换出时使用的“水印”。
如果内存不足,内核可 以将页写到硬盘。这3个成员会影响交换守护进程的行为。
如果空闲页多于pages_high,则内存域的状态是理想的。
如果空闲页的数目低于pages_low,则内核开始将页换出到硬盘。
如果空闲页的数目低于pages_min,那么页回收工作的压力就比较大,因为内存域中急需空 闲页。
[3]. 冷热页机制
为了提高缓存效率,内核为每个CPU维护冷热页列表:
热页(Hot Page):可能仍在CPU缓存中,访问速度快
冷页(Cold Page):不在CPU缓存中,访问速度慢
struct per_cpu_pages {int count; // 列表中页数int high; // 高水位线int batch; // 批量操作大小struct list_head list; // 页链表};
[4]. 页帧描述(struct page)
每个物理页帧对应一个struct page实例:
struct page {unsigned long flags; // 页标志位atomic_t _count; // 使用计数atomic_t _mapcount; // 页表映射计数unsigned long private; // 私有数据struct address_space *mapping; // 地址空间映射pgoff_t index; // 页索引struct list_head lru; // LRU链表节点// ... 其他字段};
重要页标志:
PG_locked:页被锁定,禁止访问
PG_dirty:页内容已修改(脏页)
PG_uptodate:页数据已从块设备读取
PG_lru:页在LRU链表中
三 页表管理
1.页表数据结构
Linux使用四级页表结构支持大地址空间:
[1].页全局目录(PGD):顶级页表
[2].上层页目录(PUD):第二级页表
[3].中间页目录(PMD):第三级页表
[4].页表(PTE):最后一级页表
2.对应的数据类型:
pgd_t:全局目录项
pud_t:上层目录项
pmd_t:中间目录项
pte_t:页表项
3.页表项标志位:
每个页表项包含重要的控制位:
_PAGE_PRESENT:页是否在内存中
_PAGE_ACCESSED:页是否被访问过
_PAGE_DIRTY:页是否被修改
_PAGE_USER:用户空间是否可访问
_PAGE_READ/WRITE/EXECUTE:访问权限控制
4.页表操作函数:
内核提供丰富的页表操作函数:
// 基本操作
pgd_t *pgd_alloc(struct mm_struct *mm);voidpgd_free(pgd_t *pgd);
// 页表项操作
staticinlinepte_tpte_mkwrite(pte_t pte); // 设置写权限staticinlinepte_tpte_mkdirty(pte_t pte); // 标记为脏页staticinlineintpte_young(pte_t pte); // 检查访问位
// 地址转换
#define pgd_index(address) // 获取PGD索引#define pmd_offset(pud, address) // 获取PMD项
四 关键机制总结
[1]. 水位控制机制
每个内存域维护三个水位值:
>>pages_min:最低水位,内存严重不足
>>pages_low:低水位,开始回收内存
>>pages_high:高水位,内存充足
[2]. 伙伴系统(Buddy System)
用于管理连续物理页帧分配:
>>将空闲页面组织成不同大小的块(2的幂次)
>>提供高效的分配和释放算法
>>减少外部碎片问题
[3]. 反碎片技术
内核采用两种主要技术防止内存碎片:
>>按可移动性分组:将页分为不可移动、可回收、可移动三类
>>虚拟可移动内存域:创建专门的ZONE_MOVABLE区域
[4]. 初始化过程
内存管理初始化包括如下步骤:
>>检测系统内存布局
>>建立结点和内存域数据结构
>>初始化伙伴系统
>>设置页表映射
以上为全文内容。
这里是女程序员的笔记本
15年+嵌入式软件工程师兼二胎宝妈
分享读书心得、工作经验,自我成长和生活方式。
希望我的文字能对你有所帮助