arch/riscv/mm/是RISC‑V架构内存管理子系统的核心实现目录。它与对应的头文件,以及arch/riscv/kernel下的个别文件共同构成了连接MMU与内核通用内存管理模块(mm/)的桥梁。本文尝试理解其中主要文件的作用,以及关键接口的定义位置,以便为深入掌握RISC‑V虚拟内存机制打下基础。使用的内核版本是7.0.10。
一、内存初始化
init.c 包含了系统启动时最核心的两个内存初始化函数:
setup_bootmem() – 负责解析设备树中的物理内存信息,填充 memblock 数据结构;根据内核启动参数“mem=”获得可用内存地址范围;预留内核镜像、DTB、initrd 等关键区域;并初始化 DMA/CMA 连续内存池。paging_init() – 调用 setup_vm_final() 建立最终的内核页表,包括线性映射区(将物理内存 1:1 映射到内核虚拟空间)和固定映射区(用于早期 I/O 映射)。最后写入 satp 寄存器,正式启用 MMU。二、页表操作
页表操作的函数定义分布在多个头文件和通用代码中。下面按功能类别逐一说明。
2.1 页表项内容操作(读、写、测试、构造)
这些函数全部以 static inline 形式定义在 arch/riscv/include/asm/pgtable.h 中。常见的包括:
pte_none(pte) – 检查页表项是否为空
pte_present(pte) – 判断页表项对应的物理页是否在内存中
mk_pte(page, prot) – 根据物理页结构体和权限生成页表项
pfn_pte(pfn, prot) – 将物理页框号与权限组合成页表项
pte_read(pte), pte_write(pte), pte_exec(pte) – 分别获取读、写、执行权限位
pte_set_read, pte_set_write 等修改操作也在该文件中
2.2 页表项、页分配/释放(非最底层)
负责分配或释放一整张页表页(如 PGD 页、PTE 页)。它们的定义分两种情况。
PGD 相关的定义在 arch/riscv/include/asm/pgalloc.h 中:
pgd_alloc(mm) – 分配一个页全局目录(PGD)页。它通常是一个内联函数,内部调用 __pgd_alloc()。
pgd_free(mm, pgd) – 释放一个 PGD 页,内部调用 __pgd_free()。
PTE 及其他页表页的操作直接使用了 include/asm-generic/pgalloc.h 中的通用版本,因此以下函数的实际定义位于该通用头文件中:
pte_alloc_one(mm) – 分配一个页表项(PTE)页(用于用户空间)
pte_alloc_one_kernel(mm) – 为内核分配一个 PTE 页
pte_free(mm, pte) – 释放一个 PTE 页
pte_free_kernel(mm, pte) – 释放内核使用的 PTE 页
类似地,pmd_alloc_one、pud_alloc_one 等也在通用代码中提供
2.3 底层页表项、页内存分配
真正执行物理内存页分配的底层函数,在最近的 Linux 内核中已被移入通用代码。具体来说,__pgd_alloc(mm, vm_flags) 和 __pgd_free(pgd)定义在 include/asm-generic/pgalloc.h 中。
所以,查找页表操作函数时,请先判断它属于哪一类:
页表项内容 → arch/riscv/include/asm/pgtable.h
PGD 高层封装 → arch/riscv/include/asm/pgalloc.h
PTE / PMD / PUD 高层封装 → include/asm-generic/pgalloc.h
底层物理分配(__pgd_alloc 等) → include/asm-generic/pgalloc.h
这种分层设计兼顾了性能(通过内联)和代码复用(通用实现)。
三、缺页异常处理:traps.c 与 fault.c
RISC‑V 的缺页异常处理由两个文件共同完成:arch/riscv/kernel/traps.c 用作入口调度,arch/riscv/mm/fault.c 执行具体操作。
3.1 入口调度:traps.c
主要函数是 do_page_fault(),该函数是缺页异常的 C 语言入口,由汇编级别的异常向量表调用。它的主要职责是:
1. 从 CSR 寄存器中读取异常原因(cause)和错误地址(badaddr)。2. 判断异常发生的上下文(用户态还是内核态)。如果内核态访问非法地址,直接触发 Oops。3. 针对特定地址区间(如 vmalloc 区)做早期过滤。4. 调用 arch/riscv/mm/fault.c 中的 handle_mm_fault完成真正的缺页修复。3.2 业务执行:fault.c
主要函数是handle_page_fault,该函数是架构相关的核心缺页处理逻辑。它的执行流程如下:
1. 获取异常码,主要是读取 RISC-V 的 cause 寄存器。
2. 通过 RCU 读取 VMA,调用 access_error 检查权限,合法则进入修复。
3. 调用通用函数 handle_mm_fault 分配物理页或处理写时复制,并根据结果返回或发送信号。
其它一些函数:
vmalloc_fault()
专门处理内核 vmalloc 区域的缺页异常。当进程访问尚未建立映射的 vmalloc 地址时,该函数会从全局内核页表 init_mm 中复制所需的页表项到当前进程的页表中。这是实现“每个进程页表都包含内核映射副本”的关键技术,避免了进程切换时频繁切换页表基址寄存器。
access_error()
该函数接收异常原因(cause)和 VMA 权限标志,判断本次访问是否合法。例如,写操作需要 VMA 具有 VM_WRITE 标志,执行操作需要 VM_EXEC 标志。如果合法返回 false,否则返回 true 表示发生权限错误。
四、TLB、Cache 与 DMA 一致性
4.1 TLB 刷新:tlbflush.c
TLB(Translation Lookaside Buffer)是 CPU 内部的地址转换缓存。当页表被修改后,必须刷新 TLB。tlbflush.c 提供以下接口:
flush_tlb_all() – 全局刷新所有 TLB 条目(开销大,仅用于系统启动等极少数情况)。
flush_tlb_range(vma, start, end) – 按虚拟地址范围刷新 TLB,精度更高,性能更好。
flush_tlb_page(vma, addr) – 刷新单个页面的 TLB 条目。
RISC‑V 使用 sfence.vma 指令执行实际的 TLB 失效操作。该指令支持按 ASID(地址空间标识符)和虚拟地址粒度刷新。在多核系统中,上述函数会通过 IPI(核间中断)通知其他核心执行本地 TLB 刷新。
4.2 Cache 刷新:cacheflush.c
cacheflush.c主要负责刷新指令cache, 提供:
flush_icache_all() – 刷新所有 CPU 核心的指令 Cache,用于模块加载、BPF JIT 等场景。
flush_icache_range(start, end) – 按地址范围刷新指令 Cache。
对于数据缓存一致性,底层依赖 RISC‑V 的 Zicbom 扩展指令集:cbo.clean(写回)、cbo.flush(写回并失效)、cbo.inval(失效)等;而对于指令缓存刷新,则使用 fence.i 指令。
4.3 非一致 DMA 支持:dma-noncoherent.c
对于不支持硬件 Cache 一致性的 DMA 设备,软件必须负责同步。dma-noncoherent.c 实现了通用的 DMA 回调:
arch_sync_dma_for_device(dev, paddr, size, dir) – 在 CPU 将缓冲区交给设备前调用。它会根据 DMA 方向执行必要的 Cache 写回(writeback),确保设备从内存中读到最新数据。
arch_sync_dma_for_cpu(dev, paddr, size, dir) – 在设备完成 DMA、CPU 重新获得所有权时调用。它会执行 Cache 无效化(invalidate),防止 CPU 读到 Cache 中的陈旧数据。
这些函数被通用的 DMA API(如 dma_map_single 和 dma_unmap_single)调用,对驱动开发者透明。
五、调试与高级特性
5.1 页表导出:ptdump.c
ptdump.c 利用 debugfs 导出当前内核页表的详细布局。
使用它需要打开内核配置CONFIG_PTDUMP,具体配置方法为:
Kernel hacking ->
Memory Debugging->
[*] Export kernel pagetable layout to userspace via debugfs
使用前需要先挂载debugfs文件系统
mount -t debugfs none /sys/kernel/debug
然后到 /sys/kernel/debug/目录,查看文件kernel_page_tables,其中每一行列出了虚拟地址范围、物理地址偏移、大小、页表级别以及权限标志(读/写/执行/全局/脏/已访问等)。这对于调试内存映射问题非常有帮助。
5.2 大页支持:hugetlbpage.c
大页(HugeTLB)能够减少 TLB 未命中,提升性能。hugetlbpage.c 实现了 RISC‑V 架构下的大页接口:
huge_pte_alloc(mm, addr, prot) – 为大页分配页表项。
huge_pte_offset(mm, addr, sz) – 查询指定地址的大页页表项。
set_huge_pte_at(mm, addr, ptep, pte) – 设置大页映射。
5.3 KASAN 初始化:kasan_init.c
KASAN(Kernel Address Sanitizer)是一个运行时内存错误检测工具,用于发现越界访问和 use‑after‑free。kasan_init.c 负责:
为影子内存(Shadow Memory)建立页表映射。
采用“两阶段启动法”:早期用一个零页占位映射整个影子区域,后期切换为按实际内核内存建立的精确映射。
最终,编译器会在每次内存访问前插入检查代码,读取影子内存状态,一旦发现非法访问立即报告。
注:我在QEMU上没法运行这个功能,内核启动过程中卡死了,目前原因不明。
六、其它
context.c管理地址空间标识符(ASID)。通过为每个进程分配 ASID,TLB 可以在进程切换时保留部分条目,减少 TLB 刷新开销。extable.c维护内核异常修复表。当 copy_from_user 等函数访问用户空间地址出错时,可以通过该表跳转到指定的修复代码,避免内核崩溃。pageattr.c动态修改内核页表属性。例如 set_memory_ro() 将一段内存设为只读,set_memory_rw() 恢复读写,常用于内核自我保护。pmem.c持久内存(PMEM)支持,维护 CPU cache 与持久内存之间的数据一致性。physaddr.c用于虚拟地址到物理地址的转换(验证是否正确),仅在开启 CONFIG_DEBUG_VIRTUAL 时有效。