本文我们来学习Linux文件页缓存,揭秘Linux读写文件背后的秘密。1.文件页缓存是什么?
文件页缓存是磁盘文件在内存中的一个副本,由于磁盘文件通常以数据块(4KB)来管理,所以文件页缓存也会以“块”来管理,这里块就是页(struct page),每个 page 都会对应 4KB 物理内存。
内核要读写磁盘文件,需要进行磁盘 I/O,磁盘 I/O 的速度很慢(毫秒级)。如果将文件先缓存至内存,直接从内存读取文件,那么读写文件的速度将提高百万倍。所以文件页缓存的作用是为了最大程度的减少磁盘I/O。
图 1 文件页缓存
说了这么多,文件页缓存到底是什么?我们结合图1来分析。
文件页缓存的定义为 struct address_space 结构,它是内核中管理文件页缓存的核心数据结构,负责将磁盘文件数据映射到内存页,并提供读写、映射、回写等操作的统一接口。其定义如下:
struct address_space {struct inode *host;/* 指向所属文件的索引节点(inode) */struct xarrayi_pages;/* 存储所有缓存页的Xarray */struct rb_root_cachedi_mmap;/* 内存映射红黑树:管理所有映射该文件的进程虚拟地址区域 */unsignedlong nrpages; /* 当前缓存的页总数 */pgoff_t writeback_index;/* 回写起始索引,记录脏页写回的起始页号,避免重复刷盘*/conststruct address_space_operations *a_ops;/* 页缓存的操作函数集 */unsignedlong flags; /* 状态标志位 */void *private_data; /* 私有数据指针 */ ......};
Linux 系统中每个文件都会维护一个文件页缓存,inode 结构会定义一个 i_data 成员(struct address_space 结构),i_data 就是文件页缓存,定义如下:
structinode {/* 指向 i_data */structaddress_space *i_mapping;/* 文件页缓存管理结构 */structaddress_spacei_data;};
inode 结构同时定义了一个 i_mapping 指针,i_mapping 会指向 i_data,内核通常会通过 i_mapping 来访问文件页缓存。
进程打开一个文件时,内核会创建一个 file 对象,内核会将 inode 的 i_mapping 赋值给 file 对象的 f_mapping(struct address_space 结构),这样新打开的文件就能够访问文件页缓存了。值得注意的是:多个进程打开同一个文件时,每个 file 对象的 f_mmaping 都会指向相同的 i_mapping。
2.页缓存实现原理
文件页缓存通过 Xarray 结构来管理内存页,struct address_space 结构定义了一个 i_pages 成员(struct xarray 结构) ,Xarray 是 Linux 内核 4.20+ 引入的高效的键值存储结构,用来替代老旧的 Radix Tree。
Xarray 工作原理如图2所示。对于初学者来说,Xarray 的工作原理并不好理解。我们先要搞清楚使用 Xarray 要达到什么目的,对于页缓存来说,内核需要通过 Xarray 完成文件页偏移至物理页的映射。 如图3所示,文件偏移是指从文件起始位置到指定数据位置的字节数,而文件页偏移则是以页(4KB)为单位表示的偏移量,即文件偏移量除以页大小。如图4所示,文件页偏移是一个64位的整型数,我们将文件页偏移以6位进行分段,将文件页偏移分成6个段,每个段覆盖的数据范围为2^6 = 64,文件页偏移每个分段都会对应Xarray树形结构的一个层级。Xarray的本质是一个树形结构,根节点为struct xarray结构,定义如下:structxarray {spinlock_t xa_lock;gfp_t xa_flags;void __rcu * xa_head; /* 指向 Xarray 树的根节点*/};
树节点结构为struct xa_node,定义如下:structxa_node {unsignedchar shift; /* 当前节点层级的剩余位移位数,通常是6的倍数 */unsignedchar offset; /* 该节点在父节点 slots 数组中的索引位置*/unsignedchar count; /* 当前节点中非空 entry 的总数 */unsignedchar nr_values; /* 当前节点中存储的值 entry 数量 */structxa_node __rcu *parent; /* 指向父节点的指针 */structxarray *array;/* 指向该节点所属的 Xarray 根结构 */void __rcu *slots[XA_CHUNK_SIZE]; /* 子节点指针或值存储数组 */union {// tags[0][0]: bit0-bit63 → 第 0 种标记(如 PG_dirty)// tags[1][0]: bit0-bit63 → 第 1 种标记(如 PG_writeback)// tags[2][0]: bit0-bit63 → 第 2 种标记(如 PG_workingset)unsignedlong tags[XA_MAX_MARKS][XA_MARK_LONGS];unsignedlong marks[XA_MAX_MARKS][XA_MARK_LONGS]; };};
xa_node维护了一个slots数组(void *类型),数组长度为64。slots数组中的每个槽位可以指向一个struct page地址或struct xa_node地址(下一级节点)。
如图2所示,Xarray通过struct xarray和struct xa_node构成一个树形结构,树形结构分为:
根节点:没有父节点的最顶层节点,是Xarray的入口点。
中间节点:既有父节点又有至少一个子节点的节点,用于组织树的层次结构。
叶子结点:没有子节点的末端节点,直接存储实际数据。
xa_node的shift成员表示该节点的剩余偏移位数,各个层级节点的shift值见表1(以6层树形结构为例,实际情况中间节点层级是动态变化的)。
表 1 节点 shift 偏移

shift的作用是计算文件页偏移(index)在当前节点的slots槽位索引(offset),计算公式为:offset = (index >> shift) & (64 - 1) 。
slots[offset]指向下一级节点或struct page地址。
3.页缓存索引过程
接下来,我们通过实际的例子来学习页缓存索引过程,如图5所示。
图 5 页缓存索引过程
假如文件偏移(pos)为38964650字节,文件页偏移(index)为9512(38964650 >> 12)。
9512的二进制形式为:000010 010100 101000,我们将二进制形式以6位进行分段,按照以下方式进行索引:
根节点shift为12,槽位索引offset为2(000010 010100 101000 >> 12 & 63),slots[2]指向下一级节点(中间节点)。
下一级节点shift为6,槽位索引offset为20(000010 010100 101000 >> 6 & 63),slots[20]指向下一级节点(叶子节点)。
叶子节点shift为0,槽位索引offset为40(000010 010100 101000 & 63),slots[40]指向page地址,page对应的物理页存储的就是文件数据。
4.同步页缓存数据至磁盘
文件页缓存数据同步至磁盘的过程称为回写(Writeback)。如图6所示,进程通过 write() 或 mmap() 修改页缓存数据时,内核会标记该页为脏页(Dirty),脏页是指已经被修改但尚未写回磁盘的内存页。
图 6 页缓存数据回写
标记脏页的目的是让内核能够快速识别哪些内存页需要写回磁盘,除了标记page为脏页之外,内核还会将Xarray中的节点标记为脏(xa_node中的marks数组就是用来标记下一级节点是否为脏),以及将inode标记为脏,这样内核就能够快速定位到哪个文件的哪个page为脏页。
Linux将脏页回写至磁盘有很多种方式:
定时回写:内核通过定时器周期性唤醒 flusher 线程,将脏页异步写回磁盘。
阈值回写:当系统脏页占总内存比例超过阈值,内核强制同步回写。
主动回写:调用fsync、fdatasync、sync等系统调用主动进行脏页回写。
直接I/O:通过 O_DIRECT 标志打开文件,绕过页缓存直接将数据写入磁盘。
5.页缓存数据冲突问题
Linux系统中,每个文件唯一对应一个页缓存,那么当多个进程同时读写同一个文件时就会出现数据冲突问题。
图 7 页缓存数据冲突
如图7所示,当多个进程同时读写同一个文件时,每个 file 对象的 f_mapping 都会指向相同的文件页缓存,文件页缓存变成了临界资源。访问临界资源时,如果没有同步机制,会出现以下问题:
以上这些问题是有很大概率发生的,要实现多进程读写同一文件的数据一致性,必须在应用层主动加同步控制机制,核心思路是:先对文件加锁(如:flock或fcntl加锁),再读写文件,最后将页缓存数据回写至磁盘。我的新书《图解Linux网络编程》发布了,我对Linux网络编程的应用开发技术以及内核源码进行了深入的研究,并以图解方式创作了《图解Linux网络编程》这本书,如果你想系统性地学习Linux网络编程,从底层原理到上层应用彻底通关Linux网络编程,欢迎入手我的新书。