当前位置：首页>Linux>VFS:Linux文件系统的“联合国”式抽象——探秘统一访问接口的设计哲学

VFS:Linux文件系统的“联合国”式抽象——探秘统一访问接口的设计哲学

2026-02-03 22:01:06

想象这样一个场景：你的Linux系统中，根目录使用ext4格式，从网络加载着NFS共享文件夹，同时通过FUSE访问着sshfs的远程文件——而这些完全不同的文件系统，却通过完全相同的open()、read()、write()、close()系统调用被应用程序使用。

这看似魔法的无缝体验背后，正是虚拟文件系统（Virtual Filesystem Switch, VFS） 的杰作。如同联合国为各主权国家提供一套通用的议事规则，VFS 在 Linux 内核中定义了一套统一的抽象接口与数据结构，让 EXT4、XFS、Btrfs、乃至 FAT32 等数十种文件系统能够遵循同一套“协议”运作，从而对上层应用隐藏了所有底层差异，提供了完美一致的文件视图。

1.VFS核心架构剖析

我们先从整体结构来看，可以分为三层来理解，第一层是用户接口，也就是通过系统调用来执行对应操作（如open、close、read等）；第二层是内核空间中文件系统，其通过注册分发方式调用不同的文件系统代码（也可以认为是两层，一层抽象，一层具体实现）；最后是存储层，根据客户端的调用来执行对应操作并返回结果。

2.代码剖析

代码剖析部分我们将主要聚焦于统一文件模型的构建，特定文件系统的实现我们后面再去讲解，为了方便讲清楚实现逻辑，我们可以从流程上来看，通过其调用以及使用关系去梳理，首先是系统调用部分，其通过传入的fd拿到vfs层的file对象（包含file对象指针，同时会对文件引用计数进行管理）。：

SYSCALL_DEFINE3(read, unsigned int, fd, char __user *, buf, size_t, count){    return ksys_read(fd, buf, count);}

ssize_tksys_read(unsignedint fd, char __user *buf, size_t count){    struct fd f = fdget_pos(fd);  // 通过文件描述符fd获取struct fd结构体，包含file对象指针，同时增加文件引用计数    ssize_t ret = -EBADF;  // 初始化返回值为"坏文件描述符"错误，默认操作失败    if (f.file) {  // 检查是否成功获取到file对象（即fd有效）        loff_t pos, *ppos = file_ppos(f.file);  // 获取文件当前读写位置指针ppos        if (ppos) {  // 若存在读写位置指针（普通文件有，管道、设备文件可能无）            pos = *ppos;  // 缓存当前读写位置到局部变量pos，避免并发操作导致位置错乱            ppos = &pos;  // 将ppos指向局部缓存pos，后续操作基于缓存位置        }        ret = vfs_read(f.file, buf, count, ppos);  // 调用VFS层统一读接口vfs_read，执行核心读操作        if (ret >= 0 && ppos)  // 若读操作成功且存在位置指针，更新文件实际读写位置            f.file->f_pos = pos;        fdput_pos(f);  // 释放struct fd结构体，减少文件引用计数    }    return ret;  // 返回读操作结果（成功返回读取字节数，失败返回错误码）}

接下来我们来看vfs_read到底做了什么，其主要做的就是校验和调用转发，也就是转发到file->f_op->read(file, buf, count, pos)。

ssize_t vfs_read(structfile *file, char __user *buf, size_t count, loff_t *pos){    ssize_t ret;  // 存储读操作返回结果    // 1. 基础权限校验：检查文件是否具备可读模式    if (!(file->f_mode & FMODE_READ))        return -EBADF;  // 无读权限，返回坏文件描述符错误    // 进一步检查文件是否具备实际可读能力（避免名义可读但实际不可读的异常）    if (!(file->f_mode & FMODE_CAN_READ))        return -EINVAL;  // 无效参数错误    // 2. 安全校验：检查用户空间缓冲区地址合法性，避免内核访问非法内存    if (unlikely(!access_ok(buf, count)))        return -EFAULT;  // 内存访问错误    // 3. 读区域合法性校验：检查读写位置和长度是否超出文件范围等    ret = rw_verify_area(READ, file, pos, count);    if (ret)        return ret;  // 校验失败，返回对应错误码    // 4. 限制单次读长度，避免过度占用系统资源    if (count > MAX_RW_COUNT)        count =  MAX_RW_COUNT;  // 截断为内核允许的最大读写长度    // 5. 核心转发逻辑：根据文件系统实现的读接口，动态调用对应函数    if (file->f_op->read)  // 优先调用传统同步读接口（兼容旧文件系统实现）        ret = file->f_op->read(file, buf, count, pos);    else if (file->f_op->read_iter)  // 无传统读接口则调用迭代式读接口（高效I/O场景）        ret = new_sync_read(file, buf, count, pos);  // 封装为同步读操作    else        ret = -EINVAL;  // 无有效读接口，返回无效参数错误    // 6. 后置处理：操作成功则发送通知并统计数据    if (ret > 0) {        fsnotify_access(file);  // 发送文件访问通知，供inotify等监控机制使用        add_rchar(current, ret);  // 统计当前进程的读字节数，用于系统性能分析    }    inc_syscr(current);  // 递增当前进程的系统调用计数，记录系统调用频率    return ret;  // 返回最终读操作结果}

从上面我们看到，核心的实现再file->f_op->read，我们先来看看file结构，其作为进程与文件的“交互中介”，它整合了文件的路径、元数据（inode）、操作集（file_operations）、访问状态（读写位置、权限、标志位）等关键信息，让VFS能精准把控进程对文件的访问过程。其中，f_op字段是连接VFS与底层文件系统的核心枢纽，f_inode关联文件的元数据，f_pos记录进程的读写进度，这三个字段共同支撑起文件访问的完整链路。

struct file {union {struct llist_node	fu_llist;  // 用于将文件对象链接到线程的文件链表（快速释放场景）struct rcu_head 	fu_rcuhead; // RCU（读-复制-更新）机制的头部，用于文件对象的延迟释放	} f_u;  // 联合结构，节省内存，不同场景下使用不同成员struct path		f_path;  // 文件的路径结构体，包含dentry（目录项）和vfsmnt（挂载点），关联文件的具体位置struct inode		*f_inode;	/* cached value */  // 缓存对应的inode指针（文件的元数据载体），避免重复查找，提升效率const struct file_operations	*f_op;  // 指向该文件所属文件系统的操作集，是VFS转发操作的核心指针/*	 * Protects f_ep_links, f_flags.	 * Must not be taken from IRQ context.	 */spinlock_t		f_lock;  // 自旋锁，保护f_ep_links和f_flags字段，避免并发修改冲突（不可在中断上下文持有）enum rw_hint		f_write_hint;  // 读写提示，用于优化I/O调度（如预测后续是读还是写操作，提前做好缓存准备）atomic_long_t		f_count;  // 文件对象的引用计数，用于管理对象生命周期（count>0时对象有效，减为0时销毁）unsigned int 		f_flags;  // 文件打开时的标志位（如O_RDONLY只读、O_WRONLY只写、O_RDWR读写、O_NONBLOCK非阻塞等）fmode_t			f_mode;  // 文件的访问模式（如FMODE_READ可读、FMODE_WRITE可写、FMODE_CAN_READ实际可读能力等）struct mutex		f_pos_lock;  // 互斥锁，保护文件读写位置f_pos的并发访问（避免多进程同时读写导致位置错乱）loff_t			f_pos;  // 进程当前对该文件的读写位置偏移量（普通文件有效，管道、设备文件等可能忽略）struct fown_struct	f_owner;  // 记录文件的“所有者”信息（如进程ID、进程组ID），用于信号通知（如I/O就绪时向进程发送信号）const struct cred	*f_cred;  // 进程访问该文件的凭证（权限信息），用于权限校验struct file_ra_state	f_ra;  // 预读状态结构体，管理文件的预读策略（提前读取后续数据到缓存，提升读性能）	u64			f_version;  // 文件版本号，用于检测文件内容是否被修改（如多进程共享文件时的一致性检查）#ifdef CONFIG_SECURITYvoid			*f_security;  // 安全相关数据（如SELinux的安全上下文），仅在开启安全模块时存在#endif/* needed for tty driver, and maybe others */void			*private_data;  // 私有数据指针，供特定文件系统或驱动使用（如tty驱动存储终端相关信息）#ifdef CONFIG_EPOLL/* Used by fs/eventpoll.c to link all the hooks to this file */struct list_head	f_ep_links;  // 用于将文件链接到epoll的事件链表（I/O多路复用场景）struct list_head	f_tfile_llink;  // 临时文件链表的链接节点#endif/* #ifdef CONFIG_EPOLL */struct address_space	*f_mapping;  // 指向文件的地址空间结构体，管理文件数据的缓存和I/O映射（关联页缓存）errseq_t		f_wb_err;  // 写回错误序列，记录文件数据写回底层存储时的错误信息errseq_t		f_sb_err; /* for syncfs */  // 超级块错误序列，用于syncfs系统调用（同步文件系统数据）时的错误跟踪} __randomize_layout  // 编译选项，使结构体成员布局随机化，提升系统安全性（对抗缓冲区溢出攻击）  __attribute__((aligned(4)));	/* lest something weird decides that 2 is OK */  // 结构体对齐属性，确保以4字节对齐，避免内存访问异常

接下来我们来看file_operations，可以看到其中提供了一组函数指针定义，如此便能使用不同的文件系统来进行读写。

struct file_operations {struct module *owner;  // 模块所有者指针，指向实现该操作集的内核模块；用于模块计数管理，防止模块在有操作执行时被动态卸载loff_t (*llseek) (struct file *, loff_t, int);  // 文件指针定位操作，用于调整文件的当前读写位置（offset），第三个参数指定定位模式（如SEEK_SET绝对定位、SEEK_CUR相对定位）ssize_t (*read) (struct file *, char __user *, size_t, loff_t *);  // 传统同步读操作接口，从文件读取数据到用户空间缓冲区；返回读取的字节数，失败返回错误码ssize_t (*write) (struct file *, const char __user *, size_t, loff_t *);  // 传统同步写操作接口，将用户空间缓冲区数据写入文件；返回写入的字节数，失败返回错误码ssize_t (*read_iter) (struct kiocb *, struct iov_iter *);  // 迭代式读操作接口，支持分散/聚集I/O（如readv），适配大文件高效读写场景，通过kiocb管理I/O上下文ssize_t (*write_iter) (struct kiocb *, struct iov_iter *);  // 迭代式写操作接口，对应read_iter的写场景，同样支持分散/聚集I/O，提升批量数据传输效率int (*iopoll)(struct kiocb *kiocb, bool spin);  // I/O轮询接口，用于无阻塞I/O场景，查询I/O操作是否完成，spin参数表示是否允许自旋等待int (*iterate) (struct file *, struct dir_context *);  // 目录文件迭代接口，用于遍历目录下的所有目录项（如ls命令底层依赖），通过dir_context传递遍历状态和回调int (*iterate_shared) (struct file *, struct dir_context *);  // 共享模式下的目录迭代接口，支持多进程同时遍历同一目录，提升并发访问效率__poll_t (*poll) (struct file *, struct poll_table_struct *);  // I/O多路复用核心接口，用于查询文件是否可读/可写/异常（如poll/select/epoll系统调用底层）long (*unlocked_ioctl) (struct file *, unsigned int, unsigned long);  // 无锁I/O控制接口，用于实现设备控制、文件属性设置等特殊操作，无需持有big kernel lock，性能更优long (*compat_ioctl) (struct file *, unsigned int, unsigned long);  // 兼容模式I/O控制接口，用于32位用户态进程在64位内核中调用ioctl，处理参数位数适配int (*mmap) (struct file *, struct vm_area_struct *);  // 内存映射接口，将文件数据映射到进程地址空间（如mmap系统调用），实现用户态直接访问文件数据，减少拷贝开销unsigned long mmap_supported_flags;  // 支持的内存映射标志位，如MAP_SHARED、MAP_PRIVATE等，限制该文件允许的映射模式int (*open) (struct file *, struct inode *);  // 文件打开接口，在进程打开文件时调用，完成inode与file对象的关联、文件专属资源初始化（如锁、缓冲区）int (*flush) (struct file *, fl_owner_t id);  // 文件刷新接口，在进程关闭文件描述符时调用，确保未完成的I/O操作提交，或清理进程专属的文件状态int (*release) (struct inode *, struct file *);  // 文件释放接口，在文件对象引用计数减为0时调用，释放文件占用的内核资源（如缓存、锁、私有数据）int (*fsync) (struct file *, loff_t, loff_t, int datasync);  // 同步接口，将文件缓存中的数据刷写到底层存储设备；datasync参数表示是否仅同步数据（忽略元数据）int (*fasync) (int, struct file *, int);  // 异步通知注册接口，用于注册/注销文件的异步I/O通知（如SIGIO信号），实现异步I/O事件驱动int (*lock) (struct file *, int, struct file_lock *);  // 文件锁接口，用于实现文件级别的锁定（如flock），支持共享锁、排他锁，协调多进程对文件的并发访问ssize_t (*sendpage) (struct file *, struct page *, int, size_t, loff_t *, int);  // 页发送接口，用于将文件对应的内存页直接发送到网络（如socket发送文件数据），减少数据拷贝unsignedlong(*get_unmapped_area)(struct file *, unsignedlong, unsignedlong, unsignedlong, unsignedlong);  // 获取未映射地址接口，为mmap操作分配进程地址空间中的空闲区域int (*check_flags)(int);  // 标志位检查接口，验证文件打开时传入的flags（如O_NONBLOCK、O_APPEND）是否合法，避免不支持的标志位被使用int (*flock) (struct file *, int, struct file_lock *);  // 兼容flock系统调用的文件锁接口，专门处理BSD风格的文件锁，与lock接口协同实现完整的文件锁机制ssize_t (*splice_write)(struct pipe_inode_info *, struct file *, loff_t *, size_t, unsigned int);  // 管道写入拼接接口，将文件数据直接拼接到管道中，实现零拷贝数据传输ssize_t (*splice_read)(struct file *, loff_t *, struct pipe_inode_info *, size_t, unsigned int);  // 管道读取拼接接口，将管道数据直接拼接到文件中，对应splice_write的反向操作int (*setlease)(struct file *, long, struct file_lock **, void **);  // 租约设置接口，用于文件租约机制（如NFS共享文件场景），当文件被修改时通知持有租约的进程long (*fallocate)(struct file *file, int mode, loff_t offset, loff_t len);  // 文件预分配接口，提前为文件分配指定长度的磁盘空间，避免后续写入时的空间分配开销，支持多种预分配模式void (*show_fdinfo)(struct seq_file *m, struct file *f);  // 文件描述符信息展示接口，用于调试和监控，将文件的核心状态（如打开模式、读写位置）输出到seq_file缓冲区#ifndef CONFIG_MMUunsigned (*mmap_capabilities)(struct file *);  // 无MMU架构下的内存映射能力接口，返回该文件支持的内存映射类型，仅在无内存管理单元的嵌入式系统中启用#endifssize_t (*copy_file_range)(struct file *, loff_t, struct file *, loff_t, size_t, unsigned int);  // 文件间数据拷贝接口，直接在内核态完成两个文件的数据传输，无需用户态中转，提升拷贝效率loff_t (*remap_file_range)(struct file *file_in, loff_t pos_in, struct file *file_out, loff_t pos_out, loff_t len, unsigned int remap_flags);  // 文件范围重映射接口，将一个文件的指定范围映射到另一个文件（如稀疏文件实现），支持多种重映射标志（如REMAP_FILE_SHARED）int (*fadvise)(struct file *, loff_t, loff_t, int);  // 文件访问建议接口，用户态进程向内核提示文件的后续访问模式（如顺序读、随机读），内核根据建议优化缓存策略} __randomize_layout;  // 结构体布局随机化编译选项，通过打乱成员顺序提升系统安全性，对抗基于结构体成员偏移的缓冲区溢出攻击

上面我们从流程角度来分析了其VFS承上启下的作用，接下来我们从如何支持一个新文件系统角度来看：

1）如何获得被系统承认的身份，其通过struct file_system_type结构实现，用于记录文件系统的核心标识信息、挂载入口、超级块管理函数等，是文件系统被内核识别和挂载的基础。每个已注册到内核的文件系统（如ext4、XFS、NFS），都会对应一个struct file_system_type实例。

struct file_system_type {const char *name;  // 文件系统名称（如"ext4"、"xfs"、"nfs"），是文件系统的唯一标识，内核通过名称识别不同文件系统int fs_flags;      // 文件系统特性标志位，用于标识文件系统的核心属性和行为约束#define FS_REQUIRES_DEV		1  // 标志该文件系统需要关联物理设备（如ext4、XFS，需挂载在磁盘设备上）#define FS_BINARY_MOUNTDATA	2  // 标志挂载参数为二进制格式，而非文本格式（如部分网络文件系统）#define FS_HAS_SUBTYPE		4  // 标志文件系统支持子类型（如fuse文件系统可对应不同的用户态子类型）#define FS_USERNS_MOUNT		8	/* Can be mounted by userns root */// 允许用户命名空间的root用户挂载该文件系统，提升权限隔离性#define FS_DISALLOW_NOTIFY_PERM	16	/* Disable fanotify permission events */// 禁用fanotify权限通知事件，避免该文件系统触发相关权限监控回调#define FS_THP_SUPPORT		8192	/* Remove once all fs converted */// 标识支持透明巨页（THP），该宏为过渡性定义，待所有文件系统适配后移除#define FS_RENAME_DOES_D_MOVE	32768	/* FS will handle d_move() during rename() internally. */// 标志文件系统会在rename操作内部自行处理dentry的移动（d_move），无需VFS层额外处理int (*init_fs_context)(struct fs_context *);  // 文件系统上下文初始化函数，挂载时调用，用于初始化挂载相关的上下文信息（如挂载参数、安全属性）const struct fs_parameter_spec *parameters;  // 该文件系统支持的挂载参数规格列表，用于解析和校验用户传入的挂载参数（如ext4的data=ordered参数）struct dentry *(*mount) (struct file_system_type *, int,		       const char *, void *);  // 挂载函数，是文件系统挂载的核心入口；参数分别为文件系统类型、挂载标志、挂载点路径、挂载数据；返回挂载点对应的dentryvoid (*kill_sb) (struct super_block *);  // 超级块销毁函数，用于在文件系统卸载时，释放超级块占用的资源，清理相关状态struct module *owner;  // 模块所有者，指向实现该文件系统的内核模块；防止模块在文件系统使用中被动态卸载struct file_system_type * next;  // 链表节点，用于将所有已注册的file_system_type链接成全局链表（由内核维护，便于遍历查找）struct hlist_head fs_supers;  // 哈希表头，链接该文件系统类型对应的所有超级块实例（一个文件系统可被多次挂载，每个挂载实例对应一个超级块）// 以下为锁相关的类键，用于内核锁调试和死锁检测，为不同场景的锁分配唯一的锁类别标识struct lock_class_key s_lock_key;          // 超级块锁的类键struct lock_class_key s_umount_key;        // 卸载锁的类键struct lock_class_key s_vfs_rename_key;    // VFS层重命名操作锁的类键struct lock_class_key s_writers_key[SB_FREEZE_LEVELS];  // 文件系统冻结不同级别对应的写者锁类键struct lock_class_key i_lock_key;          // inode锁的类键struct lock_class_key i_mutex_key;         // inode互斥锁的类键struct lock_class_key i_mutex_dir_key;     // 目录inode互斥锁的类键};