当前位置：首页>Linux>深入理解 Linux mmap 内存映射:高效的文件操作方式

深入理解 Linux mmap 内存映射:高效的文件操作方式

2026-06-29 12:27:13

大家好！我是大虫子🐛！

搞 Linux C 开发的小伙伴是否遇到过这样的问题：需要处理一个几十兆甚至几百兆的大文件，用传统的 read/write 方法，每次读取都要频繁调用系统接口，程序慢得像蜗牛？

这个问题可以解决！

在 Linux 下，有一个叫 mmap 的系统调用，可以帮咱们直接把文件映射到内存里，让咱们像操作普通数组一样访问文件数据，不仅代码简洁，而且性能大幅提升。本文小编将介绍下 mmap 的原理、用法等，让大文件处理不再成为"性能瓶颈"。

1、什么是 mmap？

mmap（内存映射）是一种将文件、设备或匿名内存直接映射到进程虚拟地址空间的技术。

虽然最初设计用于文件映射，mmap 实际上是一种通用的映射工具，可以将各种对象（如文件、内存、设备等）映射到进程地址空间。

以文件映射为例，映射后进程的内存地址与文件的磁盘地址直接对应。进程可以像操作内存一样读写文件内容，系统会自动将修改后的数据（脏页）同步回磁盘文件。

上图表示进程的虚拟地址空间布局，分为多个区域，每个区域存放不同类型的数据。内存映射区域处于堆与栈之间。

2、vm_area_struct 结构体

Linux 内核使用 vm_area_struct 结构体来表示进程虚拟内存区域。它用于管理进程的虚拟地址空间，将内存映射与进程的虚拟内存区域关联起来。

在 Linux 内核源码中，vm_area_struct 定义如下：

struct vm_area_struct {unsignedlong vm_start;       // 映射区域的起始虚拟地址unsignedlong vm_end;         // 映射区域的结束虚拟地址structmm_struct *vm_mm;// 指向所属进程的内存管理结构体structvm_area_struct *vm_next;// 链接到下一个虚拟内存区域pgprot_t vm_page_prot;        // 内存页面的保护标志（如读、写、执行）unsignedlong vm_flags;       // 映射区域的标志位（例如共享、私有、只读等）structfile *vm_file;// 映射文件的指针unsignedlong vm_pgoff;       // 文件映射的偏移量void *vm_private_data;        // 私有数据，通常用于映射驱动的专用信息structanon_vma *anon_vma;// 如果是匿名内存映射，指向匿名虚拟内存区域unsignedlong vm_page_prot_flags; // 页面保护标志的额外信息};

关键字段说明：

vm_start 和 vm_end:这两个字段表示一个内存区域的起始和结束虚拟地址。vm_start 是区域的起始地址，vm_end 是结束地址（不包括该地址）。

vm_mm:指向进程的内存管理结构体 mm_struct，该结构体描述了进程的整个虚拟内存布局。

vm_next:链接到下一个虚拟内存区域的指针。vm_area_struct 通常会被链式排列在 mm_struct 的 mmap 链表中。

vm_page_prot:这是页面保护标志，指示该内存区域的访问权限。例如，是否允许读取、写入或执行。

vm_flags:这是一个标志位，用于描述该内存区域的特性。常见标志位：VM_READ: 可读；VM_WRITE: 可写；VM_EXEC: 可执行；VM_SHARED: 共享映射；VM_PRIVATE: 私有映射
vm_file:如果该内存区域是映射一个文件（例如使用 mmap 映射的文件），该字段指向映射的文件对象。

vm_pgoff:映射文件的偏移量。对于文件映射，内存区域的起始位置可能并不是文件的起始位置，而是从文件的某个偏移开始。

vm_private_data:私有数据指针，通常用于存储与该内存区域相关的特定数据。例如，设备驱动程序可能会在此存储映射的设备特定信息。

anon_vma:如果该区域是匿名映射（比如使用 mmap 映射匿名内存），该字段指向匿名虚拟内存区域。匿名内存区域并不对应任何文件。

vm_area_struct 在内存管理中的作用：

内存区域的管理: 每个进程的虚拟地址空间被划分成多个虚拟内存区域，每个区域由一个 vm_area_struct 描述。这个结构帮助内核了解哪些区域是可读的、可写的、可执行的等。
内存映射的实现: 当一个进程使用 mmap 映射文件或设备时，内核会为这个映射创建一个 vm_area_struct，并将其添加到进程的内存管理链表中。
保护和权限控制: 通过 vm_area_struct 中的保护标志（vm_page_prot 和 vm_flags），内核能够控制每个虚拟内存区域的访问权限，如读、写、执行等。
映射关系的追踪: 内核可以通过 vm_area_struct 追踪哪些内存区域是文件映射，哪些是匿名映射，甚至是设备映射。

3、mmap 实现原理

（1）系统调用：用户空间的程序通过调用 mmap 来请求将文件或设备映射到进程的虚拟内存空间中。调用时，用户可以指定映射的起始地址、映射的大小、访问权限（读、写、执行）等参数。

（2）文件或设备的映射：内核会根据 mmap 的参数创建一个虚拟内存区域，并将目标文件或设备的内容映射到这个区域。文件的每一部分会对应进程虚拟地址空间中的一段内存。

对于文件映射，内核会建立文件和虚拟内存之间的映射关系，使得进程可以像操作内存一样直接访问文件内容。
对于设备映射，内核会将设备的内存映射到进程地址空间中，允许进程通过内存访问设备。

（3）页表映射与懒加载：当文件映射到内存时，内核并不会一次性将整个文件加载到内存，而是采用懒加载（lazy loading）策略。只在进程访问某个虚拟地址时，内核才会把该页加载到物理内存中。这个过程是通过修改进程的页表实现的。

页表是操作系统用来管理虚拟内存到物理内存映射的数据结构。
访问一个未映射的页时，触发页面缺失（page fault）异常，内核会加载相应的文件页到物理内存。

（4）脏页回写：如果映射的是一个可写的文件，当进程修改映射内存时，内核会标记这些页面为“脏页”。在适当的时候，内核会将这些修改后的脏页回写到原始文件中，保持文件与内存的一致性。

（5）内存保护和权限：mmap 提供了对映射内存的权限控制，内核通过修改页面保护标志（如读、写、执行）来控制进程访问这些内存区域的权限。如果进程尝试进行不允许的操作（例如写一个只读区域），内核会触发权限错误。

4、mmap vs 常规文件操作

区别：

	mmap	read/write
访问方式	内存指针直接访问	系统调用读写
数据路径	磁盘→页缓存→用户（0拷贝）	磁盘→内核缓存→用户（2次拷贝）
调用开销	只需一次mmap调用	每次读写都要系统调用
同步方式	msync()主动刷回	write即刷回

read/write：把文件内容读/写到用户缓冲区
mmap：把文件直接映射成进程的虚拟内存，访问时触发缺页中断再加载

5、函数介绍

创建mmap映射：

#include<sys/mman.h>void *mmap(void *addr, size_t length, int prot, int flags, int fd, off_t offset);

参数说明:

addr: 建议的映射起始地址，通常可以设置为 NULL。
length: 映射区域的长度。
prot: 映射区域的保护标志，可以是以下值的组合：

PROT_READ: 可读PROT_WRITE: 可写PROT_EXEC: 可执行PROT_NONE: 不可访问

flags: 映射选项，可以是以下值的组合：

MAP_SHARED: 共享映射，映射区域的更改会影响到原文件。MAP_PRIVATE: 私有映射，映射区域的更改不会影响原文件。

fd: 文件描述符，指向要映射的文件。
offset: 从文件中的哪个位置开始映射，必须是页大小的倍数。

成功执行时，mmap() 返回被映射区的指针。失败时，mmap() 返回 MAP_FAILED，其值为 (void *)-1，errno 被设为以下的某个值：

EACCES	访问出错EAGAIN	文件已被锁定，或者太多的内存已被锁定EBADF	不是有效的文件描述词EINVAL	一个或者多个参数无效ENFILE	已达到系统对打开文件的限制ENODEV	指定文件所在的文件系统不支持内存映射ENOMEM	内存不足，或者进程已超出最大内存映射数量EPERM	权能不足，操作不允许ETXTBSY	已写的方式打开文件，同时指定MAP_DENYWRITE标志SIGSEGV	试着向只读区写入SIGBUS	试着访问不属于进程的内存区

解除映射:

#include<sys/mman.h>intmunmap(void *addr, size_t length);

成功返回 0，失败返回 -1，errno 返回标志和 mmap 一致。当映射关系解除后，对原来映射地址的访问将导致段错误发生。

举个示例：

#include<stdio.h>#include<stdlib.h>#include<fcntl.h>#include<sys/mman.h>#include<unistd.h>intmain(){    int fd = open("test.txt", O_RDONLY);    if (fd == -1) {        perror("Open failed");        return EXIT_FAILURE;    }    // 获取文件大小    off_t file_size = lseek(fd, 0, SEEK_END);    // 映射文件到内存    char *mapped = mmap(NULL, file_size, PROT_READ, MAP_PRIVATE, fd, 0);    if (mapped == MAP_FAILED) {        perror("mmap failed");        close(fd);        return EXIT_FAILURE;    }    // 使用映射的内存    printf("File content:\n%s\n", mapped);    // 解除映射    if (munmap(mapped, file_size) == -1) {        perror("munmap failed");    }    close(fd);    return EXIT_SUCCESS;}

6、mmap 使用场景

大文件高效读写：避免 read/write 频繁拷贝，适合随机访问
进程间通信（共享内存）:匿名映射创建共享内存，多进程直接读写同一块内存
动态内存分配:匿名映射用于高性能内存分配（如 glibc 的 malloc 底层）
设备内存映射:访问硬件设备的寄存器（如 GPU、帧缓冲）
程序加载:动态链接库、可执行文件的加载本身就用 mmap
数据库/日志系统:数据库文件、日志文件常用 mmap 提升性能

总结下：mmap 通过将文件、设备或匿名内存映射到进程的虚拟内存空间，避免了传统的 I/O 操作，提高了文件读写的效率。内核使用页表和懒加载技术来动态管理内存，减少内存占用，并通过内存保护机制确保进程的访问权限控制。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

深入理解 Linux mmap 内存映射:高效的文件操作方式

最新文章

热门文章

随机文章

深入理解 Linux mmap 内存映射:高效的文件操作方式

Linux命令终于被整理明白了

[TinyLinux-011] 项目总结:从零构建最小 Linux 的完整旅程

最新文章

热门文章

随机文章