搞 Linux C 开发的小伙伴是否遇到过这样的问题:需要处理一个几十兆甚至几百兆的大文件,用传统的 read/write 方法,每次读取都要频繁调用系统接口,程序慢得像蜗牛?在 Linux 下,有一个叫 mmap 的系统调用,可以帮咱们直接把文件映射到内存里,让咱们像操作普通数组一样访问文件数据,不仅代码简洁,而且性能大幅提升。本文小编将介绍下 mmap 的原理、用法等,让大文件处理不再成为"性能瓶颈"。mmap(内存映射)是一种将文件、设备或匿名内存直接映射到进程虚拟地址空间的技术。虽然最初设计用于文件映射,mmap 实际上是一种通用的映射工具,可以将各种对象(如文件、内存、设备等)映射到进程地址空间。以文件映射为例,映射后进程的内存地址与文件的磁盘地址直接对应。进程可以像操作内存一样读写文件内容,系统会自动将修改后的数据(脏页)同步回磁盘文件。上图表示进程的虚拟地址空间布局,分为多个区域,每个区域存放不同类型的数据。内存映射区域处于堆与栈之间。Linux 内核使用 vm_area_struct 结构体来表示进程虚拟内存区域。它用于管理进程的虚拟地址空间,将内存映射与进程的虚拟内存区域关联起来。在 Linux 内核源码中,vm_area_struct 定义如下:struct vm_area_struct {unsignedlong vm_start; // 映射区域的起始虚拟地址unsignedlong vm_end; // 映射区域的结束虚拟地址structmm_struct *vm_mm;// 指向所属进程的内存管理结构体structvm_area_struct *vm_next;// 链接到下一个虚拟内存区域pgprot_t vm_page_prot; // 内存页面的保护标志(如读、写、执行)unsignedlong vm_flags; // 映射区域的标志位(例如共享、私有、只读等)structfile *vm_file;// 映射文件的指针unsignedlong vm_pgoff; // 文件映射的偏移量void *vm_private_data; // 私有数据,通常用于映射驱动的专用信息structanon_vma *anon_vma;// 如果是匿名内存映射,指向匿名虚拟内存区域unsignedlong vm_page_prot_flags; // 页面保护标志的额外信息};
- vm_start 和 vm_end:这两个字段表示一个内存区域的起始和结束虚拟地址。vm_start 是区域的起始地址,vm_end 是结束地址(不包括该地址)。
- vm_mm:指向进程的内存管理结构体 mm_struct,该结构体描述了进程的整个虚拟内存布局。
- vm_next:链接到下一个虚拟内存区域的指针。vm_area_struct 通常会被链式排列在 mm_struct 的 mmap 链表中。
- vm_page_prot:这是页面保护标志,指示该内存区域的访问权限。例如,是否允许读取、写入或执行。
- vm_flags:这是一个标志位,用于描述该内存区域的特性。常见标志位:VM_READ: 可读;VM_WRITE: 可写;VM_EXEC: 可执行;VM_SHARED: 共享映射;VM_PRIVATE: 私有映射
- vm_file:如果该内存区域是映射一个文件(例如使用 mmap 映射的文件),该字段指向映射的文件对象。
- vm_pgoff:映射文件的偏移量。对于文件映射,内存区域的起始位置可能并不是文件的起始位置,而是从文件的某个偏移开始。
- vm_private_data:私有数据指针,通常用于存储与该内存区域相关的特定数据。例如,设备驱动程序可能会在此存储映射的设备特定信息。
- anon_vma:如果该区域是匿名映射(比如使用 mmap 映射匿名内存),该字段指向匿名虚拟内存区域。匿名内存区域并不对应任何文件。
vm_area_struct 在内存管理中的作用:- 内存区域的管理: 每个进程的虚拟地址空间被划分成多个虚拟内存区域,每个区域由一个 vm_area_struct 描述。这个结构帮助内核了解哪些区域是可读的、可写的、可执行的等。
- 内存映射的实现: 当一个进程使用 mmap 映射文件或设备时,内核会为这个映射创建一个 vm_area_struct,并将其添加到进程的内存管理链表中。
- 保护和权限控制: 通过 vm_area_struct 中的保护标志(vm_page_prot 和 vm_flags),内核能够控制每个虚拟内存区域的访问权限,如读、写、执行等。
- 映射关系的追踪: 内核可以通过 vm_area_struct 追踪哪些内存区域是文件映射,哪些是匿名映射,甚至是设备映射。
(1)系统调用:用户空间的程序通过调用 mmap 来请求将文件或设备映射到进程的虚拟内存空间中。调用时,用户可以指定映射的起始地址、映射的大小、访问权限(读、写、执行)等参数。(2)文件或设备的映射:内核会根据 mmap 的参数创建一个虚拟内存区域,并将目标文件或设备的内容映射到这个区域。文件的每一部分会对应进程虚拟地址空间中的一段内存。- 对于文件映射,内核会建立文件和虚拟内存之间的映射关系,使得进程可以像操作内存一样直接访问文件内容。
- 对于设备映射,内核会将设备的内存映射到进程地址空间中,允许进程通过内存访问设备。
(3)页表映射与懒加载:当文件映射到内存时,内核并不会一次性将整个文件加载到内存,而是采用 懒加载(lazy loading)策略。只在进程访问某个虚拟地址时,内核才会把该页加载到物理内存中。这个过程是通过修改进程的 页表 实现的。- 页表是操作系统用来管理虚拟内存到物理内存映射的数据结构。
- 访问一个未映射的页时,触发页面缺失(page fault)异常,内核会加载相应的文件页到物理内存。
(4)脏页回写:如果映射的是一个可写的文件,当进程修改映射内存时,内核会标记这些页面为“脏页”。在适当的时候,内核会将这些修改后的脏页回写到原始文件中,保持文件与内存的一致性。(5)内存保护和权限:mmap 提供了对映射内存的权限控制,内核通过修改页面保护标志(如读、写、执行)来控制进程访问这些内存区域的权限。如果进程尝试进行不允许的操作(例如写一个只读区域),内核会触发权限错误。- read/write:把文件内容读/写到用户缓冲区
- mmap:把文件直接映射成进程的虚拟内存,访问时触发缺页中断再加载
#include<sys/mman.h>void *mmap(void *addr, size_t length, int prot, int flags, int fd, off_t offset);
- addr: 建议的映射起始地址,通常可以设置为 NULL。
- prot: 映射区域的保护标志,可以是以下值的组合:
PROT_READ: 可读PROT_WRITE: 可写PROT_EXEC: 可执行PROT_NONE: 不可访问
MAP_SHARED: 共享映射,映射区域的更改会影响到原文件。MAP_PRIVATE: 私有映射,映射区域的更改不会影响原文件。
- offset: 从文件中的哪个位置开始映射,必须是页大小的倍数。
成功执行时,mmap() 返回被映射区的指针。失败时,mmap() 返回 MAP_FAILED,其值为 (void *)-1,errno 被设为以下的某个值:EACCES 访问出错EAGAIN 文件已被锁定,或者太多的内存已被锁定EBADF 不是有效的文件描述词EINVAL 一个或者多个参数无效ENFILE 已达到系统对打开文件的限制ENODEV 指定文件所在的文件系统不支持内存映射ENOMEM 内存不足,或者进程已超出最大内存映射数量EPERM 权能不足,操作不允许ETXTBSY 已写的方式打开文件,同时指定MAP_DENYWRITE标志SIGSEGV 试着向只读区写入SIGBUS 试着访问不属于进程的内存区
#include<sys/mman.h>intmunmap(void *addr, size_t length);
成功返回 0,失败返回 -1,errno 返回标志和 mmap 一致。当映射关系解除后,对原来映射地址的访问将导致段错误发生。#include<stdio.h>#include<stdlib.h>#include<fcntl.h>#include<sys/mman.h>#include<unistd.h>intmain(){ int fd = open("test.txt", O_RDONLY); if (fd == -1) { perror("Open failed"); return EXIT_FAILURE; } // 获取文件大小 off_t file_size = lseek(fd, 0, SEEK_END); // 映射文件到内存 char *mapped = mmap(NULL, file_size, PROT_READ, MAP_PRIVATE, fd, 0); if (mapped == MAP_FAILED) { perror("mmap failed"); close(fd); return EXIT_FAILURE; } // 使用映射的内存 printf("File content:\n%s\n", mapped); // 解除映射 if (munmap(mapped, file_size) == -1) { perror("munmap failed"); } close(fd); return EXIT_SUCCESS;}
- 大文件高效读写:避免 read/write 频繁拷贝,适合随机访问
- 进程间通信(共享内存):匿名映射创建共享内存,多进程直接读写同一块内存
- 动态内存分配:匿名映射用于高性能内存分配(如 glibc 的 malloc 底层)
- 设备内存映射:访问硬件设备的寄存器(如 GPU、帧缓冲)
- 程序加载:动态链接库、可执行文件的加载本身就用 mmap
- 数据库/日志系统:数据库文件、日志文件常用 mmap 提升性能
总结下:mmap 通过将文件、设备或匿名内存映射到进程的虚拟内存空间,避免了传统的 I/O 操作,提高了文件读写的效率。内核使用页表和懒加载技术来动态管理内存,减少内存占用,并通过内存保护机制确保进程的访问权限控制。