作为后端/内核开发者,理解Linux内核启动全过程,是吃透内存管理、多核调度、中断处理、虚拟化、系统稳定性的核心基础。本文基于ARM64架构,从零开始拆解内核从硬件上电、到BSP单核初始化、AP多核启动、再到用户态init进程拉起的完整生命周期,搭配标准流程图、核心源码逻辑、关键知识点串联。
前言
很多开发者对内核启动的认知停留在「开机→启动内核→进系统」的模糊层面,却不清楚:
- CPU上电第一条指令执行什么?
- MMU、页表、异常向量什么时候初始化?
- BSP和AP多核如何协同启动?
- 调度器、伙伴系统、中断系统什么时候就绪?
- 大内存机器的 deferred page init 为什么能加速启动?
本文全程贴合Linux 5.x+主流内核版本、ARM64真实硬件逻辑,不讲虚概念,只讲可落地、可验证的启动流程与原理。
一、内核启动总览(核心流程图)
先上完整版闭环流程图,覆盖从硬件复位到用户态的全链路,后续分阶段逐段拆解。

一句话总结全流程:
硬件上电进入高异常级初始化 → BSP单核完成页表、MMU、异常、内存、调度前置初始化 → 唤醒所有AP多核并行启动 → 延迟初始化剩余内存管理结构 → 挂载根文件系统 → 拉起用户态init进程,完成全系统启动。
二、第一阶段:硬件上电 → EL3/EL2 初始化(硬件→内核衔接层)
这一阶段完全由硬件+固件主导,内核还未正式运行,却是整个系统启动的根基。
1. CPU复位与初始异常级
- ARM64架构CPU上电复位后,默认进入EL3最高异常级,拥有最高硬件权限,负责安全世界、电源管控、多核启动调度。
- 固件采用TF-A/ATF(ARM Trusted Firmware),完成硬件初始化、PSCI电源管理服务初始化、异常级路由配置。
2. 异常级跳转逻辑
- 未开启虚拟化:EL3直接通过 eret 指令,跳转到EL1(内核态) 的物理入口地址,内核开始执行。
- 开启虚拟化(KVM场景):EL3先跳转到EL2(Hypervisor层),完成KVM模块、Stage2页表、虚拟GIC初始化,再由EL2切入EL1内核态。
本阶段核心知识点
1. EL3/EL2/EL1/EL0四级异常级严格隔离,权限逐级降低;
2. PSCI是ARM64多核启动、CPU上下电、休眠唤醒的唯一标准接口;
3. KVM虚拟化全程运行在EL2,管控Stage2地址翻译、虚拟中断、VM生命周期。
三、第二阶段:BSP单核初始化(内核真正启动的起点)
Linux内核启动有且只有一个BSP(Boot Strap Processor),即CPU0,是唯一完成上电引导、全系统前置初始化的核心,所有AP核都由BSP唤醒。
本阶段全程分为汇编初始化和C语言初始化两部分,是内核最核心、最不能出错的阶段。
1. 汇编初始化:__primary_switch(MMU开启前裸跑)
内核镜像被加载到内存后,第一条指令从 __primary_switch 开始执行,此时MMU完全关闭,只能访问物理地址。
核心做4件事:
1. 校验内核镜像、CPU架构兼容性,准备内存布局;
2. 创建临时内核页表,完成内核线性映射、虚拟地址空间布局;
3. 配置 TTBR0_EL1/TTBR1_EL1 页表基址寄存器,写入SCTLR_EL1寄存器开启MMU;
4. 执行 isb 指令同步流水线,确保地址翻译立即生效。
关键里程碑:MMU开启,内核从「物理地址裸跑」切换为「虚拟地址运行」,后续所有代码都基于虚拟地址执行。
2. 异常向量表初始化:VBAR_EL1配置
MMU开启后,内核立即配置VBAR_EL1(EL1异常向量基址寄存器):
- 异常向量表要求2048字节对齐,包含同步异常、IRQ、FIQ、SError四类入口;
- 所有缺页中断、系统调用、外设中断、IPI核间中断,都会通过VBAR_EL1跳转到对应处理函数;
- 每个CPU都需要独立配置VBAR_EL1,BSP配置完成后,AP核启动时会复用相同逻辑。
3. 切入C语言:start_kernel()
汇编初始化完成后,内核跳转到 start_kernel() ,正式进入C语言执行阶段,这是内核所有子系统初始化的总入口。
四、第三阶段:start_kernel 核心子系统初始化(单核全量前置)
start_kernel() 是内核最核心的总控函数,按严格依赖顺序初始化所有子系统,任何一步初始化失败都会直接导致内核panic。
核心初始化顺序(不可颠倒)
1. 架构相关初始化 setup_arch
识别物理内存布局、CPU拓扑、缓存配置,完善内核全局页表,预留memblock内存区域,标记可用于内核管理的物理内存。
2. 异常与中断初始化- trap_init :完善异常处理逻辑、ESR_EL1异常解析、上下文保存/恢复逻辑;
- init_IRQ :初始化GIC中断控制器,完成全局中断路由、PPI/SPI中断配置,此时中断控制器硬件就绪,但CPU本地中断仍处于屏蔽状态。
3. 内存管理初始化- 初始化memblock子系统,管理早期物理内存分配;
- 完成早期struct page初始化,只初始化启动必需的物理页描述符,剩余内存标记为 deferred 延迟初始化;
- 初始化伙伴系统前置逻辑,为后续内存分配做准备。
4. 调度系统初始化 sched_init
初始化CFS完全公平调度器,为每个CPU创建独立的idle线程、per-CPU运行队列 rq ,完成调度器基础框架搭建。
重点:此时调度器框架就绪,但还未开始调度,系统仍在单核串行执行。
5. 其他子系统初始化
依次初始化软中断、workqueue工作队列、时间子系统、锁机制、块设备/文件系统前置逻辑,所有子系统都依赖于内存、中断、调度的前置初始化。
本阶段核心规则
- 全程CPU本地中断屏蔽,不响应任何外设中断、IPI核间中断,避免初始化过程被打断;
- 严格遵循「先底层、后上层」「先基础资源、后业务子系统」的初始化顺序;
- 只完成BSP单核初始化,多核AP核尚未启动。
五、第四阶段:SMP多核启动(BSP唤醒所有AP核)
单核初始化完成后,内核进入 rest_init() 函数,创建核心内核线程,正式启动多核SMP系统,这也是你之前重点钻研的BSP与AP协同逻辑。
1. 多核启动总入口:smp_init
kernel_init 内核线程中,执行 smp_init() ,这是Linux多核启动的核心函数:
1. 校验CPU拓扑,确认在线CPU数量;
2. 遍历所有AP核(CPU1~CPUn),逐个执行 cpu_up() ;
3. 通过PSCI固件接口,下发 PSCI_CPU_ON 指令,唤醒休眠的AP核。
2. AP核独立初始化逻辑
AP核被硬件唤醒后,全程独立执行,不依赖BSP实时干预,核心流程:
1. 从物理地址入口 secondary_holding_pen 裸跑,MMU默认关闭;
2. 复用BSP创建的内核全局页表,配置本核 TTBR_EL1 ,开启MMU;
3. 独立配置本核 VBAR_EL1 异常向量表,初始化本地GIC接口;
4. 完成本核寄存器、缓存、时间子系统初始化;
5. 执行 local_irq_enable() ,开启本核本地中断,可响应外设中断、IPI核间中断;
6. 进入 cpu_startup_entry() ,默认运行本核idle线程,等待调度器分配任务。
3. 多核启动完成里程碑
- 所有CPU上线, cpu_online 掩码标记全部核心就绪;
- 每个核心拥有独立运行队列、独立调度器实例、独立中断上下文;
- BSP与AP核地位完全对等,无主从之分,调度器统一负载均衡。
本阶段核心知识点
1. 每个CPU的MMU、VBAR_EL1、中断屏蔽位都是私有硬件资源,AP核开关MMU、配置中断,完全不影响BSP;
2. 只有AP核开启本地中断后,才能响应调度IPI、TLB刷新IPI、时钟广播IPI;
3. 多核启动完成,才具备 deferred page init 并行加速的基础。
六、第五阶段:延迟初始化 + 系统收尾(进入用户态最后一步)
多核SMP就绪后,内核完成收尾工作,彻底完成内核态初始化,切入用户态。
1. deferred struct page 延迟初始化
针对大内存服务器(128GB~1TB以上),内核开启 CONFIG_DEFERRED_STRUCT_PAGE_INIT 优化:
- 启动早期只初始化必需的struct page,剩余物理页描述符标记延迟;
- 多核就绪后,创建per-NUMA节点内核线程,多核并行初始化剩余struct page;
- 初始化完成后,将所有物理页加入伙伴系统,内核可完整分配全量内存。
核心作用:大幅缩短大内存机器启动时间,将单核串行初始化转为多核并行执行。
2. 系统收尾关键步骤
1. 释放早期bootmem内存,完成memblock回收;
2. 初始化驱动子系统,加载外设驱动、挂载根文件系统;
3. 关闭内核调试、早期打印逻辑,完成全系统稳定性校验。
3. 切入用户态:拉起1号init进程
内核最后执行 run_init_process("/sbin/init") ,拉起系统第一个用户态进程(PID=1):
- 现代系统默认是 systemd ,负责启动系统服务、挂载分区、配置网络、启动用户界面;
- 进程从EL1内核态,通过 eret 指令切换到EL0用户态,内核完成全部使命,转为「服务支撑角色」。
七、全程核心知识点串联
1. MMU与页表:BSP率先开启MMU、配置全局页表,AP核复用页表独立开启MMU,虚拟地址是内核运行的基础;
2. VBAR_EL1与中断:每个CPU独立配置异常向量,中断本地使能后,IPI、外设中断才能正常响应;
3. BSP与AP:BSP负责全系统前置初始化与多核唤醒,AP核独立初始化,运行时地位完全对等;
4. 调度器:每个CPU拥有独立调度器与运行队列,无全局中心调度,靠IPI实现负载均衡与抢占;
5. struct page与内存:物理页唯一对应struct page,延迟初始化靠多核并行缩短启动时间,页表页本质是普通物理页;
6. IPI核间中断:多核调度、TLB刷新、缓存同步、CPU唤醒,全靠IPI实现多核协同。
八、启动流程高频面试题
1. Linux内核启动时,MMU什么时候开启?开启前后有什么区别?
2. BSP和AP核的核心区别是什么?AP核可以单独启动吗?
3. 为什么每个CPU都要独立配置VBAR_EL1?
4. deferred struct page init的原理是什么?为什么单核下无加速效果?
5. 调度器是运行在BSP,还是每个CPU独立运行?
6. AP核关闭/开启MMU,会对BSP产生影响吗?为什么?
结尾
Linux内核启动流程,是整个内核体系的「总纲」,所有内存管理、调度、中断、虚拟化、多核逻辑,都起源于启动阶段的初始化。吃透本文全流程,更能从根源上理解系统卡顿、内存异常、多核冲突、启动失败等问题的本质。
本文基于ARM64架构真实逻辑、Linux主流内核版本编写,无冗余概念、无过时内容,适合内核初学者、后端开发者、运维工程师、面试备考者学习收藏。