当前位置：首页>Linux>Linux 块设备多队列调度机制:blk-mq 架构解析

Linux 块设备多队列调度机制:blk-mq 架构解析

2026-07-02 09:34:33

第一章 Linux Block Layer 演进背景

1.1 单队列 Block Layer 的性能瓶颈

早期 Linux Block Layer 使用单请求队列（Single Queue）模型。所有 IO 请求都会进入 request_queue，然后由 block layer 排序、合并、调度，最后交给底层存储驱动。对于传统机械硬盘时代，这种模型已经足够，因为 HDD 本身随机访问延迟极高，IOPS 通常只有几百。

Application    ↓VFS    ↓Filesystem    ↓Block Layer    ↓Single Request Queue    ↓SATA/SCSI Driver    ↓Disk

但 SSD 与 NVMe 出现后，存储性能发生巨大变化。现代 NVMe SSD 单盘即可达到数十万甚至百万 IOPS，而 Linux 单队列模型开始暴露严重问题：

全局 request_queue 锁竞争CPU cacheline bouncing软中断集中NUMA 跨核访问单队列调度瓶颈

尤其在多核服务器中，大量 CPU 同时提交 IO，会竞争同一个 request_queue spinlock，导致 CPU 大量时间浪费在锁等待上，而不是实际 IO，这也是 Linux Block Layer 必须重构的根本原因。

1.2 blk-mq 的设计目标

Linux 在 3.13 内核正式引入 blk-mq（Block Multi Queue）架构。其核心目标是：

消除全局锁提升多核扩展性降低 cache contention支持 NVMe 并行队列减少 IO completion 延迟提升 NUMA locality

blk-mq 本质上是将：单 request_queue拆分为：

per-CPU software queue + hardware dispatch queue

典型的结构：

CPU0 → SW Queue0 →                     HW Queue0CPU1 → SW Queue1 →                     HW Queue1CPU2 → SW Queue2 →                     HW Queue2

这样不同 CPU 提交 IO 时不再竞争同一把锁，而是使用本地 software queue，大幅提高并发能力，现代 Linux NVMe、SCSI、virtio-blk、MMC、loop 等驱动，基本都已经全面切换至 blk-mq。

第二章 blk-mq 整体架构

2.1 blk-mq 分层模型

blk-mq 整体架构可以分为：

Bio Layer    ↓Request Layer    ↓blk-mq Software Queue    ↓blk-mq Hardware Queue    ↓Driver Dispatch    ↓Storage Device

Linux block layer 中最核心的数据结构包括：

biorequestblk_mq_ctxblk_mq_hw_ctxrequest_queue其中：bio         → 文件系统提交的块 IOrequest     → block layer 调度后的请求blk_mq_ctx  → software queue contextblk_mq_hw_ctx → hardware queue context传统 block layer 最大问题是：多个 CPU    ↓竞争同一个 request_queue而 blk-mq 中：每 CPU 拥有独立 ctx从而避免全局锁竞争。

2.2 Software Queue 与 Hardware Queue

blk-mq 中最重要的设计，是 software queue 与 hardware queue 分离，Software Queue：

per-CPU负责本地提交减少锁竞争

Hardware Queue：

对应真实硬件 dispatch queue面向 driver负责真正下发 IO

例如 NVMe SSD 通常支持：64/128/256 submission queue

Linux blk-mq 会将 hardware queue 映射到 NVMe queue pair，整体路径：

CPU Core   ↓blk_mq_ctx   ↓blk_mq_hw_ctx   ↓Driver Queue   ↓NVMe SQ

这种设计极大提高了 SMP scalability。

第三章 blk-mq 核心数据结构

3.1 request_queue 结构解析

Linux block layer 核心结构仍然是 request_queue，典型定义：

struct request_queue {    struct blk_mq_tag_set *tag_set;    struct blk_mq_hw_ctx **queue_hw_ctx;    unsigned int nr_hw_queues;    struct elevator_queue *elevator;};其中：tag_set         → blk-mq tag 管理queue_hw_ctx    → hardware queue 数组nr_hw_queues    → hardware queue 数量elevator        → IO scheduler

blk-mq 本质上仍然围绕 request_queue 运作，只是内部实现已经完全多队列化。

3.2 blk_mq_ctx 与 blk_mq_hw_ctx

blk_mq_ctx 表示 software queue：

struct blk_mq_ctx {    struct lock_list wait;    struct request_list rq_lists;    unsigned int cpu;};

每个 CPU 通常对应一个 ctx，blk_mq_hw_ctx 表示 hardware queue：

struct blk_mq_hw_ctx {    struct request_queue *queue;    struct blk_mq_ctx **ctxs;    unsigned int nr_ctx;    spinlock_t lock;};它负责：dispatch requesttag allocationdriver interactioncompletion

Linux 会根据：CPU topology NUMA 设备 queue 数量自动建立 ctx 与 hctx 映射关系。

第四章 blk-mq IO 提交流程

4.1 bio 到 request 转换

Linux 文件系统提交 IO 时，首先产生 bio：submit_bio(bio);，随后 block layer 会将 bio 转换为 request：

bio ↓blk_mq_submit_bio() ↓blk_mq_get_request() ↓request allocation

request 本质上是：多个 bio 的聚合，Linux 仍然会尝试：merge plug reorder 以提高 IO 效率。

4.2 request dispatch 流程

request 创建后，会进入 software queue：blk_mq_ctx随后 dispatch到：blk_mq_hw_ctx最终调用 driver：queue_rq(hctx, &bd);driver实现：

staticblk_status_tnvme_queue_rq(        struct blk_mq_hw_ctx *hctx,        const struct blk_mq_queue_data *bd){    ...}

这里真正完成：

DMA setupdescriptor filldoorbell notify

最终 IO 被送入硬件。

第五章 Tag 机制解析

5.1 blk-mq Tag 的作用

blk-mq 中最关键的机制之一是 tag，传统 block layer 使用 request pointer 跟踪 IO，而 blk-mq 使用：整数 tag 标识 request，比如：

Request #15Request #16Request #17

每个 tag 对应：硬件队列中的唯一 slot，这与 NVMe command ID 十分类似，Linux 使用：struct blk_mq_tags管理 tag bitmap。

5.2 Tag Allocation 流程

request 分配时：blk_mq_get_tag()会从 bitmap 中寻找空闲 tag。典型流程：

CPU Submit IO   ↓Allocate Tag   ↓Bind Request   ↓Driver Queue   ↓Completion   ↓Free Tag

tag 的意义非常重要：

避免 request 动态查找提高 completion 效率减少锁竞争支持高并发

现代 NVMe 高性能，很大程度上依赖 tag-based queue model。

第六章 blk-mq 与 NVMe

6.1 NVMe Queue Pair 架构

NVMe 天然适合 blk-mq，NVMe 本身采用：

Submission QueueCompletion Queue模型：CPU0 → SQ0/CQ0CPU1 → SQ1/CQ1CPU2 → SQ2/CQ2blk-mq 与 NVMe 的对应关系：blk_mq_hw_ctx    ↔NVMe Queue Pair

所以Linux blk-mq 与 NVMe 几乎是完美匹配。

6.2 NVMe IO 路径

典型 NVMe blk-mq 路径：

submit_bio   ↓blk_mq_submit_bio   ↓blk_mq_get_request   ↓nvme_queue_rq   ↓Fill NVMe Command   ↓Write SQ Tail Doorbell   ↓Controller Fetch Command

完成的路径：

NVMe Completion   ↓MSI-X Interrupt   ↓nvme_irq   ↓blk_mq_complete_request   ↓bio_endio

整个路径几乎完全 lockless。

第七章 IO Scheduler 与 blk-mq

7.1 blk-mq 调度器架构

传统 block layer 调度器包括：CFQ Deadline NOOP

blk-mq 出现后，Linux 重写了 scheduler framework，当前主要包括：mq-deadline，kyber，bfq，none这里：none通常用于 NVMe。

7.2 mq-deadline 工作机制

mq-deadline 本质上是：deadline scheduler 的 blk-mq 版本，核心目标是降低 starvation 控制 latency 维持公平性，它会维护：

read queuewrite queuedeadline timer

当 IO 超时强制 dispatch，避免写请求长期饿死读请求。

但对于高性能 NVMe很多场景直接使用 none，因为 SSD 本身已经拥有复杂内部调度。

第八章 blk-mq Completion 机制

8.1 IO Completion 路径

blk-mq completion 核心路径：

Device Complete   ↓MSI-X IRQ   ↓Driver ISR   ↓blk_mq_complete_request()   ↓Complete request   ↓Wakeup bio

completion 通常运行在本地 CPU从而提高 cache locality。

8.2 SoftIRQ Completion 模型

Linux completion 可能运行在：

hardirqsoftirqtask contextblk-mq 支持：direct completionsoftirq completionpoll completion例如：IOPOLL模式下：CPU busy poll CQ避免中断开销。

这样对于 ultra-low-latency NVMe 非常重要。

建了一个嵌入式Linux技术群，专门聊难题分析和求职面试，欢迎大家一起加入，共同解决工作中的疑难杂症问题

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Linux 块设备多队列调度机制:blk-mq 架构解析

第一章 Linux Block Layer 演进背景

1.1 单队列 Block Layer 的性能瓶颈

1.2 blk-mq 的设计目标

2.1 blk-mq 分层模型

2.2 Software Queue 与 Hardware Queue

3.1 request_queue 结构解析

3.2 blk_mq_ctx 与 blk_mq_hw_ctx

4.1 bio 到 request 转换

4.2 request dispatch 流程

5.1 blk-mq Tag 的作用

5.2 Tag Allocation 流程

6.1 NVMe Queue Pair 架构

6.2 NVMe IO 路径

7.1 blk-mq 调度器架构

7.2 mq-deadline 工作机制

8.1 IO Completion 路径

8.2 SoftIRQ Completion 模型

最新文章

热门文章

随机文章

Linux 块设备多队列调度机制:blk-mq 架构解析

第一章 Linux Block Layer 演进背景

1.1 单队列 Block Layer 的性能瓶颈

1.2 blk-mq 的设计目标

2.1 blk-mq 分层模型

2.2 Software Queue 与 Hardware Queue

3.1 request_queue 结构解析

3.2 blk_mq_ctx 与 blk_mq_hw_ctx

4.1 bio 到 request 转换

4.2 request dispatch 流程

5.1 blk-mq Tag 的作用

5.2 Tag Allocation 流程

6.1 NVMe Queue Pair 架构

6.2 NVMe IO 路径

7.1 blk-mq 调度器架构

7.2 mq-deadline 工作机制

8.1 IO Completion 路径

8.2 SoftIRQ Completion 模型

启航指南——Linux操作系统中如何查看已经登录的用户

学Python4️⃣8️⃣ tuple (圆括号 ( ) )

最新文章

热门文章

随机文章