Linux NTB 子系统框架:core、hardware driver、client
上一篇主要区分了 PCIe Switch、P2P 和 NTB。简单来说,PCIe Switch 负责透明转发,P2P 是 EP 到 EP 的直接访问,而 NTB 更偏向 Host-to-Host 或 Root Complex-to-Root Complex 的隔离通信。
这一篇开始进入 Linux 内核,看看 NTB 子系统本身是怎么组织的。
Linux NTB 子系统的一个优点是分层比较清晰。它不是让每个上层测试驱动都直接操作硬件寄存器,而是把具体硬件封装成统一的 struct ntb_dev,再让不同 client 使用同一套 NTB API。
hardware driver |NTB core |client driver
最下面是 hardware driver,也就是具体硬件驱动。比如 IDT、Intel、AMD、Switchtec,或者厂商自己提供的 NTB 驱动。它们负责识别 PCI 设备、映射 BAR、读写寄存器、配置 Memory Window、doorbell、message、中断等。
中间是 NTB core。它提供统一的 struct ntb_dev 和 struct ntb_dev_ops 抽象,把硬件差异藏在 ops 后面。
最上面是 client driver。client 不直接关心硬件寄存器,而是通过 NTB core API 使用 NTB 能力。典型 client 包括:
- •
ntb_pingpong:验证 link、doorbell、scratchpad/message - •
ntb_perf:测试 Memory Window 带宽 - •
ntb_tool:通过 debugfs 手工测试 - •
ntb_transport:在 MW 和 doorbell 上封装 queue pair - •
ntb_netdev:基于 ntb_transport 实现虚拟网卡
这三层的好处是:硬件驱动只负责把硬件能力翻译成 NTB core ops,client只负责实现自己的功能。
一个 NTB hardware driver 通常首先是一个 PCI driver。也就是说,它会注册类似这样的结构:
staticstructpci_driverxxx_pci_driver = { .name = "...", .id_table = ..., .probe = xxx_probe, .remove = xxx_remove,};当 Linux PCI core 枚举到匹配的 NTB PCI function 后,会调用这个硬件驱动的 probe。probe 里通常会做这些事:- 启用 PCI device- 申请和映射 BAR- 初始化硬件寄存器- 扫描本地 port 和 peer port- 初始化 link 事件- 初始化 Memory Window- 初始化 doorbell/message- 注册中断- 填充 structntb_dev- 调用 ntb_register_device()可以把路径理解成:
最关键的一步是:ntb_register_device(&ndev->ntb);在这之前,这个设备只是某个 PCI function,由具体硬件驱动管理。在这之后,它变成 NTB core 认识的 ntb_dev,上层 client 才有机会 probe 它。
NTB core 的核心职责不是操作某一种具体硬件,而是维护统一抽象。硬件驱动会提供一组 ops,例如:- port_number- peer_port_count- peer_port_number- link_is_up- link_enable- link_disable- mw_count- mw_get_align- mw_set_trans 或 peer_mw_set_trans- db_valid_mask- db_read- db_clear- peer_db_set- msg_count- msg_read- peer_msg_writeclient 调用的是统一 API:- ntb_link_is_up()- ntb_link_enable()- ntb_peer_mw_set_trans()- ntb_mw_set_trans()- ntb_peer_db_set()- ntb_msg_read()这些 API 最后会落到硬件驱动提供的 ops。例如 client 调用:ntb_peer_db_set(ntb, bits);实际调用链类似:ntb_peer_db_set() -> ntb->ops->peer_db_set() -> 硬件驱动写 doorbell 寄存器
所以 NTB core 更像一个适配层:对上提供统一接口,对下调用具体硬件 ops。
NTB client 也是一种驱动,不过它不是 PCI driver,而是注册到 NTB core 的 client。
staticstructntb_clientmy_client = { .ops = { .probe = my_probe, .remove = my_remove, },};module_init 里调用:ntb_register_client(&my_client);
当系统里有可用的 ntb_dev 时,NTB core 会调用:
my_probe(client, ntb);
- • 等待 link 事件或 doorbell 事件
这里要注意一点:同一个 ntb_dev 通常只能被一个 client 接管。因为 client 会调用:
ntb_set_ctx(ntb, ctx, ops);
一个 ntb_dev 只有一组 ctx 和 ctx_ops。如果 ntb_pingpong 已经接管了这个设备,ntb_transport 就不应该再同时接管同一个设备。
- 1. 先加载
ntb_pingpong 验证控制面 - 3. 再加载
ntb_transport 或其他 client
- •
ntb_pingpong 是直接挂到 NTB core 的 client。它直接使用 doorbell、scratchpad/message,不经过 transport。 - •
ntb_transport 也是直接挂到 NTB core 的 client。它接管 ntb_dev 后,在 MW 和 doorbell 之上封装 queue pair。 - •
ntb_netdev 则不是直接操作 ntb_dev。它是 ntb_transport 的上层用户,通过 ntb_transport_create_queue() 创建队列,最终注册成 Linux net_device。
NTB core├── ntb_pingpong (直接使用 doorbell/scratchpad)├── ntb_transport (封装 transport bus)│ └── ntb_netdev (基于 transport 的 net_device)└── ...
- •
ntb_netdev probe 调 ntb_transport_probe - •
ntb_transport_probe 再调硬件 probe
- 2. 硬件驱动调用
ntb_register_device() - 3. NTB core 调
ntb_transport_probe() - 4.
ntb_transport 创建 transport bus/device - 5. transport bus 再调
ntb_netdev_probe()
这不是普通函数直接调用链,而是 Linux driver model 里不同 bus/core 之间的匹配结果。
硬件驱动在中断里检测到事件后,不会直接调用某个具体 client,而是通知 NTB core:
ntb_link_event(ntb);ntb_db_event(ntb, vector);ntb_msg_event(ntb);
NTB core 再根据当前 ntb->ctx_ops 回调 client:
client->link_event(ctx);client->db_event(ctx, vector);client->msg_event(ctx);
例如 ntb_pingpong 收到 doorbell event 后,会进入 pp_db_event(),再调用 pp_pong()。
ntb_transport 收到 doorbell event 后,会进入 ntb_transport_doorbell_callback(),再根据 doorbell bit 找到对应 QP,调度 tasklet 处理 RX entry。
这就是 NTB 子系统里事件从硬件到 client 的基本路径。
后面看 IDT 驱动、ntb_pingpong、ntb_transport 时,如果没有先理解这三层关系,很容易混淆 probe 的含义。
- • 硬件驱动的 probe 是 PCI core 调用的,它负责发现和初始化 NTB 硬件。
- •
ntb_pingpong 的 probe 是 NTB core 调用的,它是一个测试 client。 - •
ntb_transport_probe 也是 NTB core 调用的,它把 ntb_dev 包装成 queue pair 传输层。 - •
ntb_netdev_probe 则是 ntb_transport_bus 调用的,它在 transport 之上创建虚拟网卡。
这些 probe 名字相似,但所在层级不同,调用者也不同。
理解了这个框架后,再往下看代码就会清楚很多:硬件驱动关注寄存器和资源,NTB core 关注抽象和分发,client 关注具体功能。下一篇会进入 IDT NTB 硬件驱动,看看一个真实 hardware driver 是如何从 PCI probe 一步步注册出 ntb_dev 的。