当前位置：首页>Linux>QRISC-V996—从 RTL 核到 Linux #3 (Claude Code版)

QRISC-V996—从 RTL 核到 Linux #3 (Claude Code版)

2026-07-01 16:19:08

本文主要介绍如何利用 Claude Code（CC）在前一版 RISC-V SoC 的基础上，集成一个完整的 AI 加速器，并在 Linux 下以设备驱动的形式运行。本次将加速器作为外设挂进总线，配套实现了内核态驱动（kernel module）、用户态 runtime 以及算子测试。Notably，加速器的 RTL 是合作者此前开发的工程，而总线接口的对接、Linux 设备驱动乃至上层调用流程均由 CC 实现。目前，整个设计最后还差 eMMC 和 DDR PHY 的 IP，才能拿去做有点用的芯片，但这两块就比较难搞了（为什么一个DDR PHY IP能卖这么贵）。

本版工程因涉及到一些当前灌水用的idea，等文章灌出来之后再放到Github上（我的文章可能一把就中，但我的文章一把就中有点不太可能——诺言诺语）。

展示如下：内容包括驱动加载、加速器寄存器配置，以及在 Linux 用户态下跑通各种算子

与 CC 的沟通中需要提供完整的加速器 RTL 代码和 Testbench，并经过大量来回沟通，确保每一步都可行。难度明显比前面章节的Linux 编译和常规 IP 集成复杂得多，CC 中途也错了非常多次，老是说我的加速器代码有问题，一直走歪路。磨了2天才把整个工程磨出来。大概率是因为它的大模型在训练时并没有太多 AI 加速器设计相关的语料和数据集。所以在下发命令时需要十分精确，已经无法像上一章那样随手就做个 AXI 总线、JTAG 或 QSPI 的 IP。毕竟这些都是烂大街的 IP，网上相关资料一大堆。

本文以下内容均由Claude Code生成。不用看了，凑字数的。

QRISC-V996 架构文档

一颗能跑 Linux、可 JTAG 调试、从 QSPI flash 启动、内建 AI 加速器的 biRISC-V SoC

0. 总览

QRISC-V996 是基于开源 biRISC-V 双发射 RV32IMA 核构建的片上系统(SoC),目标是在周期级 RTL 仿真(Verilator)上完整运行 Linux,同时具备真实芯片应有的多条工程化通路:OpenOCD 兼容的 JTAG 调试、QSPI flash 烧录 / 启动,以及一颗挂在总线上的 Yokatta AI 加速器。

系统由五大块组成:① 双发射核(含 I/D-cache + MMU);② SoC 互连(仲裁 + 地址译码 + XIP 路由);③ 片上外设(中断 / 定时 / UART / SPI / GPIO);④ QSPI flash 子系统(两种启动 + 命令控制器);⑤ Yokatta AI 加速器(10 个算子 + DMA 主口)。再旁挂一套 JTAG 调试子系统。

图 0-1 总体架构总览

1. 处理器核(biRISC-V)

核是一个顺序双发射的 RV32IMA 流水线,每拍最多发射两条指令:

·前端:fetch(双取指槽)→ decode → issue(发射选择 + 记分牌)

·执行:两条 ALU / 分支流水(exec0 / exec1)+ 乘除 + LSU(访存)+ CSR

·存储:I-cache + D-cache,经 MMU(Sv32)接 2 路 AXI4 主口(I 口取指 / D 口访存)

核对外只暴露 2 路 AXI4 主口和调试接口;其余全部经 SoC 互连访问。关键约定:cache 是否生效由物理地址范围决定(参数 MEM_CACHE_ADDR_MIN / MAX),不看页表属性 —— 这条约定在第 6 节加速器一致性里至关重要。

2. SoC 互连与地址映射

互连做三件事:把核的 I/D 两口仲裁进统一总线、按地址译码分发到各从设备、把落在 XIP 区的读请求路由到 QSPI flash。加速器的 128 位 DMA 主口经位宽转换也接进同一仲裁器,与 CPU 共享主 DRAM。地址映射如下:

区域	基址	说明
DRAM	0x80000000	主内存;dts 内核 RAM 64MB,仿真 tb DRAM 72MB
irq_ctrl	0x90000000	Xilinx 风格中断控制器,汇聚各外设中断
timer	0x91000000	周期中断,内核时钟源
uart_lite	0x92000000	真串行 tx/rx,Linux 控制台
spi_lite	0x93000000	SPI 主机
gpio	0x94000000	通用 IO
qspi_lite	0x95000000	QSPI 命令控制器(CMD/ADDR/LEN/...)
加速器 CSR	0x96000000	Yokatta 加速器控制寄存器(PERIPH6)
加速器 MMIO	0x97000000	Yokatta 片上 SRAM 窗口(PERIPH7)
flash XIP	0xA0000000	只读;CPU 读 → 翻译成 0xEB 四线读 flash

其中 0xA0000000 XIP 窗口是只读映射:CPU 对它的取指 / 读会被路由到 qspi_xip 控制器,实时翻译成0xEB 四线读 flash —— 对软件透明,像读普通内存一样从 flash 取指。

3. 片上外设

一套真 RTL 外设(非行为模型),经 irq_ctrl 把中断汇聚回核:

·uart_lite(0x92000000)—— 真串行 tx/rx,即 Linux 控制台;tb 端像示波器一样把串行线反序列化成字符。

·timer(0x91000000)—— 周期中断,内核时钟源。

·spi_lite / gpio(0x93 / 0x94)—— SPI 主机与通用 IO。

·irq_ctrl(0x90000000)—— 上述中断汇聚 → 核 intr_i。RISC-V 上需把该控制器注册成根中断处理器(set_handle_irq),这是本平台对 Linux irq-xilinx-intc 驱动的关键改动。

4. QSPI flash 子系统

一颗片外 QSPI flash(W25Q128 行为模型,JEDEC EF 40 18),由五个使用者共享,经一个五级优先级引脚 mux 仲裁。

图 4-1 QSPI 子系统与两种启动方式

两种从 flash 启动:

·copy-to-RAM(boot_mode=0):上电后 qspi_boot 引导器把 flash 头 4KB 拷进 DRAM 0x80000000,再放行 CPU。程序链接在 0x80000000。

·Quad XIP(reset 向量 = 0xA0000000):CPU 复位即从 flash 映射窗口经 0xEB 四线原地取指,不拷到 RAM。程序链接在 0xA0000000,栈 / 数据在 DRAM。

上电 QE + 引脚仲裁:真实 W25Q 在四线读前必须先把状态寄存器的 QE(Quad Enable)位置 1,所以 qe_init 在复位后最先跑(WREN+WRSR2),期间独占 flash 引脚;之后 xip / jtagspi / boot / qspi_lite 按优先级仲裁。

qspi_lite(0x95000000)是命令式控制器(CMD/ADDR/LEN/CTRL/STATUS/WDATA/RDATA),供软件或调试器经 SBA 直接发 WREN / 扇区擦 / 页编程等命令读写 flash。

5. Yokatta AI 加速器

挂在总线上的一颗 AI 加速器,经 axi4_lite_tap 接在 CSR(0x96000000)/ MMIO(0x97000000),其 128 位 DMA 主口经位宽转换接 axi4_arb 与 CPU 共享主 DRAM。支持 10 个神经网络算子:

类别	算子
逐元素 / 池化	elementwise(加 / 减 / 乘)、chpool(通道池化)
矩阵乘	mvm、mvmtrp(转置权重)
卷积	conv、convres(带残差)
归一化 / 激活	softmax、layernorm
其他	filter(滤波)、cfg(配置自动机)

数据格式:FP16(IEEE half)输入 / 输出,内部 FP20(1-6-13)做累加,卷积权重可用 INT4。HW 固定参数:Tout=8、Tin=16、AXI burst=32。

图 5-1 Yokatta 加速器接入方式

访问方式(两条线):

·裸机协同验证:每个算子一个 testbench(tb/tb_soc_<op>/),tb 直接灌输入 + 生成软件 golden + 比对;驱动经 DRAM 邮箱(INPUT_READY / DONE)握手。10 个算子秒级出 PASS/FAIL,全部通过。

·Linux 用户态:统一应用 acc_demo,经内核 misc 驱动 /dev/yokatta_acc(mmap CSR / MMIO / DMA 池 + ioctl 取 DMA 物理地址)。命令行可调尺寸:acc_demo all / acc_demo softmax --token 64 --head 1。

6. CPU 与加速器的 Cache 一致性

这是把加速器从裸机搬到 Linux 时踩到、并最终解决的关键工程问题。加速器 DMA 用绝对物理地址(无 IOMMU)与 CPU 共享 DRAM;CPU 的数据 cache 必须与加速器看到的 DRAM 保持一致,否则算子全部失败。

本核的特性:是否缓存纯由物理地址范围决定(MEM_CACHE_ADDR_MIN / MAX),无视页表的 noncached 属性。因此 Linux 驱动的 pgprot_noncached 在本核上不起作用。

	修复前	修复后
MEM_CACHE_ADDR_MAX	0x8fffffff	0x83ffffff
DMA 池(0x84000000)	在 cache 区内 → 被缓存	在 cache 区外 → 非缓存
现象	CPU 写的输入卡在 dcache,加速器读 DRAM 旧值	CPU 写直达 DRAM,加速器立刻看到
10 算子结果	0 PASS / 10 FAIL	10 PASS / 0 FAIL(ALL PASS)

图 6-1 DMA 池移出可缓存区,CPU 与加速器看同一份 DRAM

修复办法:把 cache 区上界收到 0x83ffffff —— cache 只覆盖 64MB 内核 RAM,DMA 池(0x84000000,在内核 RAM 之后)落在 cache 区外,自然非缓存。CPU 与加速器看同一份 DRAM,无需任何软件 flush,用户态应用一行不用改。裸机算子数据在 0x80xxxxxx 仍可缓存,不受影响。

为什么不照搬裸机的 cache flush:裸机用自定义 CSR(csrw 0x3a0)flush dcache,但那是 M 态特权指令,Linux 用户态(U 态)甚至内核态(S 态)执行都会触发非法指令异常。所以 Linux 侧选「DMA 池非缓存」是正解。

7. JTAG 调试子系统

一套符合 RISC-V Debug Spec 0.13 的调试模块,接真 OpenOCD:

·调试链:jtag_dtm(TAP/DTM)→ riscv_debug(DMI mux)→ dm_sba(Debug Module)。

·能力:halt / resume、单步、软件断点(ebreak)、读写 GPR·CSR。

·System Bus Access(SBA):Debug Module 自带一路独立 AXI 主口,可读写整片内存映射(DRAM / 外设 / 加速器 CSR / DMA 池)而不暂停核 —— OpenOCD 的 mdw / mww 走这条。

图 7-1 JTAG 调试链路

OpenOCD 还经 jtagspi proxy(IR=0x12)直接烧录 flash;烧录与 RISC-V 调试共用同一 TAP。

注:仿真自测(+DBGTEST / +QSPITEST)用一个 tdmi 测试注入口绕过慢 JTAG 直驱 DMI(几千周期跑完一套自测)。该注入口用 `ifdef SIM_SELFTEST 包裹,综合时整片消失 —— 芯片里不留测试后门。

8. 复位链:标准 ndmreset

「JTAG 烧 flash → 重启 → 从 flash 启动」这条真机流程,靠的是 RISC-V Debug Spec 标准的 ndmreset(dmcontrol.ndmreset,复位除 Debug Module 外的整个系统),不是仿真用的「门铃」。

图 8-1 复位链设计

关键设计:ndmreset 汇进 qe_init + qspi_boot + CPU 的复位,但 Debug Module 自身只认外部 rst_i —— 否则 ndmreset 会把调试器自己复位掉,OpenOCD 掉线。烧完 flash 发一次 ndmreset,引导器就从刚烧的 flash 重新引导,真机一样成立。

9. 验证与工具

·仿真:Verilator(--binary --timing),纯 RTL;tb 提供行为级 DRAM + 串行 UART 反序列化。仿真线程数可配(SIM_THREADS,实测全 Linux 用 8 线程)。

·快速自测:+DBGTEST(halt / 单步 / 断点)、+QSPITEST(flash 读写),几千周期出结果。

·加速器协同验证:tb/tb_soc_<op>/ 每算子一套,秒级出 PASS/FAIL,10 个全 PASS。

·从 flash 启动:+QSPIBOOT(copy-to-RAM)、+XIPBOOT(Quad XIP)。

·GUI:Python / Tkinter 调试台,集成连接 OpenOCD、核调试、flash 烧录 / 读写、XIP 更新、ndmreset 启动、波形查看;Linux 模式 + 虚拟磁盘可直接在 shell 里跑 acc_demo。

·Linux 端到端:从源码编译内核 5.4 + BusyBox,在 RTL 上启动到 busybox shell,并跑通加速器 10 算子(acc_demo all → ALL PASS)。完整复现步骤见仓库 docs/ 与各目录 README。

工程地址:https://github.com/xxxxxxxx

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

QRISC-V996—从 RTL 核到 Linux #3 (Claude Code版)

最新文章

热门文章

随机文章

QRISC-V996—从 RTL 核到 Linux #3 (Claude Code版)

Python实操|一键把PDF转高清图片(无水印、不限页数)

Python小白入门18:掌握嵌套循环,从一头雾水到游刃有余

最新文章

热门文章

随机文章