过去两年,AMD在Linux内核主线中开发了AMDXDNA加速器驱动程序,以支持AMD锐龙AI NPU。但在Linux用户空间软件实际能够调用锐龙AI NPU方面,情况一直极其有限,除了一些小众代码片段外几乎没有真正实用的方案。即便是AMD自家的软件(如其在Linux上的GAIA)也一直采用Vulkan配合集成显卡运行,而未提供任何NPU支持。但今天终于迎来了重大转折——锐龙AI NPU在Linux上变得实用,并能够处理大语言模型。
开源LLM运行服务器Lemonade今日发布了10.0版本,新增了对Linux NPU运行大语言模型及Whisper的支持。此外,Lemonade 10.0还实现了与Claude Code的原生集成。
Lemonade的Linux锐龙AI NPU支持基于FastFlowLM实现,后者作为"专为锐龙AI构建的NPU优先运行时",旨在"解锁锐龙AI NPU潜能"。当前世代锐龙AI NPU配合FastFlowLM可支持高达256k令牌的上下文长度。今晨发布的FastFlowLM 0.9.35版本正式提供了原生Linux支持。
除了Lemonade 10.0服务器和最新FastFlowLM运行时外,由于近期加速器驱动的调整,用户还需使用Linux 7.0内核或将AMDXDNA驱动向后移植到现有稳定内核版本。该Linux锐龙AI NPU支持应适用于所有当前AMD锐龙AI 300/400系列SoC。
Lemonade官方文档指南详细说明了如何通过FastFlowLM和Lemonade在Linux上运行大语言模型。