当前位置：首页>python>Python Flask 大神新作:一行命令,垃圾机器跑起 6 个 Qwen 模型

Python Flask 大神新作:一行命令,垃圾机器跑起 6 个 Qwen 模型

2026-07-01 10:16:39

那个给 Python 写了 Flask 框架的男人，最近在干一件很接地气的事——怎么让破电脑也能丝滑地跑 AI 模型。

Armin Ronacher，Flask 和 Jinja2 的作者，昨天发了一条推文。第一句就把人看乐了：

"If you don't have a 128GB mac,I also have a pi-llamacpp extension that just configures 4 versions of Qwen 3.6."
（原文："如果你没有 128GB 的 Mac，我还做了一个 pi-llamacpp 扩展，直接帮你配好 4 个版本的 Qwen 3.6。"）

128GB Mac 这个梗，懂的都懂。过去一两年，本地跑大模型基本是苹果高配用户的特权——没有大内存，GGUF 量化之后还是慢，编译 llama.cpp 还得折腾一堆参数。

Ronacher 的项目叫pi-llamacpp。一句话说清楚：它是 Pi AI 助手的一个扩展，一行命令装好，自动帮你编译运行库、下载模型、启动服务。全程不用碰配置文件。

对，就是那个写 Flask 的 Ronacher。他说这主要是一次「可用性实验」——到底能把本地跑 LLM 这件事做到多简单。

从下载到对话，它替你做完 5 件事

pi-llamacpp 的核心理念是：你只管用，它管一切。具体来说：

自动编译 llama.cpp。它不会用发行版自带的旧版本，而是拉取一个特定的 PR 快照（llama.cpp PR #22673），编译出支持 MTP/NextN 的多 token 预测版本。这个优化能让推理速度明显提升，但手动配起来很折磨人——需要确定哪个 PR 稳定、哪个 commit 能用、编译参数怎么填。pi-llamacpp 替你选了。

自动下载匹配的 GGUF 模型。它注册了 6 个 Qwen 3.6 模型变体，分成两大家族：Dense（27B 全参数）和 MoE（35B-A3B 混合专家）。每个家族有 2-bit、4-bit、8-bit 三档量化。选一个模型名称，扩展会自动从 HuggingFace 拉对应的 GGUF 文件。2-bit 最小、跑得最快、质量最糙；8-bit 最大、最慢、最聪明。4-bit 是甜点。

自动启动 llama-server。模型下载完，它会自动拉起一个 llama.cpp 本地服务器，绑定随机端口。你不用管端口号、不用写启动命令。端口号记录在server.json里，Pi 自己知道就行。

生命周期全自动。这是最打动人的细节——Pi 退出时，llama-server 自动关。不残留进程，不占端口，下次启动时重新拉起。就像一个训练有素的管家，你不用跟他说"该停了"。

内置调试面板。在 Pi 里敲/llamacpp就能看实时日志，/llamacpp status看当前状态和路径，/llamacpp stop手动停服务。出问题了不用去翻系统日志。

重点：装好之后每次使用就是打开 Pi 开始对话，不需要任何额外操作。

第一次上手：2 步跑起来

第一步：安装扩展

这步的目的是：让 Pi 知道多了个llamacppprovider，并拉取扩展代码。

在 Pi 里执行：

pi install https://github.com/mitsuhiko/pi-llamacpp

没有 Pi 的话，去官网安装（pi.ai），注册就有免费额度。

第二步：重启 Pi

安装完后，执行/reload或者重启 Pi 即可。

这里要注意：首次使用时，pi-llamacpp 会自动下载模型文件。GGUF 文件不小，量化越低文件越小。第一次对话前需要等下载完成，具体时间看你的网速。下载完就缓存了，下次秒开。

配好之后，每次使用只需要打开 Pi 并选择llamacppprovider 开始对话。

重点：模型文件缓存在~/.pi/llamacpp/models/下，换模型不会重复下载已有的。

Dense 还是 MoE？怎么选

这里有个让很多人困惑的点：同样是 Qwen 3.6，为什么分 Dense 和 MoE？

简单说：

Dense（27B）：所有 27B 参数参与每次 token 计算。算力和内存消耗线性、可预测。适合你能估算自己机器能力的场景——如果你知道自己的内存和 GPU 够跑 27B 模型，选 Dense。

MoE（35B-A3B）：总共 35B 参数，但每次推理只激活约 3B。相当于一个"大而省"的方案——容量比 Dense 大（35B > 27B），但每次推理的计算量反而小。代价是完整权重还是得存下来，所以磁盘占用更大。

咋选？

内存紧张、想要最快速度 → Dense 2-bit 或 MoE 2-bit
日常开发、追求平衡 → MoE 4-bit（Ronacher 自己在用的就是 havaenoammo 的 4-bit 版本）
只要质量、不在乎资源 → Dense 8-bit 或 MoE 8-bit

Ronacher 说他测试的机器：

"这台机器运行的是 havenoammo/Qwen3.6-35B-A3B-MTP-GGUF-4bit，速度超快，简直就是一台垃圾机器。"

买不起 128GB Mac 的人，看到这句可以放心了。

写 Flask 的人，为什么来折腾 llama.cpp？

这里有个容易忽视的背景：Armin Ronacher 不只是"Flask 作者"。

他是 Sentry 的联合创始人兼工程总监，同时也是 Pi AI 助手的核心贡献者。Pi 这个 AI CLI 工具有一套 provider 扩展系统，类似 Claude Code 的 MCP 协议——第三方可以写扩展，给 Pi 接入不同的模型后端。

pi-llamacpp 就是他自己写的 provider 扩展——给 Pi 接入本地 llama.cpp 推理。

说实话，这件事最有趣的地方不是技术本身，而是动机。Ronacher 在做一件很"不性感"的事——把可用性做到极致。编译参数、模型下载、服务管理，这些东西每一个单独拿出来都不难，但把六七个步骤串成一个"install+reload"的体验，需要真正理解普通开发者的痛在哪。

他自己也说了实话：

"说实话，这主要是一个可用性实验。你能把它做得多么简单易用？结果可能因人而异。"

"可用性实验"这个词很诚实。没有吹"颠覆本地推理"，没有说"重新定义开发者体验"。就是一个很会写代码的人在探索：把门槛降到多低，才会有人愿意用？

这一点，值得所有做 AI 工具的人想一想。

重点：pi-llamacpp 真正适合的人是有本地推理需求但不想折腾的开发者。它解决的不是"能不能跑"，而是"能不能懒得跑"。

Ronacher 把一件大家都觉得麻烦的事，做到了只需要记得两个词：pi install和/reload。

而这一切的起点，只是一句玩笑话——「如果你没有 128GB Mac……」

好嘛，现在不用了。

参考链接：https://github.com/mitsuhiko/pi-llamacpp

点赞、转发、点个小心心❤️欢迎在评论区留下你的想法！

— 完 —

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

第一次上手：2 步跑起来

第一步：安装扩展

第二步：重启 Pi

Dense 还是 MoE？怎么选

写 Flask 的人，为什么来折腾 llama.cpp？

Python Flask 大神新作:一行命令,垃圾机器跑起 6 个 Qwen 模型

从下载到对话，它替你做完 5 件事

最新文章

热门文章

随机文章

Python Flask 大神新作:一行命令,垃圾机器跑起 6 个 Qwen 模型

从下载到对话，它替你做完 5 件事

第一次上手：2 步跑起来

第一步：安装扩展

第二步：重启 Pi

Dense 还是 MoE？怎么选

写 Flask 的人，为什么来折腾 llama.cpp？

1303页Linux命令速查表

Python, fast api学习笔记100篇.

最新文章

热门文章

随机文章