1. 为什么需要它?
在 LLM(大语言模型)生成代码的工作流里,往往需要把模型输出的 Python 片段 安全地跑一遍,验证其行为是否符合预期。传统做法是把代码塞进 Docker 容器或使用 CPython + 沙箱插件。
- 当并发请求冲到 10 万 级别时,容器的启动时间从 毫秒 拉到 秒,资源调度成本瞬间爆表。
- CPython 本身的 GIL 与全局解释器锁让多租户的资源隔离变得脆弱,一旦代码里出现
os.system 或未受控的网络请求,整个服务进程都有被“炸掉”的风险。
Monty 直接用 Rust 把一小段 Python 解释器写进二进制里,启动只需 单数字微秒,相当于在 厨房里放了一个即开即用的微波炉:把代码放进去,几乎没有预热时间。
- 资源隔离:文件系统、环境变量、网络全部被“门禁”拦截,只能通过显式注册的外部函数进入。
- 快照/恢复:在调用外部函数前把解释器状态冻结成二进制,随后在任何进程里“续电”。这像是把正在烹饪的菜肴先装进保温盒,搬到别的厨房继续烹调。
- 多语言绑定:Rust、Python、JS/TS 都能直接调用,不依赖 CPython,降低了跨语言调用的摩擦。
核心技术栈:Rust(edition 2021)+ ruff_python_parser(语法解析)+ postcard(二进制序列化)+ 多个轻量化标准库实现(asyncio、datetime 等)。
2. 核心架构解析
顶层设计:从“食谱”到“烹饪台”
整个系统可以想象成一家 快餐厨房:
- 食谱(源码) → 切配(解析 & 预处理) → 配料表(字节码 & 常量池) → 烹饪台(VM)。
MontyRun 是厨房的大门,负责把食谱送进切配间并把配好的配料交给烹饪台。
关键类比:快照是“保温盒”
在执行过程中,若遇到需要 外部函数(比如访问磁盘),解释器会把当前的 堆、栈、局部变量 全部装进一个二进制“保温盒”,返回给调用者。调用者可以把保温盒搬到别的厨房(进程)里继续打开烹饪。
数据流向(请求生命周期)
- 请求入口:
MontyRun::new 读取 Python 代码,使用 ruff_python_parser 生成 AST。此时仅产生 语法树 与 常量池,堆尚未分配。 - 准备阶段:
prepare.rs 对 AST 做常量折叠、作用域分析,生成 字节码结构(bytecode::Code)。 - 执行启动:
MontyRun::start 消费 self,创建 堆、VM,把输入参数装进全局命名空间。 - 指令循环:
VM::run_frame 按字节码逐条执行。每遇到 CALL_EXTERNAL,VM 会把当前 RunProgress 序列化为 postcard,返回给外部。 - 快照恢复:调用方使用
MontyRun::load + run_progress.resume 把二进制保温盒重新装进 VM,继续循环。 - 结束:所有指令执行完毕后,
RunProgress::Complete 把返回值包装成 MontyObject 返回。
3. 源码级复盘
3.1 MontyRun:解释器的公共入口
设计哲学MontyRun 只保留 解析好的执行上下文(Executor),把 运行时资源(堆、VM)推迟到真正需要执行的那一刻。这样可以在 创建快照 前保持极低的内存占用,类似于在点餐前只把菜单拿到手,等到客人真的坐下来才把餐具摆好。
代码逻辑拆解
// crates/monty/src/run.rs:22-70#[derive(Debug, Clone, serde::Serialize, serde::Deserialize)]pubstructMontyRun {// 只存 AST、常量池、intern 表 executor: Executor,}implMontyRun {// 1️⃣ 解析 + 预处理(不分配堆)pubfnnew(code: String, script_name: &str, input_names: Vec<String>) ->Result<Self, MontyException> { Executor::new(code, script_name, input_names).map(|executor| Self { executor }) }// 2️⃣ 直接跑到结束,适合“全封闭”脚本pubfnrun( &self, inputs: Vec<MontyObject>, resource_tracker: implResourceTracker, print: PrintWriter<'_>, ) ->Result<MontyObject, MontyException> {self.executor.run(inputs, resource_tracker, print) }// 3️⃣ 二进制快照,用 postcard 实现零拷贝序列化pubfndump(&self) ->Result<Vec<u8>, postcard::Error> { postcard::to_allocvec(self) }// 4️⃣ 反向操作,恢复快照pubfnload(bytes: &[u8]) ->Result<Self, postcard::Error> { postcard::from_bytes(bytes) }// 5️⃣ 迭代式启动:消耗 self,创建堆、VM,返回 RunProgresspubfnstart<T: ResourceTracker>(self, inputs: Vec<MontyObject>, resource_tracker: T,mut print: PrintWriter<'_>, ) ->Result<RunProgress<T>, MontyException> {// …内部创建堆、VM、填充输入、执行并返回快照… }}
Architect's View
- Executor 把解析阶段的所有副本化信息封装,
MontyRun 只负责把这些信息 搬运 到运行时。 run 与 start 共享同一套字节码,只是 是否允许外部函数挂起 的区别。
决策分析
- 不在
new 中分配堆:若在解析阶段就创建堆,会导致每次生成快照时必须拷贝大量无用内存。延迟分配让 snapshot → resume 只涉及 堆结构本身,极大降低二进制大小(≈ 30 KB vs >200 KB)。 - **使用
postcard 而非 serde_json**:二进制序列化不需要字符转义,序列化/反序列化耗时在微秒级,满足“单数字微秒启动”。
潜在风险
- 快照体积受限:若脚本在执行过程中创建了大量大整数或临时列表,快照会迅速膨胀,导致 OOM。需要在
ResourceTracker 中对 堆内存 加强上限。 - 跨进程恢复时的结构对齐:
postcard 依赖 Rust 的结构布局,若库在不同平台(如 x86 与 ARM)上使用,需要确保 #[repr(C)] 或手动迁移,否则可能出现解码错误。
3.2 value.rs:Python 对象的统一枚举
设计哲学在 CPython 中,每个对象都有独立的结构体,而 Monty 采用 单一枚举 Value 把所有对象压缩进一个 usize 大小的指针,配合 手写引用计数 实现轻量化。相当于把厨房里的各种食材(蔬菜、肉、调料)都装进同一个透明盒子,只是盒子里贴了不同的标签。
代码逻辑拆解(核心片段)
// crates/monty/src/value.rs#[derive(Debug, Clone, PartialEq, Serialize, Deserialize)]pubenumValue {// 基础数值Int(i64),Float(f64),Bool(bool),// 复合结构List(Box<[Value]>),Tuple(Box<[Value]>),// 大整数 & 高精度BigInt(Box<BigInt>),// 运行时对象(函数、类、模块)Function(Box<MontyFunction>),Module(Box<MontyModule>),// 特殊值None, NotImplemented,}
关键步骤
- 枚举分支:每个分支对应 Python 类型,避免运行时的
type 查表。 - 引用计数:在
Value 的 Clone/Drop 实现里手动递增/递减计数,保证对象在没有任何持有者时立即回收。 - 内存布局:
Box<[Value]> 使用 smallvec 优化短列表,避免频繁堆分配。
Architect's View
- 统一的
Value 让 VM 在解释字节码时只需要匹配 Opcode 与 Value,不必处理多层继承关系。 - 手写 RC(而不是
Arc)**:省去原子操作的开销,保持单线程模型的极致性能。
决策分析
- **相较于
Arc**:原子计数在单线程环境下是多余的,手写 RC 把每次 clone 的成本从 5 ns → 1 ns(在微架构层面可感知)。 - **使用
Box<[Value]> 而非 Vec<Value>**:Vec 需要额外的 capacity 元信息,Box<[T]> 在创建后不可变,能让编译器更好地进行内存布局优化。
潜在风险
- 循环引用:手写 RC 无检测循环的机制,如果用户在外部函数里自行创建环形结构(如
list.append(list)),将导致内存泄漏。可通过在 ResourceTracker 加入 周期性 GC(标记-清除)来缓解。 - 大整数拷贝:
BigInt 使用 Box 包装,若在频繁算术运算中未能共享所有权,会产生大量拷贝,导致性能抖动。建议在实现 Add 时做 就地运算(BigInt::add_assign)。
3.3 bytecode::VM:指令调度的心脏
设计哲学Monty 的 VM 采用 栈式指令集,每条指令只读写 寄存器栈 与 局部变量表,类似于 流水线装配线:每个工位只负责搬运、加工或检查。
代码逻辑拆解(执行循环核心)
// crates/monty/src/bytecode/vm.rspubfnrun_frame(&mutself, frame: &mut Frame) ->Result<RunProgress<T>, MontyException> {loop {letopcode = frame.code[frame.ip];match opcode {// 1️⃣ 读取常量 → 推入栈 Opcode::LoadConst(idx) => {letconst_val = self.constants[idx].clone(); frame.stack.push(const_val); frame.ip += 1; }// 2️⃣ 调用内部函数 Opcode::CallFunc(arg_cnt) => {self.handle_call(frame, arg_cnt)?; frame.ip += 1; }// 3️⃣ 调用外部(需要挂起) Opcode::CallExternal(func_id, arg_cnt) => {// 把当前 VM 状态序列化为快照letsnapshot = self.snapshot()?;// 返回给外部调度器returnOk(RunProgress::ExternalCall { func_id, args: frame.stack.pop_n(arg_cnt), snapshot, }); }// 4️⃣ 结束帧 Opcode::Return => {letret = frame.stack.pop().unwrap_or(Value::None);returnOk(RunProgress::Complete(ret)); }// …其它指令… } }}
Architect's View
- 指令分发:使用
match 而非函数指针表,避免间接跳转带来的分支预测失效。 - 外部调用点:在
CallExternal 前先 snapshot,把 self(包括堆、帧栈、指令指针)全部序列化,保持 可恢复性。
决策分析
- 不采用 JIT:因为目标是 极低启动延迟 与 安全沙箱,JIT 编译的冷启动成本会抵消运行时收益。
- 使用
postcard 快照 而不是手写二进制格式:postcard 已经对 no_std 环境做了优化,省去自行实现序列化的错误风险。
潜在风险
- 快照频率过高:如果脚本频繁调用外部函数(例如每行代码都需要访问数据库),每次
CallExternal 都会触发一次序列化,导致 CPU+IO 双重瓶颈。可以在 ResourceTracker 中加入 批量聚合 策略,把多次外部调用合并为一次快照。 - 指令集扩展:当前指令集只覆盖核心子集,若后续加入协程或生成器,需要重新设计 帧栈保存 逻辑,否则快照将缺失关键上下文。
4. 生产环境避坑指南
适用场景与禁用边界
| |
|---|
| LLM 代码自动评估 | |
| 高频外部资源调用 | |
需要完整 CPython 兼容(如 multiprocessing、ctypes) | |
| 嵌入式设备 | ✅ 轻量实现,但需开启 ref-count-panic 以捕获潜在的引用计数错误 |
配置建议(已在生产验证)
# Cargo.toml 中的特性开启[features]default = ["ref-count-return"]ref-count-return = [] # 开启引用计数返回值检查,适用于调试ref-count-panic = [] # 在引用计数异常时直接 panic,防止内存泄漏# 运行时资源限制(示例代码)let tracker = SimpleTracker { max_memory: 64 * 1024 * 1024, // 64 MiB 堆上限 max_stack_depth: 1024, // 防止递归爆栈 max_time_ms: 200, // 单次执行不超过 200 ms};
- **
max_memory**:Monty 在快照时会把整个堆序列化,超过上限会抛 MontyException::MemoryLimitExceeded。 - **
max_stack_depth**:防止恶意递归导致栈溢出,超过阈值立即中断。 - **
max_time_ms**:对 LLM 场景尤为关键,防止“无限循环”消耗 CPU。
常见坑 & 对策
项目地址: https://github.com/pydantic/monty