1. 为什么需要它?
在 LLM(大语言模型)生成代码的闭环系统里,每一次 AI 产生的 Python 片段都要即时、安全地跑一遍。想象一条高速公路的收费站:当车流冲到 10 万辆/秒,传统的容器或 WASM 沙箱就像人工检查车牌——耗时数毫秒甚至秒,导致 AI 的响应迟滞。更糟的是,这些通用沙箱往往把整个宿主文件系统、网络、环境变量全部暴露给代码,一旦模型失误,后果堪比让陌生人直接搬进你的家。
Monty 把这条收费站升级为全自动电子闸:
- 只允许经过 显式注册 的外部函数通行,所有其它资源(文件系统、网络、环境变量)默认被封锁。
- 启动与切换的时间在 微秒级,相当于在高速路口瞬间抬起闸门。
- 通过 快照/恢复 机制,外部函数调用可以在任意时刻被挂起、检查、再继续,完美契合 AI Agent 的“思考—执行—反馈”循环。
核心技术栈概览(摘自项目 README):
| |
|---|
| |
ruff_python_parser | |
postcard | |
pyo3 | |
wasm-bindgen | |
| |
2. 核心架构
类比:把 Monty 想象成一台 核磁共振(MRI)扫描仪。
- 磁体 →
Executor(负责把源码转成可执行的“磁场”。) - 扫描床 →
Heap + Namespaces(存放运行时的“组织结构”。) - 控制台
- 快照系统 →
Snapshot<T>(把当前扫描结果保存下来,随时可以回放。)
当一段 Python 代码踏入 Monty 时,它的旅程如下:
- 解析阶段(磁体启动)
MontyRun::new 调用 ruff_python_parser 把源码拆解成 AST,随后 Executor 把 AST 编译成字节码,并把所有字符串/函数名做 intern,形成一个轻量的“磁场”。 - 执行阶段
run() 直接把字节码喂进 VM,一次性跑到终点,适用于没有外部依赖的纯脚本。 start() 在创建 Heap 与 Namespaces 后,启动 VM,并在每一次 外部函数调用 时自动暂停,返回 RunProgress::FunctionCall,让外部系统介入。
- 外部函数交互(闸门检查)当 VM 碰到未实现的函数,内部会产生一个 快照(当前堆、命名空间、指令指针的完整拷贝),并把控制权交回调用者。调用者完成 I/O、网络请求或安全审计后,用
Snapshot::run 继续执行。 - 快照/恢复(影像回放)
Snapshot<T> 通过 postcard 把 VM 状态序列化为二进制,既可以写磁盘做持久化,也能在跨语言边界(Rust ↔ Python ↔ JS)传递,实现“暂停—迁移—恢复”的无缝衔接。
3. 源码级复盘
3.1 MontyRun:解释器入口
/// Primary interface for running Monty code.////// `MontyRun` supports two execution modes:// - Simple execution: Use `run()` or `run_no_limits()` to run code to completion// - Iterative execution: Use `start()` to start execution which will pause at external function calls and// can be resumed later#[derive(Debug, Clone, serde::Serialize, serde::Deserialize)]pubstructMontyRun {/// The underlying executor containing parsed AST and interns. executor: Executor,}
- 设计哲学只保留一个
Executor 实例,让解析结果在整个生命周期内保持不变,避免重复的 AST 到字节码的转化开销。 - 决策分析与其把解析、执行混在一起,Monty 把二者解耦。若直接在
run() 中每次都重新解析,会导致 CPU 时间增长 与 内存碎片,尤其在 LLM 高频调用场景下不可接受。 - 潜在风险
MontyRun 本身是 Clone 的,克隆会复制 Executor(包含 intern 表)。在极端的并发环境里,如果大量克隆导致 intern 表的引用计数激增,可能触发 内存峰值。
3.2 start():迭代式执行的核心
pubfnstart<T: ResourceTracker>(self, inputs: Vec<MontyObject>, resource_tracker: T, print: &mutimplPrintWriter,) ->Result<RunProgress<T>, MontyException> {// 1️⃣ 创建堆并准备命名空间letmut heap = Heap::new(executor.namespace_size, resource_tracker);letmut namespaces = executor.prepare_namespaces(inputs, &mut heap)?;// 2️⃣ 实例化 VM,绑定堆、命名空间、intern 表以及打印输出letmut vm = VM::new(&mut heap, &mut namespaces, &executor.interns, print);// 3️⃣ 运行字节码,得到原始执行结果letvm_result = vm.run_module(&executor.module_code);// 4️⃣ 检查是否需要快照(外部函数、异常、协程等)letvm_state = vm.check_snapshot(&vm_result);// 5️⃣ 把 VM 状态包装为 RunProgress,交还给调用方handle_vm_result(vm_result, vm_state, executor, heap, namespaces)}
- 设计哲学
start() 把 资源准备、执行、暂停点检测、结果包装 四步明确分离,使得每一步都可以单独测量与优化。 - 关键点拆解
- 堆 & 命名空间 → 采用自定义
ResourceTracker(比如 LimitedTracker)在分配时即时检查内存上限,类似给每个用户配备一个“水表”。 - VM 创建 →
VM::new 只持有对堆和命名空间的可变引用,避免所有权转移导致的额外拷贝。 - 快照检测 →
vm.check_snapshot 判断是否停在 FunctionCall。如果是,它会把当前 Heap、Namespaces、指令指针 序列化为 Snapshot<T>,并返回 RunProgress::FunctionCall。 - 结果包装 →
handle_vm_result 把所有可能的结束状态(正常返回、异常、函数调用)统一为 RunProgress,让调用者只关心“一件事”。
- 为什么不直接用
Mutex在高并发的 AI Agent 场景里,频繁的锁竞争会把微秒级的启动成本推到毫秒甚至秒级。Monty 采用 所有权转移 + 快照 的方式,让线程只在 快照序列化 时可能出现一次短暂的阻塞,而不是在每一步指令执行时抢锁。 - 潜在风险
- 快照体积失控:如果脚本在运行期间创建了大量大对象(如巨型列表),一次快照会把整个堆序列化,导致 磁盘 I/O 突增。建议在生产中开启
LimitedTracker 对对象数量上限进行硬限制。 - 资源追踪器泄露:
ResourceTracker 实例在 Heap 销毁前必须被回收,否则会留下未释放的计数器,导致后续执行误判资源已耗尽。
3.3 RunProgress:迭代执行的状态枚举
pubenumRunProgress<T: ResourceTracker> {/// Execution paused at an external function call. FunctionCall { funct_name: String, args: Vec<MontyObject>, call_id: u64, snapshot: Snapshot<T>, },/// Execution finished normally, returning the final object.Complete(MontyObject),/// Execution terminated with an exception.Exception(MontyException),}
- 设计哲学把 所有可能的执行终点 用单一枚举表达,使外部语言(Python、JS)只需模式匹配一次即可得到完整状态。
- 决策分析与其让 VM 在每次外部函数调用时抛异常或返回
Result<Option<...>>,Monty 采用 显式状态机 的方式,让调用者主动决定如何处理(例如:记录日志、审计、重试)。这种模式在安全敏感的 LLM 场景下尤为重要,因为它把“是否继续执行”的控制权交回业务层,而不是隐藏在内部实现里。 - 潜在风险
call_id 使用 u64 简单递增,若长期运行且未重启进程,可能出现 回环(超过 2⁶⁴ 次)。在需要持久化调用记录的系统里,需要外部做一次 “wrap‑around” 检查。 snapshot 持有完整堆状态,若外部在 FunctionCall 之间长时间持有不释放,可能导致 内存泄漏。建议在业务层实现 超时自动回收。
4. 生产环境避坑指南
- 别在高频调用中直接使用
run()当业务需要对外部函数进行审计或资源计量时,run() 会直接在内部调用未注册的函数并抛异常,失去可控性。 - 开启
LimitedTracker 并合理配置阈值# 示例配置(在实际部署时通过环境变量注入)[resource]max_memory_mb = 64# 堆上限max_recursion_depth = 256# 防止无限递归max_objects = 10_000# 防止快照时对象爆炸这些限制在 Heap::new 时即生效,能够在脚本尝试分配超额内存时立刻返回 MontyException::ResourceExceeded,避免 OOM。 - 快照持久化要配合压缩
postcard 输出的是紧凑的二进制,但在对象数量多时仍可能达到数 MB。生产环境建议在写磁盘前走一遍 lz4 或 zstd,并在恢复时解压,以降低 I/O 带宽占用。 - 对外部函数实现做白名单只在
Monty 实例启动前通过 register_function(name, handler) 注入函数,所有未注册的调用都会走到 RunProgress::FunctionCall,从而被业务层拦截。 - 监控快照创建频率在高并发的 LLM 调度系统里,快照数目与 API 调用数呈线性关系。通过 Prometheus 或类似系统监控
monty_snapshot_created_total,当阈值超过预设值时,可考虑 批量合并 或 调低外部函数调用频率。
5. 总结
Monty 本质上就是 “隔离舱” 的代码实现:把任意 Python 代码装进一个只允许预先批准的阀门的舱体,启动、暂停、恢复全在微秒之间完成。
项目地址: https://github.com/pydantic/monty