当前位置：首页>Linux>Claude Code的运作机制:Linux工具调用 vs RAG

Claude Code的运作机制:Linux工具调用 vs RAG

2026-02-09 21:22:00

为什么 Claude Code 使用终端工具（grep, glob, find）进行代码发现，而不是使用目前主导生态系统的嵌入（Embeddings）/向量搜索(RAG) 方案？

来自 Anthropic 的简短回答（Boris, Latent Space 播客, 2025年5月）：

“We tried very early versions of Claude that actually used RAG… Eventually, we landed on just agentic search as the way to do stuff. And there were two big reasons…One is it outperformed everything. By a lot.And this was surprising.”

Anthropic 给出的理由（源自官方渠道）

1. 性能表现（“大幅超越一切”）

根据 Boris 的说法，当被问及基准测试时：

“这主要靠‘感觉（Vibes）’，也就是内部的直观感受。虽然有一些内部基准测试，但主要还是感觉它更好用。”

如果我们接受这个说法，这意味着在编程及相关任务中，工具调用比 RAG 更有效。但我对某些细分场景（如超大规模代码库、跨多个代码库协作等）仍持保留意见。

一个显而易见的事实是：消耗和生成更多 Token 的方法通常表现更好，这恰好也符合 LLM 供应商的商业模式。Token 越多，模型的表达和处理能力就越强。如果 Token 增加的同时准确率也提升了，对他们来说是双赢。这可能意味着 Anthropic 在训练中使用了高质量的工具使用数据，特别是在编程领域。

这也意味着 Claude Code 的架构可能非常简洁。它并没有构建复杂的编排逻辑或检索管道，而是依靠模型本身来“驱动”决策。其核心可能就是一个简单的 While 循环：

while(tool_call_remaining):execute_tool_call();pass_results_to_model();check_tool_call();

当然，复杂之处不在于循环，而是在每次调用前的上下文组装（注入项目规则、技能 Schema 等）以及调用后的状态管理（压缩、会话持久化等）。现在的流行说法叫“上下文工程”。Anthropic 的赌注很明确：投资于模型的驱动能力，而不是构建一个复杂的“驱动程序”。

2. 简洁性与零基础设施

每一个 RAG 系统都始于一种“不信任”：即认为模型无法靠自己找到东西。

索引税（The Indexing Tax）：

RAG 系统必须支付这笔费用：数据过期、偏移、安全风险和维护成本。

RAG 的基础设施负担：
索引维护、嵌入服务依赖、向量数据库操作。
Claude Code 的方案：
无服务器、无索引、仅靠 CLI，在任何代码库上即开即用。

3. 安全角度

索引必须存储在某个地方。如果第三方提供商被黑，对公司来说是巨大的责任风险。智能体搜索让大部分代码库保持在本地。RAG 需要存储整个代码库的表示，而工具调用则是“按需”决定搜索和探索哪些文件。

4. 符合“苦涩的教训（Bitter Lesson）”哲学

“一切皆模型。模型才是最终获胜的关键。随着模型变强，它会吞噬掉其他所有组件。”

Token 堆积问题

每一轮对话，上下文都会激增：

第1轮：~1,000 tokens
第2轮：~2,500 tokens
...
第5轮：~12,000 tokens

这种“浪费”源于智能体在探索时的不确定性（列出目录、猜测性打开文件、模糊搜索等）。

为什么“自回归 + 工具调用”在 Token 成本高昂的情况下依然有效？

核心在于：每一轮交互都为模型提供了更好的决策信息。

RAG (单次)：
查询 → 检索 → 完成（祈祷它是对的）。
智能体搜索 (迭代)：
查询 → 结果 → “嗯，不太对” → 优化查询 → 更好的结果 → “接近了”……

模型可以根据发现的内容进行纠偏、缩小范围、追踪引用。这种动态适应是单次检索无法实现的。

权衡分析矩阵

特性	智能体搜索 (Claude Code)	RAG / 向量搜索
设置成本	零 (即开即用)	高 (索引、托管)
Token 成本	高 (多次迭代)	低 (单次检索)
数据新鲜度	实时 (读取当前文件)	存在延迟 (需重新索引)
可解释性	高 (可见搜索步骤)	低 (向量黑盒)
安全性	优秀 (本地处理)	中等 (数据外流风险)