“在硅谷,我们其实根本不知道中国 AI 已经走到了哪里”
主持人: Matt,欢迎来到 Fiverr 播客。
Matt: 谢谢,感谢邀请。
主持人: 对还不了解你的人来说,作为 Linux Foundation 的 AI CTO,你的角色具体是什么?能不能带我们了解一下你的职责、你的日常工作,以及你现在主要在做什么?
Matt: 可以。我的很多工作都非常偏社区导向,核心是确保我们拥有一个健康的开源 AI 生态,确保有很多真正优秀的项目能够成长起来、被更多人看见。比如我们纳入基金会的一些项目:vLLM、PyTorch、DeepSpeed,还有 Ray 等等。
我的一部分工作也非常聚焦教育。我们现在在做一些培训和认证,尤其目前围绕 PyTorch 展开;同时也在确保开源 AI 在技术方向上足够清晰、足够强。此前我参与过“模型开放性框架”(Model Openness Framework, MOF)的工作,几年前我们还为此写过论文;另外还有 OpenMDW 许可证,这在开放模型领域也非常重要。
此外,我也会更多地走到社区中去,和大家交流。我们最近刚成立了 Agentic AI Foundation,所以现在我们也在围绕 Agentic AI 构建一个非常健康的生态系统。
我的工作,就是做社区的一个好 steward(守护者/管理者),帮助这个充满活力的开源 AI 生态继续成长。这个生态包含很多不同的层面:从开放数据集、开放模型,到整条技术栈上的各种开源软件,都在其中。
在 Linux Foundation,这些内容由很多不同的基金会共同承载。许多工作负载依赖 Kubernetes、Linux 以及其他基础设施,而这些也分别由其他基金会来推动。我的职责之一,就是确保我们能够让更多人平等地获得工具、平等地获得教育资源,并持续推动整个开源 AI 生态向前运转。
主持人: 所以在加入 Linux 之前,你也曾经负责过 PyTorch 的技术方向;再往前,你在企业技术领域几乎干了 25 年,对吧?是在 IBM 吗?
Matt: 对。还有电信行业。
主持人: 那这些经历现在如何帮助你看待这一轮 AI 热潮?
Matt: 帮助非常大。我职业生涯的大部分时间都在产业界度过。中间有一小段时间,我在 CableLabs 做研究,之后又回到产业界,再后来又到一家非营利机构工作。
我觉得这让我能够同时理解两边的视角:一边是企业和行业在 AI 上的需求、采用方式以及落地应用;另一边是开源基金会如何培育生态、扩大工具可及性、推动开源 AI 文化繁荣。所以某种程度上,这让我也能够同时拥有这两种观察视角。
另外一点,从我的角度看也很重要:要理解 AI 研究人员要经历什么、开发者要经历什么,这样我们才能真正帮助他们解决问题。
我们等会儿还会回到你在 Linux 的工作,不过我很好奇:你刚刚结束了一趟很长的中国大陆之行,几乎拜访了所有主要的 AI 实验室——DeepSeek、Moonshot、智谱,对吧,还有 Qwen,以及其他团队。
Matt: 对。
主持人: 抛开那些大家都知道的事不谈,这一趟最让你惊讶的是什么?
Matt: 我觉得,从这个角度来说……过去几年我来过中国几次,而这次最让人惊讶的一点,站在一个美国人的角度看,就是:我们其实并不了解中国正在发生什么。我们看到很多优秀的工作以开放科学、开源的形式被发表、被发布出来,但总体上,我们并不知道他们在研究上已经推进到了哪里。
这次非常开眼界的一点是:当我来到中国、开始和这些实验室接触时,我发现他们对自己正在做的工作是非常开放的。他们愿意分享自己正在推进的各种创新。当然,不是说会把产品路线图全告诉你,毕竟大家都有各自的商业定位;但就他们正在做的研究本身而言,是非常开放的。
这趟旅程中最让人意想不到的一点,是看到他们对自己所做工作的热情,以及他们对发表成果、把模型推向市场、看它在基准测试中尤其是和很多封闭 API 模型相比表现如何,所怀抱的那种兴奋感。
这对我来说非常、非常有意思:他们并没有藏着掖着,而是非常坦率地展示自己正在做的事情。
主持人: 从这些拜访和观察来看,这和美国同行相比有什么不同?
Matt: 在美国,人们私下里会稍微聊一点他们正在做什么,但一般不会直接邀请你进实验室,然后进行这么大范围、这么深入的分享。
在美国,实验室之间的人才流动很多,研究人员在不同实验室之间来回跳动,因此很多事情也谈不上有什么特别大的秘密,尤其是在湾区,流动性很强。但在中国,实验室在地理上分散得更多,对吧?有的在北京,有的在上海,有的在深圳,也有的在杭州。所以,这里没有像美国湾区那样高频的人才流动。
我觉得文化上也有些不同。我还想说,中国实验室的文化黏性也比较强。比如你在 Moonshot 这样的公司工作——它的办公室就是很摇滚、很年轻化的那种风格。
主持人: 你是说 Kimi 吗?
Matt: 对,就是它。那确实是一种不一样的文化。
但还有一点是很多人没有意识到的:这些研究人员里,很多人——尤其是创始人——其实受的是西方教育。比如 UC Berkeley、CMU、Stanford。他们在美国完成教育,然后回到中国。
而现在越来越明显的一个趋势是:很多创业者、很多研究人员,正在回到中国工作,而不是像过去那样留在美国。历史上,大家更希望留在美国发展;但我觉得中国在鼓励创新和创业文化这件事上做得很好。
当然,这里也有自己的“湾区”,对吧?这个领域里也聚集了非常多的人。
主持人: 实际上,很少有人意识到这一点。但如果你看世界地图,会发现全球有两个巨大的 AI 中心:一个是美国湾区,另一个其实离我们这里只差几分钟车程——就在深圳。
Matt: 对。当然还有杭州,和北京。
“硅谷迷恋个人光环和百万年薪,但 DeepSeek 团队身上有一种共同体的谦逊”
主持人: 在你和这么多中国研究人员交流之后,你怎么看待这样一个现象:在西方,人们把它叫作“ChatGPT 时刻”;而在中国,很多人说是“DeepSeek 时刻”,甚至“斯普特尼克时刻”。你怎么看 DeepSeek?它在中国仍然处于绝对主导位置吗?还是说,现在已经变得更均衡了?
Matt: 我觉得 DeepSeek 仍然被视作“尖兵”——是最前沿的创新者,是那种“用更少资源做更多事”的代表。他们推出了很多优秀的创新,而且这些创新已经被许多其他实验室采用了,包括美国的一些实验室。所以我依然认为,大家是带着这样的视角来看 DeepSeek 的。
中国的实验室对 DeepSeek 已经做出的事情、以及他们正在做的事情,都怀有很深的敬意。作为一个有开源背景的人,看着他们把这些成果带到世界面前,我是非常能欣赏这一点的。
他们的研究论文写得非常细致,你可以据此复现实验结果。这对于整个 AI 领域的进步来说极其重要。我们希望研究公开得足够充分,这样别人才能真正去复现。
但我们也看到一个趋势,而我对此并不是特别乐观:研究论文越来越短,逐渐变成了 technical report(技术报告)。这些技术报告里往往没有足够多的信息披露,无法支持别人去真正复现研究。而这并不能推动 AI 进步;无论你对“我们将如何迈向 AGI”持什么立场,如果大家的研究都关起来了,那肯定无法真正推动整个领域向前。
主持人: 就在你在中国期间,我记得 MIT 和 Hugging Face 发布了一份新报告,说中国开源模型在中国本土的下载份额,第一次超过了西方模型,对吧?这说明了什么?我们能不能说,全球开发者在心智份额上,已经开始更偏向中国开源模型,甚至这种趋势正在西方世界蔓延?
Matt: 我觉得我们现在看到的很多中国模型,一个很重要的特点是:它们的小模型和中等规模模型表现更好,而这正在带动下载量增长。这些模型的性能真的很强。
Llama 系列目前并没有新的后续模型推出。所以 Qwen(千问)现在其实已经成了部署最广的模型,甚至包括美国企业里也是这样。我觉得我们现在看到的是:大量爱好者、研究者和开发者,都想把这些模型下载下来,在本地通过 Ollama 之类的工具运行。
与此同时,企业也希望通过成本优化获益,所以相较于调用 API、按 token 支付更高价格,使用这些更小或中等规模的模型显得更有吸引力。
主持人: 对,我记得 DeepSeek V4 最新的数据,好像在能力相近的情况下,比某些商业 API 模型便宜了 50 倍,这几乎引发了整个中国大陆的价格战。不过很有意思的是,你也见了 MiniMax 的创始人,而他们第一次发布了一个闭源模型。他们有没有解释背后的逻辑?
Matt: 他们没有展开细讲,但我觉得这会成为中国接下来的一个趋势。过去人们的看法是:只要模型超过一万亿参数,训练成本就高得惊人,你就不得不把它放到 API 背后,因为它更难部署,同时也需要商业化回报。
美国那边经历的是:有一些开源模型,有一些 API,现在整体越来越偏向 API。我确实觉得,中国接下来也会走向类似的模式。我认为这些实验室中,有的今年已经 IPO 了,有的正在筹备 IPO,他们也面临着必须证明商业价值的压力。
主持人: 对,他们必须得证明。
Matt: 训练这些模型是要花钱的,对吧?他们有投资人,也必须实现某种回报。所以我觉得他们会转向 API。很可能到最后,所有人都会在某个阶段推出商业 API,用来补贴研究和训练的成本。
主持人: 以我个人和 MiniMax 创始人接触的经历来看,我们当时在为活动开发一个内部 AI 方案,是个语音智能体,但一直找不到适合香港受众的粤语模型。刚好我认识他,就发消息问能不能有人帮忙对接 MiniMax。他立刻建了个群,把工程师拉进来,很快就帮我们解决了。
这和另一家美国公司的体验形成了鲜明对比。我们当时在语音 AI 技术栈里用了美国一家公司,结果活动进行到一半,他们突然改了 API。我们花了很久才搞清楚问题出在哪儿,而且事先没有任何通知。我后来还在 LinkedIn 上给那位创始人发了消息,结果没有任何回复,什么都没有。
我之所以提这个,是因为我感觉——至少在我的认知里——美国那边对所有语音 AI 相关业务的需求实在太旺盛了;而另一方面,中国团队这种“客户优先”、愿意尽最大努力、以最低成本主动帮你解决问题的方式,会让我觉得,也许只是我举的这个例子有偏差,但那确实是一次让我开始重新思考的经历。
Matt: 对。我觉得有些人和组织会希望自己对模型及其生命周期拥有更多控制权。他们可能不希望模型在后台被悄悄升级。毕竟如果你用的是 API,对方就可以升级模型,一个小版本更新可能就会把某些东西搞坏,或者改动 API。
但如果你对系统有更多控制权,运行的是自己的开放模型,那你就可以自己决定规则、自己制定升级路径。我觉得这对很多人来说是很有吸引力的。
“Meta 很久不发新 Llama 了,连不少美国企业都在偷偷下载通义千问”
主持人: 我感觉整体上,中国团队面对客户时那种态度,以及某种积极进取、甚至可以说“带着善意的攻击性”——“为了客户我们什么都能做,我们一定能搞定”——本身就在帮助他们抢市场。因为他们不像美国公司那样,被过度需求“惯坏”了。
不过回到你的中国之行。你在博客里还提到,你曾和一些 DeepSeek 的资深员工一起吃午饭,其中有一位很早就加入了公司,甚至可以追溯到他们还在做量化的时期。通过和他们的交流,你觉得他们在内部是怎么理解和推进工作的?有没有什么不同之处,或者值得我们学习的地方?有没有什么你可以分享的观察?
Matt: 可以。我觉得最打动我的,是 DeepSeek 团队身上的谦逊。他们非常谦逊。我不觉得他们像某些组织里那样,把重点放在“个人要证明自己有多强”“我要做论文一作”这类事情上。
我从 DeepSeek 得到的印象是:他们很有共同体精神。更像是“我们所有人在一起,努力解决真正的问题”。所以从我的体验来看,那间办公室里的谦逊氛围,以及人们真心想解决问题、而不是过多在意个人发展、六位数七位数薪资之类事情的状态,都让我印象很深。
他们更像是在一个资源受限的环境里,和同事一起把事情做好、一起解决问题。
主持人: 你的这趟行程还刚好碰上另一件很有意思的事:华盛顿那边,白宫发布了一份关于针对美国 AI 模型的蒸馏攻击的备忘录,对吧?你在和中国同行交流时,有没有感受到什么反应?
Matt: 有。我在整个 AI 生态里看到的一个普遍现象是:蒸馏其实是很多实验室都会做的事情,对吧?有一种视角是:大家都在朝着同一个目标前进,朝着某种 AGI 终点前进,而每个人都想利用当下最好的东西。
现实情况是,很多机构的数据都受限。他们没有足够高质量的数据来继续推进和改进模型。所以我确实看到,蒸馏被非常频繁地使用,而且是被各种不同的组织在使用——无论中国还是美国。它并不是中国独有的现象。
主持人: 我记得你在 Substack 文章里说过,西方有一种叙事是:中国只是在复制粘贴西方做过的一切;还有一种叙事是,出口管制减缓了中国科技和中国 AI 的发展。你认为这两种说法都不对。你能具体说说为什么吗?
Matt: 当然。中国的实验室是在创新的,对吧?他们创造了很多非常优秀的创新,而这些创新也被用于学习、用于实践,甚至被应用到了美国的开放模型和 API 产品中。这些创新是跨国界流动的。这本来就是 AI 研究共同推进、彼此分享的一部分。我认为这对整个领域都极其有益。
美国应该这样做,欧洲、加拿大、中国也都应该这样做——大家都应该产出优秀的开放科学成果。至于出口管制,恐怕并没有达到预期效果。当你因为拿不到足够资源而被迫创新时,你就一定会创新。我觉得中国发生的事情就是:这些实验室意识到,好的,我们必须创新,我们必须把手头的资源榨出更多价值。
而这件事确实发生了。我觉得这很好,因为这些相同的原则、相同的发现,也可以被我们应用到世界各地的 AI 研究中。
硬件受限这件事,同样也在倒逼中国、倒逼北京投资自己的芯片能力。于是我们看到这一领域出现了更多发展,芯片制造领域也涌现出大量新创企业。中国在稀土资源方面有独特优势,也有能力构建从原材料到生产、制造再到部署的完整垂直链条。
主持人: 顺着这个问题继续。你还点名提到了四项具体的中国贡献,说西方实验室现在也在建立在这些成果之上:DeepSeek 的 GRPO、Moonshot 在 Muon optimizer 上的工作、字节跳动的 Verl,以及 MiniMax 在 scaling、lighting 和 attention 等技术方面的贡献。我想知道,如果完全没有出口管制,这四项里哪一项可能根本不会发生?
Matt: 我几乎觉得,很难明确地说哪些创新一定是由出口管制直接催生的。我很喜欢拿 Muon optimizer 举例,因为它最初的工作其实并不是起源于中国,而是起源于美国。最早有一篇论文发表了相关工作,后来又被后续实验室不断接力推进。
正是这种迭代式工作,才让我们能取得今天这样的进展,对吧?我非常希望看到更多人拥抱这种开放科学:你创造一个东西,别人把它改进,再有人继续在此基础上优化。
我们在 LLM 的演化过程中已经看到了这一点。Transformer 架构被不断修改,出现了更多优化、不同形式的 attention,以及所有这些帮助我们构建更高性能系统的创新。
我觉得这非常重要。而且我们也正在看到同样的事情发生在技术栈更高层。不只是模型和 AI 研究层面,也包括更高层的框架、Agentic framework,以及各种 harness、scaffolding 和其他以开放形式发布出来的组件。
很明显,OpenClaw 在中国非常火,而现在 Hermes Agent 也非常火。我觉得我在这次大会上几乎和每个人聊,他们都在跟我谈这个。开放创新、开源创新,往往最容易吸引关注,也最能吸引社区参与,邀请开发者贡献。所以我认为,研究端的这种并行关系,在开源软件开发一侧也同样成立。
“手头只有 200 万美元,千万别想着去开一家 AI 实验室”
主持人: 对,OpenClaw 在中国确实太夸张了,体量非常大。但我感觉它现在也开始有点……像是到顶了,然后开始平台化甚至下滑。现在甚至已经出现一整套“怎么把它从你电脑上卸载掉”的服务了,毕竟大家之前都装过,对吧?
不过很有意思的是,你对开源 AI 模型的立场是什么?假如今天观众里有一位创始人,正在做 AI,拿了 200 万美元融资,账上 runway 还能撑 18 个月,你会建议他基于什么去构建?Claude?还是别的什么,DeepSeek、Qwen?你怎么看?
Matt:如果你只有 200 万美元,我会强烈建议他不要自己开一家 AI 实验室,因为那肯定不够……
主持人: 不是训练模型呢?我是单指做 AI 应用。
Matt: 我觉得,在做产品这件事上,现在仍然有非常多创新机会,也非常适合创业公司。关键是你必须找到自己的 niche(细分定位)、自己的垂直领域。你是要做金融相关的东西?还是要做某个特定行业?还是你要提供某种通用型专业服务?
我不觉得我能给出一个放之四海而皆准的答案……当然,大家都很喜欢 Claude Code,它是个非常优秀的工具。至于到底是使用本地基础设施或自托管基础设施上的开放模型,还是使用像 Fireworks、Together 这样的推理服务商,或者干脆直接使用付费 API,我觉得这取决于你作为一个组织的具体需求。
如果你是一家创业公司,通常来说,使用开放模型能让你用更少资源做更多事情,而且可以形成一种很顺滑、低摩擦的方式,把 token 成本压低,从而把更多资金投入到营销、团队增长等方面。
但反过来说,如果你用 API,管理上的额外负担会低很多。所以我觉得这两条路线都很好,关键还是看你的创业公司是什么情况、想实现什么目标。
主持人: OpenAI 刚刚停止了他们的模型微调服务,所以如果你想做一件特别聚焦、重复性很强、同时又非常讲成本效率的事,实际上你现在几乎只能去微调开源模型了。
Matt: 对。我也很希望看到更多经过微调的开放模型被分享出来,并形成一个很好的生态。Hugging Face 和 ModelScope 上都有很多这样的模型,但在一片模型海洋里,搞清楚哪个最适合自己的应用,有时候也确实很难。
如果能有一个值得信赖的微调模型生态就很好:你知道模型来源,知道它最初基于什么模型构建,也知道它是不是把原本受限许可的模型重新换了个宽松许可再发布出来……这些信息都非常关键。因为在你围绕某个微调模型开展商业化之前,你必须确认它的许可证,和你原先理解的是一致的。
主持人: 我想Meta 的 Llama 就是一个例子,对吧?它在应用层面的许可其实是相当受限的。从你推动的开源框架,尤其是和 AI 模型相关的那套框架来看,你觉得今天谁最接近你们所设立的“真正开源模型”的标准?是 DeepSeek?Llama?Qwen?Mistral?
Matt: 这个问题我觉得可以分成两部分来看。
第一部分是:凡是使用宽松许可证的模型——而且今天它们本质上都在使用软件许可证,所以像 Apache 2.0 或 MIT——这些模型就是最“宽松”的,对吧?因此,任何 DeepSeek 模型、任何 Mistral 模型,以及来自 AI2 或 MBZUAI 下 LM360 计划的那些模型,都属于你可以“用于任何目的”的模型。无论是研究,还是拿来做应用,还是围绕它创业,都是可以的。
而所谓 community license(社区许可证)则是附带限制的。它可能会有使用量触发门槛,等等。所以你需要有辨别力。凡是这种社区许可证,里面防线都会有某种条件:一旦触发,你就得重新谈授权,或者只能非商业使用,或者只能研究用途等等。所以读许可证非常重要。把许可证丢给你喜欢的 agent,或者直接扔给 ChatGPT,让它帮你提炼重点,也很有帮助。
这是第一部分。第二部分是:开源软件许可证本来是为软件设计的。几年前,我们在 Linux Foundation 启动了一项工作,想专门为模型设计一套许可证。大概三四年前,或许已经四年了,我们开始推进“模型开放性框架”,想定义:什么算是开放模型?什么又比它更进一步,可以称为开放科学?
所谓开放科学,意思是你发布的不只是模型及其权重,还要发布所有数据集、所有训练代码、所有 recipe(训练配方)、各种 benchmark(基准测试),以及其他所有帮助你得到最终产品的附属材料。
我们已经看到一些不错的实践。AI2 在这类开放科学路径上做得很好,他们让社区能够复现自己的工作。我们所追求的就是这种开放科学,这对教育、可复现性、透明度和研究目的都非常有价值。
但如果只是从“足够让你开展业务”或者“满足较低程度研究需求”的最低可行要求来说,通常只要有模型和权重就够了,对吧?我们把这定义为 open model(开放模型)。
当时——其实现在也还在广泛使用——大家有个词叫 open weights。虽然这个词听起来好像“开放”,但实际上它通常被用来指那些带有限制许可证的模型,也就是有附加条件的模型。而我们所说的 open model,是指使用宽松许可证的模型,也就是你对它的使用没有限制。
在实践中,开放科学当然很棒,但只要牵涉到商业利益,大家往往还是会退回到 open model 的层次。毕竟,不是每个人都能复现一个一万亿参数模型,也不是每个人都有那个资源。所以我觉得,至少我们要确保这些使用宽松许可证的开放模型存在,而且整个社区都能访问。这样大家才能学会如何与这项技术打交道,才能在这项技术之上继续构建。我觉得这极其重要。
主持人: 在 Linux Foundation 当前的项目里,哪些最受社区和贡献者关注?你觉得现在最热的是哪些?
Matt: 肯定有很多关注集中在 Agentic AI Foundation、MCP 上。很多人都在构建 MCP server,也在自己的组织里集成 MCP。
Linux Foundation 有一个很独特的优势,就是我们拥有这些分布在不同技术栈层级的基金会。在应用层这一侧,我们有 Agentic AI Foundation 和它推动的一系列项目。对我们来说,这还是非常早期的阶段,对吧?这个基金会成立也就五六个月左右。现在参与其中的成员已经快到 200 个了。所以大家对 Agentic AI 的热情非常高。
当然,也有一些更成熟的项目,比如 Kubernetes。它对所有 AI 工作负载以及云工作负载都绝对至关重要。显然,Linux kernel 也非常重要,而且部署极其广泛。再往上我们还有 PyTorch Foundation,它旗下有很多处于 AI 基础设施层的项目,比如如何构建模型、如何训练和微调模型,以及如何在生产环境部署模型并提供推理服务。可以说,这些基金会都在这条技术栈中扮演着各自的角色。
主持人: 当我告诉我的工程团队,我今天要见 Linux 的 AI CTO时,他们第一个问题就是:AI 会不会被引入到 Linux 内核层面?你们有没有这方面的设想,或者某种计划?你觉得 AI 在这里能扮演什么角色?
Matt: 从根本上说,我没法代表 Linux kernel 开发那一侧发言,因为我并不参与 Linux 内核本身的开发。但我会说,AI 作为一种工具,已经在很多地方被广泛使用了,对吧?比如帮助优化代码。
对我们合作的一些项目来说,现在很多人都在问:如果他们想使用 Claude Code 或其他 agent,要怎么贡献代码?很多项目现在都已经制定了关于 agent 是否可以参与贡献的政策。
我们看到不少项目开始有点PR 的数量压垮了。因为现在很多几乎没有编程基础或项目知识的人,也能提 PR,这多少会让维护者有点应接不暇。与此同时,我们也看到 AI 被用来缓解这个问题,对吧?比如审查 PR、做归并整理。
我觉得我们现在正处于一个比较“混乱探索”的阶段,等大家把这些问题慢慢摸清楚以后,可能会进入一个更规范的阶段。但可以确定的是,coding agents 现在真的非常普及,尤其是在开源领域。看不同项目的核心维护者是如何处理这件事、如何面对不断涌入的 PR,其实还挺有意思的。
主持人: 从未来趋势来看,如果 AI 最终会成为主要交互界面,甚至是对话式 AI,那么我们现在习惯的操作系统界面——按钮、设置、命令行这些东西——还真的有必要存在吗?如果 AI 已经被嵌进系统底层,你只需要直接和它说话不就好了?
Matt: 虽然我们现在已经具备了 voice-to-voice 这类语音模型能力,但总体上你并没有看到人们像使用手机键盘那样频繁地使用语音,对吧?QWERTY 键盘依然是主流。所以我觉得 UI 仍然有存在空间。
主持人: 可能大家都被 Siri 创伤过。
Matt: 对,也许吧。但确实还是有很多人根本不喜欢语音界面。而且如果你身处公共场所,你真的想……
主持人: 也不一定非得是语音,也可以是对话式。核心问题是:现在出现了一层新的交互层,正在重新定义我们看待软件的方式。
Matt: 对。我觉得人们与系统交互的方式,确实正在随着 AI 出现转变。但这也和使用者是谁有关,对吧?消费者、工程师、研究者、开发者,他们不一样。
显然,更技术向的人会希望获得更深层的访问能力。我们已经看到越来越多 agent 通过 CLI 运行,或者直接集成 API。随着模型变得更有 agent 能力、更强大,我觉得我们未来可能会看到一套面向 agent 的接口,以及另一套面向人的接口。但至少目前,我们还是在同时训练模型去理解程序接口和人类界面。
“AI 永远只是个工具,出了事它连坐牢和承担法律责任的资格都没有”
主持人: 你刚才提到了 agentic AI、MCP,以及如今对 API 的访问方式……你也谈到过安全问题,尤其是关注点正从 LLM 本身的安全,转向 agent 的安全。你能不能多讲讲你是怎么思考这个问题的?
Matt: 安全显然对所有人都重要。对下游用户重要,对消费者重要,对构建系统的人也同样重要。
其中一个非常关键的点是:模型安全只是一部分。但当我们在模型之上构建系统——无论是 agentic system,还是未来其他形式的系统——就必须把安全性纳入其中。我一直鼓励“安全优先”的工程方式,以及“by design”的安全设计,因为你必须提前思考人们会如何使用你构建的技术,所以我们希望这些技术从一开始就是以负责任的方式被设计出来的。
与此同时,这也给创业者带来了很好的机会:去创建那些围绕安全与安保而构建的公司,去提供 guardrails(护栏)和 harness(控制框架),从而约束系统的安全行为。
在 agentic system 中,你从模型那里继承了很多东西,很大一部分都继承自模型;但你同时也在构建程序化脚手架。agent 本身是被代码化的,对吧?所以在这一层面上施加安全约束,同样也非常重要。
主持人: 如果你面对的是 agent swarm 或多智能体系统,安全性该怎么落实?毕竟和单一模型相比,你对它的控制其实没那么强。
Matt: 对于多智能体系统来说,安全必须内建在 framework(框架)里,对吧?框架和 harness 的作用,就是把它约束住、装进边界里。
多智能体系统在架构上有很多不同形态,比如生成子 agent、做多 agent 协调等等。对这类系统来说,安全必须体现在协议层,也就是说要在 protocol layer 上强制执行安全和安保要求,同时也要落实在真正运行 agent 的框架内部。安全必须在每一层都被考虑进去。
这和我们在 Web 世界里做的事情是一样,对吧?比如操作系统里有一层约束,程序本身里有一层约束,网络层和接口层也有约束。
很多时候,当你全力追求创新、不断试验、站在技术尖端的时候,安全和安保往往会变成最后才想起的事情。但这些问题必须被正视。所以,我们不仅要从网络安全、应用自身的安全和隐私问题出发去思考,也要考虑下游影响,比如对社会的影响、对环境的影响等等。
主持人: 我还想问你一个关于 LLM 的问题。大概一年前,你写过:所谓 reasoning,并不是人类意义上的推理,而是一种“伪推理”;模型其实并不会真正推理。现在一年过去了,我们看到这类“推理能力”已经显著增强。你的看法变了吗?
Matt: 对我来说,没变。因为这仍然不是人类意义上的推理,对吧?当我们说 next-token prediction(下一个 token 预测)时,我们是在通过文本、通过人类给出的示例,去模仿人的推理方式。
但我们人类平时并不是以 token 或书面形式来推理的,对吧?我们是通过大脑来推理。所以我觉得很重要的一点是,要意识到:LLM 所展现出来的“推理”,并不等同于人类层面的推理能力。但这并不意味着 LLM 的这种推理没用,对吧?它不需要和人脑推理完全同构,问题在于:它对应用有用吗?当然有。
它总是对的吗?不是。那人类总是对的吗?也不是。我觉得我们需要从这样一个视角来看:把 LLM 或聊天机器人“人格化”,或者在潜意识里相信我们正在与一个活着的人对话,是有些危险的。
主持人: 为什么?
Matt: 很多时候人们会深陷其中,甚至产生一种被它理解的幻觉,进而被引导做出一些极端的行为。我们需要时刻提醒自己,和我们对话的,只是一个被精心调校过的统计学系统。它在进行数据模式的匹配。有时,它只是在原封不动地把我们自己的执念和声音反射(echo)回来。
主持人: 我想说的是,我非常喜欢你把 LLM 的推理比喻成“鹦鹉”的说法——它可以复述人的短语,甚至整句话,但并不真正理解自己在说什么。
Matt: 对。不过我要说明一下,“stochastic parrot(随机鹦鹉)”这个类比并不是我最先提出来的。但确实,当我们训练 LLM 时,本质上就是在做模式匹配,对吧?而且通过微调和强化学习,我们其实是在有意地确保 LLM 能够遵循意图。
你给它塞进去一堆上下文,同时也表达你的意图,理想情况下,它会返回你所期待的那类结果。我觉得过去几年里,我们在数据配比和模型训练方法上确实做得更好了,这也带来了明显更好的结果。
主持人: 大语言模型的局限性很明显。你怎么看 Yann LeCun 现在在推进的那个所谓“世界模型”?
Matt: Yann LeCun 有他的 JEPA 架构,那是一种不同的理解方式,关于如何……不一定是顺序式训练,而是……
我觉得这很好。对我来说,我对 world model(世界模型)的兴趣更多和机器人、具身智能有关。如果你认同这样一种观点:要实现 AGI、超级智能,或者无论你最终追求什么,就必须具备和人类似的全部要素——多感官输入、对物理规律的理解等等——那么世界模型就说得通,对吧?
当然,对“世界模型”到底是什么,也有不同看法。有人说它是视频、图像和文本;也有人说,不,你还得能够在里面构建三维空间。
主持人: 还得能接收实时指令。
Matt: 对。所以世界模型会有不同的路径。假如你是做机器人的,你关心的是 action(动作)。你关心的是:不仅要感知世界,还要预测结果,对吧?比如“我的机器人下一步要怎么抓这个物体?” 这意味着你触发的是行动,你关心实时感官输入,也关心执行器的驱动能力等等。
所以它取决于你的出发点。“世界模型”在不同语境里意味着不同东西。甚至游戏玩法、游戏生成,或者“选择你自己的冒险”那种互动电影,也都可能从世界模型中衍生出来。我非常好奇接下来会怎么发展。扩散模型和 Transformer 目前还是主流架构,除非你走的是 JEPA 这条路线。
主持人: 你提到了机器人。你这次也见了宇树的创始人,以及中国其他一些机器人公司。你还暗示过,这个行业正在局部进入泡沫期,只是你当时没有细说是哪种泡沫。你能不能展开讲讲你的观察?
Matt: 对。全球范围内都有很多机器人公司,但中国尤其多。光是做人形机器人的公司,大概就有 150 家以上。大家都在争夺一个目前还很小、但正在增长的市场。
那些真正能够解决机器人核心难题的公司——比如手部灵巧度问题——才会更有机会。自主性问题现在也还没解决。现在很多机器人系统其实仍然是远程操控的,或者是高度编排好的、提前写好程序的。所以 autonomy(自主性)还没有真正被攻克,而很多人都在做这件事。
我看到的是,中国机器人创业公司在机械、物理、执行器设计、以及把所有零部件整合起来这方面非常强。而美国机器人公司则更聚焦于“大脑”——也就是背后的 AI,以及支撑机器人的多模型系统。
确实有可能出现“太多了”、过度饱和的情况。这在任何行业里都会发生:当大家一拥而入的时候,总会如此。但中国机器人公司这一块,是北京明确优先推动的方向,所以他们对这个生态做了很多投资。就像任何市场一样,最后一定会有赢家和输家。接下来几年,我们大概就会看到,谁会真正脱颖而出,谁又无法在顶级竞争中继续站稳。
“‘我们自己能做得更好’这种幻觉,正在让很多企业空手而归”
主持人: 我很想听听你对这个问题的看法。你在企业技术领域干了很多年、很多个十年,现在又在这个前沿层面上和很多 AI 公司打交道。从你的观察来看,企业在尝试应用 AI 时,最常犯的错误是什么?无论是他们看待 AI 的方式,还是他们在战略上如何把 AI 引入工作流、寻找可落地的商业模式或内部自动化机会——你的看法是什么?
Matt: 我不觉得企业在“采用 AI”这件事上存在问题。我觉得真正的挑战在于:如何在企业里“成功部署 AI”。而导致失败结果的因素,其实有很多。
其中一个,就是那种“我知道我能把这个做得更好”的心态。于是企业不是去买现成方案,而是自己造;但问题在于,你并没有相应的人才储备。于是你花了很多时间做实验,消耗了大量周期和资本,试图做出某种“新东西”,可实际上,生态里可能早就已经有了成熟的核心组件。
开源想做的一件事,就是提供这些基础组件,让组织可以站在它们之上继续搭建,而不是从头全部重造,对吧?现在大家都在跑,尤其在 agentic AI 这边,有时候你会觉得“自己搭最有吸引力”,而不是去用一个已经由合作伙伴构建好的成熟框架。即便那个框架不是开源的,对方也可能提供专业服务,并帮助你走正确的路径。
所以我觉得,企业应该认真看待合作伙伴。不要把这当成一段必须独自完成的旅程。当然,会有很多顾问很乐意拿你的钱给你建议;但我最常看到的还是那种“我们能做得更好”或者“这我们自己也能做”的心态,最后结果却达不到预期。
主持人: 你能举一些具体行业或用例的例子吗?哪些场景里你看到这种思路经常失败?
Matt: 可以。不点名任何具体机构,几年前最典型的就是聊天机器人,对吧?“我们怎么在自己的基础设施上做一个更好的聊天机器人?”“哦,我们有数据,那就自己预训练一个模型吧。”——这就不是个好主意,对吧?
市面上已经有很多优秀的预训练模型。你完全可以从这些基础模型出发,再自己做微调。但我们当时看到很多企业直接去训练模型,而这通常都是个坏主意。如果你不是一家实验室,那就不要把重心放在那里。
我知道有很多组织试图自己预训练模型,最后都不了了之,烧掉了大量资金,却几乎一无所获。所以我的建议是:站在现有的积木之上继续搭。现在开放生态里已经有很多很棒的东西,我们当然希望看到更多。我们希望看到更多真正开放、真正采用宽松许可证的模型。我觉得我们拥有一个充满活力的项目生态非常重要——这些项目不仅帮助“开发 AI”,也帮助“应用 AI”。
主持人: 我知道的一个例子是 Revolut。他们发布了自己的模型,不过按他们的说法,那不算语言模型,而是更多基于他们内部数字和数据训练出来、供内部使用的模型。我猜,一方面可能是因为他们当时从现有项目里可选的不够多,另一方面,大规模数据和隐私敏感性可能也确实会把他们推向这条路。我们拭目以待吧,这毕竟只是第一版,还得看会不会有第二版。
除了“我们内部做得更好、而不是用现成模型”这一类问题之外,现在企业在管理层面或业务层面,做 AI 时还有哪些常见错误?
Matt: 另一个关键点,是要识别“低垂果实”(low-hanging fruit)。当你在看可探索的用例时,不要一开始就伸手去够最高那层架子上的东西,不要上来就挑最复杂、风险最高的用例。
你一定要对用例做风险评估。要确保你选择的是那些既可实现、又能真正带来优化与自动化收益的用例。如果它不能,那你做出来的东西就只是一个“看,我们也能做”的演示品,却没有给组织带来任何实实在在的回报,那这件事显然就不值得做,对吧?
你要确保自己是在做那些可以落地的用例,而不是花 6 到 12 个月造一个东西,最后却一无所获。当然,风险评估也很重要,因为很多人都对这样一种前景感到兴奋——
其实昨天还聊到一个话题:你会愿意让一个 agent 代你投资多少钱?我觉得随着时间推移、随着它们变得更可靠,人们会越来越愿意让它们替自己投资。但现在,大家的态度还是:“我可不想让 agent 碰我的钱。”
我们已经看到过一些聊天机器人或客服 agent,本不该退款却退了款,或者被 jailbreak 之后做出错误行为。所以,还是要回到安全、安保和隐私这些基本问题上:你必须有非常强的安全姿态,必须设置牢靠的 guardrails。因为你肯定不希望发生数据外泄,或者个人信息泄露这类事情。
很多这类系统,必须通过代码以确定性的方式去构建,而不是每次都依赖模型去正确执行你的意图。
主持人: 对,我刚意识到,单靠 prompt 里的那些 guardrails 可能并不是最好的做法,对吧?也许应该在用户和 LLM 之间硬编码一层“感应器”或拦截器,专门处理各种边缘情况。
Matt: 对。
主持人: 说到 agentic AI,现实里你有没有看到过什么成功案例,是自主 agent 在日常工作中完全替代人类的?
Matt: 我会说,大家对“自治”在 agent 里的含义其实理解并不一致。我见过最极端的一种说法,是把 agent 想象成某种完全主权化、漂浮在以太中的存在,自己跑出去把事情都做了。
但说到底,你希望 agent 真正做到的,还是它定义上的那件事:代表你工作,帮你达成某种结果。
我现在看到能量最集中、关注最多的,大概有两个方向。第一个是基础积木。我还是会回到“积木”这个概念:有这些开源的基础组件,你可以在上面继续搭,无论是像 MCP 这样的协议,还是某种通用型 harness,或者其他可以用来构建 agent 的组件。再比如 skills,把这些东西组合起来,做出真正有用的系统。
我觉得现在很多人都在聚焦这一层:做协议、做标准、做规范、做框架,以及各种可复用的 skill 组件。
第二个方向是落地应用。不过现在这些都还很实验性。在采用层面,真正最有价值的,还是那些更简单的用例,对吧?所以你得穿透很多噪音。总有人说自己靠一个金融 agent 一夜赚了一万亿美元,或者“我把团队都裁掉了,现在我有 50 个 agent”。
主持人: 对,“我现在没有员工了,我是 one-person company。我原来有 500 个员工,全裁了,现在只剩 12 个 agent。”
Matt: 对,这种话你必须学会过滤。你得现实一点。很多人对“一个人开公司,把自己彻底解放出来”这种前景充满想象,这当然很好。AI 让一些人能做以前做不到的事情,也能自动化他们大量日常工作。
但我们普遍并没有看到一个 agent 独立完成整个工作流。通常是:这个步骤用一个 agent,那个步骤用一个 agent,再另一个步骤用另一个 agent。
比如报税。如果你不想自己翻收据、做汇总,你可以把收据扫描,或者把 PDF 丢给一个 agent,让它帮你做表格、算总额、把材料整理好,然后你再去核验,最后提交报税。
所以,现实里有很多细腻、具体的用例。但有一件事始终重要:你必须验证。尤其如果你在做应用,你一定要 benchmark(做基准评估)。很多时候你还得自己设计 benchmark,因为你必须确认它在你的场景下确实有效。在你把东西上线、或者真正投产之前,确保你有正确的 benchmark,这非常重要。
主持人: 说到企业内部的 AI 采用,对于不同规模的公司,最佳策略会是什么?应该从哪里开始?今天如果有人在经营一家公司,做法会有很多种,对吧?有些老板会说“所有人必须用 AI”;还有的说“谁不用 AI 我就不给奖金”,甚至“谁不用我就罚谁”。从你的角度看,第一步、第二步、第三步,应该怎么走?
Matt: 我觉得有一点非常重要,需要先认识到:你并不一定非要直接和 AI 交互,才能获得 AI 带来的收益。AI 正在一点点进入你所使用产品的功能之中,对吧?
所以,无论你是不是直接使用 GPT 或 Gemini,其实都不是唯一途径。像 Adobe 这种策略就很好:把能力集成在幕后,在产品里加入更多生成式功能、更多 agentic功能,用这种方式提升企业生产力。这是一种很好的路径。
因为对采用者来说,这是“阻力最小”的方式。你不一定非得直接操作这项技术。
主持人: 比如在客服层面这样做。
Matt: 对,正是如此。所以即使你是企业,也可以去跟你的供应商、产品提供商沟通,说:“我们希望你把这个功能做进去。” 让他们替你构建,这样你就不必自己去补齐这部分能力了,对吧?因为你把这项功能开发外包给了你的第三方供应商——也就是那些为你提供应用软件的人。
这是最轻量的一种方式,对吧?尤其是如果你并不是一家 AI-native 的组织,内部也没有足够熟练的人才。
主持人: 所以就是:去找你的 vendor,让他们把 AI 驱动的功能做进去。
Matt: 对。尤其如果你是一家 100 人公司、50 人公司,真的没必要什么都自己造,对吧?你应该更多借助你的 vendor。
如果你是更大的组织,我总是会说:去找顾问。不要假设自己第一天就能把所有东西都学明白。
如果你是硅谷创业公司,那你大概率会更倾向自己做。但如果你的业务目标不是做 AI 本身,也不是做 agentic-first 公司,那你还是应该更多利用外面现成的工具。
这也是为什么开源如此重要,对吧?能够接触到这么多工具、这么多组件,用来构建你的产品、服务,或者增强你内部系统。
如果我们讲的是企业,要和大量遗留系统、后台系统打交道,要利用自己的数据,那现在已经有很多工具,能把原本属于经典 SQL 世界的数据接到语言模型里。
现在市面上真的已经有很多很好的产品了。很多当然是商业产品,但关键还是:你必须先明确自己的用例是什么,对吧?我不会建议你在还没明确问题之前,就先去找解决方案。
说到底,还是回到第一性原理:对你的组织来说,最重要的用例是什么?你能通过自动化实现哪些最大化优化?你会通过哪些方式实现成本节省?诸如此类。你必须非常聚焦于自己真正要解决的问题。
主持人: 但如果你让 vendor 帮你做这些事,那你的竞争对手也都能拿到同样的能力。那你就没有优势了。
Matt: 当然。这就要区分“差异化”和“生产力提升”了。内部生产力是一回事。有时把那个功能外包给供应商并不明智。但在差异化因素上,这才是你应该投资的地方,对吧?如果你要让自己和竞争对手区分开来——如果你的唯一优势只是理赔处理得更快,如果你是在保险行业,那算不上真正的护城河,对吧?这确实能让你跑得更快,提供更好的客户服务,但终究还是要找出这些差异化因素,并看看 AI 是否是个好的解决方案。
AI 并不总是万能药,对吧?生成式模型也不见得能搞定所有事情。我记得很清楚,大模型刚出来那会儿,大家都说:“防欺诈检测,我得用大模型。” 根本不用,你手头明明有非常好用、也更精准和稳定的经典机器学习模型,完全能搞定识别网络里的违规设备或者欺诈交易,而且准确度更高。
所以你没必要仅仅因为它最新、最潮,就非要把一切都挪到大模型上。
主持人: 是的。而对于差异化,你应该自己投资去建;而对于内部优化,你最好去用现成的供应商,我非常赞同。因为内部优化的上限是高度受限的。
Matt: 是的。在那个领域里,去创新和自己建更合理,或者至少找个能帮你在那个空间创新的供应商合作。
因为所有人终究都会做内部优化,如果你把所有钱都花在这上面,可能并没有产生真正的差异化优势。
主持人: 你提到了 AI 原生公司。如果企业不是 AI 原生公司,可能就不应该硬做。但企业能不能自己做一个 AI 实验室,或者分拆一个项目出来?什么是真正的“AI 原生”?
Matt: 如果你是一家已经很成熟的公司,想变成 AI-first,大致有两种路径。
一种是把 AI 能力嵌入组织内部。也就是说,在每个团队里都配备一个非常懂 AI 的人,不管是应用开发层,还是技术栈更底层。
另一种,是建立一支专门团队,去和公司各个部门协作,帮助他们上手、受训、并在不同程度上应用 AI。
因为我们现在谈的是企业、创业公司,以及各种各样不同的组织。它们对 AI 的需求不同,内部构建能力的条件也不同。
如果你是创业公司,那 AI-first 绝对是正确方向。你想在这个领域竞争,如果你不用 AI,就会被甩在后面。
但如果你经营的是物流,比如航运物流,那 AI 的应用空间很多。也许最合理的做法,是建立一个小团队,专门去研究这些用例:我们需要构建哪些工具?哪些可以采购?哪些能帮助解决特定问题并实现优化?
低垂果实其实很多,比如客服聊天机器人。再往复杂一点,比如一些创业公司开始尝试替代呼叫中心。
主持人: 说到客服。现在有了 MCP 之后,你的 agent,或者像 Claude 这样的开放式系统,已经可以原生地通过 MCP 替你执行某些动作了。那问题就变成:如果你的 agent 可以直接连到商家的 agent,代替你和对方沟通,那你还真的需要客服团队吗?或者说,未来两三四年内,我们还真的需要网站、需要自己去订机票和酒店吗?如果你只要对自己选择的 LLM 提供商说一句“帮我订张票”就行,那这一切还需要吗?
Matt: 对。我觉得每个人都希望拥有这样一个私人 agent:它能代表你行动,了解你的偏好,能主动替你做决定,理解你的意图,并且在商业环境或其他系统中处理不确定性,以一种负责任的方式替你完成事情。
当然,human in the loop 依然很重要。假设我告诉 agent:某款沙发降到某个价格以下时就替我买。这个用例很简单。但中间可能有一些细微之处,是人类能识别出来的:比如价格趋势实际上还在继续往下走,而且我从其他信息源知道它可能还会再降。那即便它已经触发了购买阈值,我可能还是想再等等。
股票、加密货币这些也是一样。有些事情,可能还是我们人类自己更适合做判断。
但如果说到购买行为,我还是会回到那个问题:你到底愿意把多少信任交给你的 agent?不过我当然会更愿意让一个 agent 去帮我买票、安排行程、确保一切都安排妥当,并且以一种没有意外、能体现我偏好的方式完成这一切。
所以我觉得,这就是未来几年我们会前进的方向。我认为,我们会越来越多地看到这一点真正落地。现在已经有一些不断演化中的规范和标准出现了,它们会帮助构建 agentic interfaces,推动这一层标准化。
比如你的在线商店,不再只是一个给人类用的界面,让你点来点去选商品;它也可能变成一个更偏文本驱动、更适合 agent 交互的界面。
我们已经看到很多这类趋势。同时,我们也看到很多关于微支付、支付通道以及 agentic AI 配套系统的创新。
在 Agentic AI Foundation,我们从第一天开始就设立了七个不同的工作组,关注的内容从监管问题,到安全、隐私、可靠性、可观测性——这些都是 agentic AI 必须解决的领域。
在这个过程中,我们会逐步看到一系列新标准、新规范、新方案和新想法涌现出来,由社区采纳,帮助构建一个非常强健的生态,构建网络,构建这样一个空间:让我们能够赋予 agent 一定程度的责任,让它们真正代表我们去行动。
我觉得大家都对这个想法非常兴奋,尤其是在中国。比如 OPC(一人公司)那种“自己坐着不动,所有 agent 都在外面帮我赚钱”的想象,当然谁都会很兴奋。
那我们该怎么走向这种经济形态,也就是不断演化的智能体经济?现在已经有一些关于自主主权智能体的设想,也有一些关于 agent 如何在区块链上行动、如何在传统商业体系中行动的设想。这一切都非常令人兴奋,也带来了很多创新机会。
我觉得这也是为什么我们会看到这么多高度聚焦 agent 的创业公司。诚然,“agent”这个词在很多场景里可能已经被过度使用了,但我认为,这里确实存在一个让创新者解决真实问题的机会。
“现在开源社区里,你几乎不得不使用 AI 去对抗 AI 带来的海量垃圾”
主持人: 很有意思。回到你自己,回到 Linux Foundation。我不确定你现在是否还亲自写代码,但至少你的工程师团队——他们可以使用 AI 吗?可以用到什么程度?你们内部是怎么治理这件事的?大家通常会把 AI 用在什么场景?
Matt: 我们在 Linux Foundation 有很多很多项目。每一个项目对“如何使用 AI”都有自己的政策。但我会说,大多数项目都在使用 coding agents 来增强开发能力。
我本身也写代码,所以我最常用的工具也是 Claude Code,和很多人一样。我很认可它的实用性。它生成的代码我能直接发版吗?不能。我还是需要自己把各部分拼起来,跑单元测试之类的。但它在完成单元测试、以及生产化一个系统所需的各个环节方面,已经越来越熟练了。
不同项目对 AI 有不同政策。但可以肯定的是,在开源社区里,AI 的使用已经非常广泛了。很多以前根本不会写代码的人,现在也能通过对代码库跑一遍 AI,找一个可修可优的点,然后提一个 PR。这让很多维护者不得不面对海量 PR,逐个查看、整理、筛选。
而在这个链条的另一端,我们又看到很多人开始用 AI 去审查这些 PR、合并修改、验证它们是否真的是可接受的 PR。所以我会说,现在几乎所有人都在以某种程度使用 AI,因为你几乎不得不使用 AI 去对抗 AI 带来的效应。这件事挺有意思的。
主持人: 我觉得工程团队现在确实有点头疼:业务团队拿着用 Claude 搞出来的东西跑过来,说“看,我这边都能跑,为什么你们做不到?” 我感觉某种共识正在形成:工程团队和业务团队之间的距离其实在缩短。因为业务团队现在确实可以通过 vibe-code 做出 MVP、做出产品原型,对业务逻辑进行快速试验、调整和迭代;而工程团队则可以从中获益,因为他们能直接看到业务逻辑被实现出来,哪怕那段代码本身未必真的能拿来用。
Matt: 对。软件开发生命周期正在被压缩。现在从需求走到 POC 更容易了。但能生成代码,并不意味着代码就是优化过的;也不意味着它是安全的。所以开发者仍然有很多工作要做。
主持人: 对,你还得做生产级扩展、安全性、这些所有东西。如果你只是刚开始用 Claude Code,大概率还做不到这些。
最后一个问题:如果你今天是创始人,手上有 100 万美元,你现在会投什么?在这个领域里,你现在最会专注做什么?
Matt: 这是个非常开放的问题,因为每个人都得先想清楚,自己要如何在市场上形成差异化,对吧?
主持人: 那你觉得机会在哪儿?从细分赛道、行业或者“低垂果实”的角度看,你会怎么看?
Matt: 因为我一直是从开源视角看问题,所以我打从心眼里更偏好那些解决实际问题的通用系统。我非常看好 agents。它们现在还不擅长处理长时程任务,而且多智能体系统、安全、安保方面还有很多问题需要解决。
我希望看到、但现在还没看到足够多的,是那些聚焦于 agentic system 的安全与隐私的公司。市面上当然有一些创业公司在做,但更多是针对某些特定场景,而不是通用型应用。
我看到有一些团队在金融这类强监管行业里,为特定系统构建脚手架和 guardrails。但更一般化的问题是:我们如何把这套东西推广到更通用的场景?我们能不能像在确定性系统里那样,构建通用型的安全与安保系统?我们该如何把这件事应用到随机性空间里?
我很希望看到有人往这个方向努力,尤其是在提升可靠性方面。在 agentic AI 里,LLM 的失败模式是会被继承下来的,对吧?幻觉,会被 agent 继承。
当然,借助 agent,我们可以增加更多确定性层,把 harness 里的上下文收得更紧,让系统更聚焦。但与此同时,你不可能仅靠模型解决一切。你必须采取一种“构建系统”的方法,对吧?你要做的是一个系统,而不是把全部精力都压在模型本身上。
我认为,这正是我们放大当今 LLM 能力的方式:不是单盯着模型,而是在模型周围构建系统。