英伟达NitroGen模型通过观看4万小时带手柄操作显示的游戏直播,成功学会1000+款游戏操作,无需读取游戏代码,实现通用游戏AI的重大突破。
技术原理:从"云玩家"到"游戏通才"
传统游戏AI存在两大局限:要么依赖游戏内部API(相当于"开挂"),要么只能针对单一游戏训练(严重"偏科")。NitroGen采用革命性的"观察学习"方法:
数据收集创新
研究团队从YouTube/Twitch筛选出7.1万小时带手柄浮窗的游戏直播,最终精选4万小时涵盖1000+款游戏的数据。通过SIFT特征匹配+SegFormer分割模型,实现96%的按键识别准确率。
模型架构
采用ViT+DiT混合架构:SigLIP2视觉编码器处理256×256游戏画面,扩散Transformer生成16步连续动作序列。这种"看图动手"的能力,使AI具备类似人类的游戏直觉。
实测表现:跨游戏泛化能力
| 测试场景 | 零样本表现 | 微调提升 |
|---|
| 新游戏适应 | 直接可玩 | +52%成功率 |
| 3D动作游戏 | 战斗任务81%完成率 | 仅需30小时数据 |
| Roguelike游戏 | 适应程序化地图 | 非死记硬背 |
开源生态:降低研发门槛
英伟达此次采取完全开源策略,发布三大核心组件:
GameVerse-1K数据集:4万小时带精确动作标签的游戏视频;
通用评估环境:支持任何商业游戏的标准Gymnasium API接口;
预训练模型权重:可直接微调适应新游戏。
未来展望:从游戏到现实
NitroGen基于英伟达GR00T机器人基础模型构建,其技术路径清晰指向物理世界应用:
技术迁移路径
游戏中学到的"感知-决策-行动"闭环,可直接迁移到机器人控制。虚拟世界的千万次试错,正在为现实机器人打造通用运动控制策略。
分层智能架构
未来系统将采用三层架构:顶层GPT-5.2负责战略规划,中层NitroGen处理运动控制,底层GR00T实现精细操作。这种"大脑+小脑+脊髓"的设计,有望突破莫拉维克悖论。
"游戏不再只是娱乐,而是AI理解物理世界的预科班"。从《塞尔达》的谜题到现实世界的洗碗机器人,NitroGen正在证明:虚拟世界的智慧,终将照亮物理现实的每一个角落。
更多内容请关注↓