最近一周AI科技圈又发生了啥新鲜事?
谷歌发布Gemini 3.1 Flash Live
谷歌推出最高质量的音频与语音模型Gemini 3.1 Flash Live,重点升级实时语音Agent能力,支持语音直接驱动应用开发、多模态对话及复杂任务执行。该模型在响应速度、上下文记忆及多语言处理上显著优化,上下文窗口提升至此前的2倍,Search Live覆盖200多个国家和地区;评测数据显示,其在ComplexFuncBench audio测试中函数调用准确率达90.8%,Audio MultiChallenge音频输出榜单得分36.1%,均优于GPT-Realtime-1.5、Qwen3 Omni等竞品模型;目前该模型已通过Gemini App、Search Live及Google AI Studio向开发者开放
https://mp.weixin.qq.com/s/c5vp_7bB3Hm2MH5veyaGng
谷歌发布 Lyria 3 Pro 音乐模型
谷歌推出旗下最先进的音乐生成模型 Lyria 3 Pro,该模型在编曲结构和生成时长上实现显著突破,能够精准处理前奏、主歌、副歌及桥段等复杂要素,支持生成最长约为 3 分钟的完整高保真音轨。在内容安全与合规方面,模型被设定不会直接模仿特定艺人风格,且所有生成音频均内置不可见的 SynthID 数字水印以标识来源;训练数据仅来源于符合服务条款及法律规定的授权内容。目前,Lyria 3 Pro 已深度集成至谷歌多个核心产品线
https://blog.google/innovation-and-ai/technology/ai/lyria-3-pro/
OpenAI突发宣布关停Sora
OpenAI突发宣布全面停运Sora视频平台,涵盖消费端App、开发者API及ChatGPT视频生成功能,这一决策距离其去年9月高调上线仅过去七个月。数据显示,Sora上线初期虽因趣味表情包引发热潮,但随后留存率断崖式下跌,30天留存率仅为1%,60天留存率归零;且单次生成成本高昂(10秒视频起步1.3美元,复杂场景高达33美元),年化运营成本约55亿美元,导致商业模式完全不可持续。此次关停是OpenAI整体“瘦身”战略的一部分,旨在削减非核心支出以聚焦变现,公司将资源转向代号“Spud”的下一代主力模型及Agentic AI等高生产力场景,Sora研究团队则将专注于长期的世界模拟与机器人方向研究
https://www.bbc.com/news/articles/c3w3e467ewqo
MiniMax 开源 Office Skills
MiniMax 开源一套名为 Office Skills 的生产级办公文档引擎,包含 MiniMax-docx、MiniMax-xlsx、MiniMax-pdf 及 PPTX-generator 四大核心工具,旨在解决 AI 生成文档“能打开但不可交付”的痛点。该套件基于 MIT 协议开放源代码、设计选型思路及自进化机制,针对不同格式采取差异化技术方案:采用 .NET OpenXML SDK 确保 Word 复杂排版合规,直接操作 XML 节点保留 Excel 数据透视表与公式,结合 HTML/CSS 与 ReportLab 双引擎实现 PDF 封面与正文的高质量渲染,并通过 PptxGenJS 保障 PPT 视觉风格一致性。配套提供 13 个 Python 工具脚本、34,000 字金融格式化标准文档及 15 种 PDF 封面设计模式,支持开发者构建高保真、可直接用于专业办公场景的 AI Agent 应用

github.com/MiniMax-AI/skills
Python库LiteLLM遭投毒,Karpathy与马斯克发声,建议立即排查
知名Python库LiteLLM(GitHub超4万星,月下载量9700万)在PyPI上遭遇供应链攻击,被植入恶意代码的1.82.7和1.82.8版本会窃取SSH密钥、云凭证、环境变量及Kubernetes配置等敏感数据,并通过硬编码RSA公钥加密外传至攻击者服务器;攻击者利用窃取的PyPI发布令牌绕过GitHub审查直接上传毒包,导致依赖该项目的生态系统面临严重风险。该恶意代码因存在分叉炸弹Bug导致机器崩溃而意外暴露,英伟达科学家Jim Fan等人指出此类攻击可能引发代理间的连锁污染;目前官方已撤回相关版本,安全团队建议开发者立即检查并卸载受影响版本,清理缓存及系统持久化后门,并强制重置所有可能泄露的凭证以降低损失
https://snyk.io/articles/poisoned-security-scanner-backdooring-litellm/
阿里达摩院发布玄铁C950:全球最强RISC-V CPU
阿里达摩院发布其新一代旗舰RISC-V CPU IP——玄铁C950,该处理器在SPECint2006基准测试中单核性能突破70分大关,主频高达3.2GHz,成为目前全球性能最强的RISC-V CPU,通用算力逼近AMD Zen5与Intel GNR等高端产品。为应对AI Agent时代的算力需求,C950首次集成RISC-V原生AI计算引擎,包含4K超宽Vector引擎与Matrix矩阵引擎(单核算力达8TFLOPS),成功实现RISC-V架构首次原生流畅跑通Qwen3与DeepSeek V3等千亿参数大模型,其中Qwen3输出速度达34 Tokens/s。该芯片支持国际最新RVA23.1规范,通过软硬件协同优化,云网络与存储性能较主流产品提升超30%
https://mp.weixin.qq.com/s/9BfUPT0kljNuca0LnL7yiA
通义实验室开源PrismAudio
通义实验室正式开源PrismAudio,作为首个结合强化学习与思维链的视频生成音频框架,其核心突破在于解决了传统模型难以兼顾语义一致性、时序同步性、美学质量及空间准确性的痛点。该模型采用“先思考后发声”机制,通过语义、时序、美学及空间四位“老师”分别打分并利用Fast-GRPO算法进行高效训练,实现了生成过程的多维权衡;实测数据显示,该模型仅需0.63秒即可生成9秒音频,且在VGGSound及自建AudioCanvas等多个测试集上,其CLAP、DeSync等核心指标均全面超越现有SOTA方法;此外,该模型仅含5.18亿参数,具备极高的轻量化与实用性,目前已在Hugging Face及魔搭社区开放模型权重与体验空间,相关研究已被ICLR 2026收录
https://prismaudio-project.github.io/
首个国产企业级满血版OpenClaw“DuMate”
百度推出企业级OpenClaw产品DuMate(中文名“搭子”),作为国内首个全量开放的国产满血版AI智能体,原生支持Word、Excel、PPT等主流办公软件并内置百度搜索Skill以提升任务完成率。该产品核心采用预装安全沙箱技术,实现与本机环境隔离及高风险操作强制授权,确保企业级数据安全与审计合规;功能上主打“办公操作自动化”,可自主完成跨应用复杂任务,涵盖文件智能管理、多源数据清洗关联计算及可视化分析等场景,且具备基于上下文与用户习惯的持续进化能力。目前DuMate已构建涵盖云端、手机、桌面及家用场景的“龙虾全家桶”生态,用户可直接通过官网领取使用
dumate.baidu.com
微信推出官方ClawBot插件
微信正式上线「ClawBot」插件,旨在实现与OpenClaw的无缝对接,用户可通过“我-设置-插件”路径查看指令并扫码连接,从而在微信聊天界面直接调用OpenClaw进行高效互动,支持如“收集用户需求并生成文档”等复杂指令。该插件目前处于逐步放量阶段,需更新至最新版本方可使用。此外,腾讯“养虾车间”生态已全面就位,包括云端虾Lighthouse、自研虾WorkBuddy及本地虾QClaw等均已支持微信通道直连,配合腾讯云Coding Plan集成的Tencent HY、GLM、Kimi等主流模型,用户可随时随地通过手机远程控制PC端AI代理,实现全场景智能办公与任务处理
https://mp.weixin.qq.com/s/o_FPvJ0tY6aGqGn4Ea7Rpw