当前位置：首页>java>OpenAI Codex AI编程新范式,VSCode时代终结?Kimi2.5 Code榜开源第一,Sonnet 5 下周发布?

OpenAI Codex AI编程新范式,VSCode时代终结?Kimi2.5 Code榜开源第一,Sonnet 5 下周发布?

2026-02-05 01:03:55

摘要: OpenAI发布Codex桌面应用，以多任务工作树和技能自动化革新开发者工作流，预示VSCode Fork时代终结。本文深度剖析AI代理实践、StepFun与Kimi等新兴开源模型的卓越性能，以及合成数据和AI基础设施的挑战。洞察AI编码领域最新前沿动态。

一、OpenAI Codex应用：Agent-Native的编程新体验

最初，OpenAI Codex的发布可能看起来“仅仅”是一个桌面应用，是对现有CLI、云端应用和VS Code扩展的补充。它与其他同类“AI Agent指挥中心”产品（如Conductor、Codex Monitor、Antigravity’s Inbox）有着相似的理念，即提供一个集中的UI来管理AI代理。然而，其核心在于它并非一个VS Code的Fork，这本身就传递了一个强烈信号。

早在去年12月，史蒂夫·耶格（Steve Yegge）和吉恩·金（Gene Kim）就曾预测，IDE将会消亡。现在，OpenAI，这家曾斥资30亿美元收购Windsurf的公司，正推出一个无需IDE的编码代理用户体验。Anthropic也通过其Claude Code和Claude Cowork应用采取了类似策略。这足以引人深思：编码模型的发展已今非昔比，如今的严肃编码应用在没有IDE的情况下也能良好运行（当然，Codex在需要时仍允许链接到IDE，但这已成为例外而非常态）。

曾几何时，“无需编写代码即可通过自然语言构建应用的工具”等同于“低代码/无代码平台”，主要面向非技术用户。然而，Codex的应用对象并非这些非技术受众，而是认真面向开发者群体，这些开发者历史上热爱代码，并强烈认同手工编写每一行代码。如今，OpenAI却在告诉我们：查看代码变得可选了。

另一个值得关注的特点是Codex对多任务处理和工作树（worktrees）的依赖。事后看来，这完美地契合了AI代理自主性增强的趋势，提供了一种自然的UI响应。

Codex最被忽视但实际上具有创新性的功能是自动化（Automations），这基本上是“定时任务的技能”。令人惊讶的是，OpenAI是第一家在GA中推出这一看似简单但功能强大的特性的主要参与者。

Codex应用的发布引发了业界的广泛关注和讨论，以下是围绕其核心特性的几个关键观察：

Codex 应用发布于 macOS：OpenAI 发布了专用的 Codex 桌面应用，将其定位为运行并行多代理、通过内置工作树隔离更改以及通过技能（skills）和计划自动化（scheduled automations）扩展行为的集中式 UI [1, 2, 3]。一个反复出现的主题是：接口（而不仅仅是模型）正在成为产品本身。
重要的开发者工作流细节：该应用强调：(a) 每个任务/PR对应一个工作树，作为并行和冲突隔离的基本单元；(b) 计划模式（/plan），强制进行前期分解和提问；(c) 技能作为可重用包，可连接外部服务（如 Figma、Linear、Vercel 等）；以及 (d) 用于周期性后台任务的自动化功能 [4, 5, 6]。
使用信号与采用叙事：多位内部人士和高级用户表示，该应用在处理大型仓库和长时间运行任务方面，相较于CLI/IDE扩展是一步跨越式改进——特别是在管理并行线程和可审查差异方面。值得注意的评价包括：@gdb 称其为“代理原生接口”，感觉“回到终端就像回到了过去” [7]；@sama 对其喜爱程度感到惊讶 [8]；@skirano 表示它正在取代其工作流中的Cursor和Claude Code [9]。
生态系统压力与标准化：目前已经有推动“技能”文件夹标准化的呼声，建议Codex从.agents/skills读取技能并弃用.codex/skills [10]。这初步表明，代理工具正在形成类似于.github/、pyproject.toml等的约定。
元观点：通过产品循环“自我改进”：多篇文章强调Codex被用于构建自身，这被视为最引人注目的“递归改进”案例，它正在作为一个产品反馈循环（人类+代理）而非自主通用人工智能（AGI）落地 [11, 12, 13]。

二、AI编码代理的实践：可靠性、测试与并行化

随着AI编码代理的日益普及，其在实际开发工作流中的表现、可靠性和最佳实践成为焦点。

CLAUDE.md/AGENTS.md 的具体最佳实践：一项具体的最佳实践被提出，即增加“测试优先”指令：当报告bug时，首先编写复现测试；然后修复；再通过测试验证 [14]。这被认为是提高代理性能和稳定性的最大改进。这与“编码是部分可验证领域”的更广泛主题相符。
“指挥家”式工程模式：有观点认为，一名开发者可以并行运行5-10个代理，提交他们未完全阅读的代码，从而将角色从“作者”转变为“主管/指挥家” [15]。然而，也有反驳观点警告称，如果尝试“并行运行大量任务”，人类的上下文切换限制和质量下降问题会凸显 [16]。
神经符号框架解释编码代理成功原因：一个清晰的论点指出，编码代理之所以成功，是因为软件是一个可验证的领域，并且执行/工具链（测试、编译器、shell）构成了LLM可以利用的符号支架。要在编码之外复制这种成功，需要构建类似的“符号工具箱”和可验证性机制 [17]。
基准测试的怀疑态度：对于“LLM生产力”研究的轻量级基准测试存在反对声音，批评其参与者使用“弱工作流”（例如，聊天侧边栏使用），而非代理设置；并指出，当工具快速发展时，这些结果会低估生产力提升 [18, 19]。
开源代理堆栈与安全/运营问题：OpenClaw/Moltbook生态系统既引发了兴奋，也带来了运营/安全方面的批评，例如关于代理前置网关以进行会话管理/策略执行的讨论 [20]，以及对“纯AI社交媒体”会被机器人/垃圾邮件瞬间占领的警告 [21]。其深层含义是：代理产品需要与消费级平台相同的抗滥用/可观察性成熟度——而且是即时需求的。

三、开源模型：StepFun Step-3.5-Flash与Kimi K2.5领跑

开源大模型在代理编码领域的竞争也异常激烈，StepFun Step-3.5-Flash和Kimi K2.5成为近期焦点。

StepFun Step-3.5-Flash 开源发布（高效率声明）：StepFun的Step-3.5-Flash被反复提及为一种稀疏MoE模型，总参数量达196B，活跃参数约11B，针对速度+长上下文代理工作流进行优化。它支持256K上下文，采用3:1滑动窗口注意力+全注意力，以及MTP-3多Token预测 [22, 23]。StepFun报告其在SWE-bench Verified上达到74.4%，Terminal-Bench 2.0上达到51.0% [22]。
即时基础设施支持：vLLM在模型发布当天就提供了支持和部署方案 [24]，这表明StepFun对该模型在实际服务栈中被采纳的认真态度。
社区评估姿态：多篇文章强调“需要尽快测试”，并指出基准测试中可能存在的“择优选取”问题；社区希望看到标准化基线（MMLU/HLE/ARC-AGI）和第三方验证，尤其是在Hugging Face排行榜不断变化的情况下 [25, 26]。
Kimi K2.5 的代理编码能力：Arena报告显示，Kimi K2.5在Code Arena中是排名第一的开源模型，总体排名第五，与一些顶级的专有模型“不相上下”，并且在文本/视觉/代码Arena中表现强劲 [27]。另外，一些传闻指出其在某些工作流中存在工具调用弱点（系统提示遵循性不佳） [28]。
提供商可靠性问题：工具调用/解析失败可能导致模型表现低于其实际水平；Teknium指出FireworksAI的Kimi端点存在工具解析问题，导致其工作流被禁用——这提醒我们，在生产环境中，“模型质量”往往归结为集成正确性 [29, 30]。

四、合成数据、评估与“不要迷信困惑度”

合成数据和模型评估方法是大模型研究和应用的核心，近期围绕这些议题的讨论也揭示了行业的新动向和挑战。

合成预训练深度剖析：Dori Alexander发表了一篇关于合成预训练的长篇博客文章，暗示了对合成数据管道及其失效模式（例如，模式坍塌、分布漂移）的重新关注 [31]。这与更广泛的讨论相呼应：曾经主导的“合成数据模式坍塌”担忧，现在越来越被视为一个工程/配方问题 [32]。
困惑度作为模型选择陷阱：多条推文指出，有新的证据表明不应盲目信任困惑度作为模型选择目标 [33, 34]。实际的经验是：如果仅优化下一个词预测指标，可能会忽略下游任务行为、工具使用稳定性以及指令遵循的一致性。
来自互联网的无限RLVR任务（“金鹅”）：一种方法被提出，通过掩盖推理步骤和生成干扰项，从不可验证的网页文本中合成本质上无限的RLVR风格任务。该方法声称可以复活在现有RLVR数据上“饱和”的模型，并在网络安全任务中取得了显著效果 [35, 36]。
压缩与长上下文基础设施思路：围绕文档/上下文压缩方法（例如，“Cartridges”、要点Token、KV缓存压缩变体）的讨论正在进行，旨在减少内存占用并加速生成，这对于AI代理上下文膨胀到数十万甚至数百万Token的场景至关重要 [37, 38]。

五、代理系统与基础设施：内存瓶颈、可观察性与RAG分块

代理系统和基础设施的演进是AI大模型落地应用的关键，近期在内存、可观察性、RAG等方面的进展值得关注。

推理瓶颈从FLOPs转向内存容量：一篇长帖总结了帝国理工学院和微软研究院的观点，认为对于代理工作负载（编码/计算机使用），限制因素是内存容量/KV缓存占用，而不仅仅是计算能力。例如，批处理大小为1、上下文为1M的单个DeepSeek-R1请求可能需要约900GB内存；建议采用解耦服务和异构加速器进行预填充与解码 [39]。
可观察性成为代理的“堆栈跟踪”：LangChain强调，代理即使不崩溃也可能失败；因此，追踪是主要的调试手段，这推动了围绕代理可观察性与评估的网络研讨会和工具开发 [40, 41]。
RAG 分块：Oracle 实验显示召回率提升 20-40%：AI21的实验报告显示，当一个Oracle根据每个查询选择分块大小时，其召回率比任何固定分块大小都高出20-40%，但这需要存储多个索引粒度（存储与质量的权衡） [42, 43]。
打包“深度代理”架构模式：LangChain JS引入了deepagents，声称四种反复出现的架构模式解释了为何Claude Code/Manus等系统感觉稳健，而简单工具调用代理则常常失败 [44]。

六、AI Twitter 热门话题回顾

AI技术在Twitter上的讨论热度不减，以下是本期最受关注的话题：

Karpathy：重回RSS以逃离激励驱动的信息泥沼：这是一篇高参与度的元评论，与工程师获取“信号质量”息息相关 [45]。
OpenAI Codex 应用发布：这是本期AI工程领域最受关注的发布之一 [1, 11, 8]。

七、AI Reddit 热门话题回顾

Reddit社区在AI领域的讨论更加细致深入，以下是几个关键主题：

1. Step-3.5-Flash 模型性能

128GB设备的新本地LLM之王：Step-3.5-Flash-int4 [46]：Step-3.5-Flash-int4模型已在Hugging Face上发布 [47]，是为M1 Ultra Mac Studio等配备128GB RAM的设备优化的新型本地LLM。它支持完整的256k上下文长度，并在RAM使用方面展现出高效率。llama-bench的基准测试显示，在pp512测试中达到281.09 ± 1.57 t/s，在tg128测试中达到34.70 ± 0.01 t/s，性能令人印象深刻。该模型需要自定义的llama.cpp fork才能执行，鉴于其性能，未来有可能获得上游支持。评论者对该模型在Strix Halo等不同硬件上的性能充满好奇，并对潜在的NVFP4版本表示兴趣。也有评论幽默地表达了对模型能力的惊喜。
- Step-3.5-Flash-int4模型因其能够在128GB设备上运行完整的256k上下文而备受瞩目，这令人印象深刻，因为许多模型内存密集，无法处理如此大的上下文。这使其成为GLM 4.7等高RAM使用模型的有力竞争者。
- 有用户将Step-3.5-Flash-int4与Minimax M2.1进行比较，认为它可能表现稍好。这一比较意义重大，因为Minimax M2.1是一个备受推崇的模型，性能或效率上的任何改进都可能成为寻求高质量输出且不消耗过多资源用户的巨大优势。
- Step-3.5-Flash-int4的响应速度与Minimax相比也受到关注，Minimax因快速迭代而受到青睐。如果Step-3.5-Flash-int4同时提供更高的效率和质量，它可能会取代Minimax成为需要快速处理和高质量结果任务的首选模型。
Step-3.5-Flash (196b/A11b) 超越 GLM-4.7 和 DeepSeek v3.2 [48]：Stepfun最新发布的Step-3.5-Flash模型在各种编码和代理基准测试中表现优于DeepSeek v3.2，尽管其参数量显著更少。具体来说，Step-3.5-Flash总参数为196B，活跃参数为11B，而DeepSeek v3.2总参数为671B，活跃参数为37B。该模型已在Hugging Face上发布 [49]。评论者指出，考虑到其规模，模型性能出乎意料，并将其与Kimi K2.5和Deepseek 3.2 Speciale等其他模型进行了有利比较。目前已有一个Pull Request旨在将该模型集成到llama.cpp中，表明社区对此有积极的兴趣和开发活动 [50]。
- Step-3.5-Flash模型，尽管体积小、速度快，据报道却优于GLM-4.7和DeepSeek v3.2等大型模型。有用户指出，它与Kimi K2.5的性能相当，甚至能与Deepseek 3.2 Speciale或Gemini 3.0 Flash媲美，这表明其尽管在基准测试中表现出色，但效率和能力都很高。
- 一个将Step-3.5-Flash集成到llama.cpp的Pull Request已经开放，这是其在各种应用中被采用和使用的重要一步。该模型比MiniMax和Qwen3-235B等其他模型更小，使其成为开发者可用紧凑模型范围的宝贵补充。

2. GLM-5 及即将发布的 AI 模型

GLM-5 二月即将发布！已确认 [51]：社交媒体帖子突出显示了2026年2月预计发布的AI技术，包括DeepSeek V4、阿里巴巴Qwen 3.5和GPT-5.3。用户jietang将“glm-5”添加到列表中，表明其发布也备受期待。这预示着AI技术将迎来一个重大发展时期，多家领先AI开发者将推出主要更新。该帖子引起了广泛关注，反映了社区对这些发展的兴趣。一条评论幽默地指出AI模型快速过时，而另一条则推测GLM-5的潜在功能，表明对其能力充满期待和好奇。
- bootlickaaa表达了希望GLM-5超越Kimi K2.5的愿望，这表明用户偏好可能根据性能指标发生变化。这暗示用户正在密切关注不同模型的能力，并愿意在有新模型提供卓越性能时切换服务。提到年度Z.ai Pro计划 [52]意味着对服务的承诺可能会被更先进的模型打破。
- International-Try467提出了对GLM-5信息可靠性的担忧，质疑非GLM官方人员来源的可信度。这凸显了在技术社区中，特别是在宣布新模型发布时，官方沟通渠道和验证信息的重要性。
- Septerium幽默地指出其gguf文件快速过时，这突显了AI模型开发快节奏的性质，以及为了跟上最新进展所需频繁更新的资源。这反映了该领域的一个普遍挑战，即用户必须不断更新其资源以利用新功能。
Mistral Vibe 2.0 [53]：Mistral AI发布了Mistral Vibe 2.0，这是其终端原生编码代理的增强版本，利用Devstral 2模型家族。此次更新引入了任务专业化的自定义子代理、减少歧义的多选澄清以及简化工作流程的斜杠命令技能。它还支持统一代理模式，实现无缝上下文切换。该服务已集成到Le Chat Pro和Team计划中，Devstral 2正转向付费API模式，并提供企业选项以实现高级功能，如微调和代码现代化 [54]。评论者指出Mistral Vibe 2.0的欧洲血统，强调其法国开发背景。有评论将其与OpenCode进行比较，认为两者都模仿了ClaudeCode，用户还提到通过配置~/.vibe/promps/cli.md文件中的工具列表可以改善工具性能。
- 有用户强调Mistral Vibe 2.0代码库的紧凑性，指出它只有19472行代码，而Codex或OpenCode等替代方案通常超过100k行。这表明其注重代码质量和效率，可能使其更易于维护和理解。
- 另一用户提到Mistral Vibe 2.0的配置技巧，建议将工具列表显式添加到~/.vibe/promps/cli.md文件可以更好地进行工具调用。这暗示正确的配置可以增强工具的功能和用户体验。
- 有评论提出Mistral Vibe 2.0是否可以本地和离线运行的问题，这是用户关注隐私、性能或互联网依赖的常见考虑因素。

3. Falcon-H1-Tiny 及专用微型模型

Falcon-H1-Tiny (90M) 发布 – 真正有效的专用微型模型 [55]：Falcon-H1-Tiny是TII推出的一系列参数量低于100M的新模型，通过在专用任务中展现有效性能，挑战了传统的扩展范式。这些模型采用“反课程学习”训练方法，从一开始就注入目标领域数据，即使经过大量训练也能防止过拟合。它们结合了混合Mamba+Attention块和Muon优化器，性能比AdamW提升高达20%。值得注意的是，一个90M的工具调用模型实现了94.44%的相关性检测，一个600M的推理模型解决了75%的AIME24问题，与大得多模型相媲美。这些模型经过优化，可在本地部署，在手机和Raspberry Pi等设备上高效运行。评论者提到了Muon优化器（也称为Kimi优化器），并对这些模型专注于有效提取和利用知识的潜力表示兴趣。人们好奇是否有代码和数据集预览可用于训练类似模型以完成自定义任务。
- Firepal64提到Falcon-H1-Tiny模型中使用了Kimi优化器（即Muon）。这种优化器并未被广泛采用，引发了人们对其独特优势或性能特征的好奇，这些特征可能使其适用于Falcon-H1-Tiny等专用微型模型。
- kulchacop和Available-Craft-5795询问Falcon-H1-Tiny的代码、数据集预览和训练管道的可用性。他们有兴趣了解训练过程和数据收集方法，可能用于根据自己的任务调整模型或复制结果。
- mr_Owner指出，在使用llama.cpp时，Falcon-H1-Tiny模型的性能低于预期，这表明可能存在效率低下或与此特定实现不兼容的问题。这可能是进一步优化或调查的领域。
4chan数据真的能改进模型吗？结果是肯定的！ [56]： Assistant_Pepe_8B的发布 [57]，一个基于扩展4chan数据集训练的模型，出乎意料地超越了其基础模型Nvidia的Nemotron。尽管该模型在预期为嘈杂的数据集上进行训练，但其得分高于基础模型和被“湮灭”的基础模型，挑战了微调会牺牲部分智能以换取特异性的传统预期。该模型的表现与Yannic Kilcher早前gpt4chan的成功相呼应，后者在真实性方面也取得了高分。结果表明，所谓的“对齐税（alignment tax）”可能具有非微不足道的影响，Impish_LLAMA_4B模型中低的KL散度（<0.01）也证实了这一点，该模型也显示出政治倾向的转变。
- 语言模型中使用4chan数据对其语言统计和语义产生了独特影响，特别是在增强模型生成正确英语语言结构的能力方面。与其他数据源（如Reddit或维基百科）不同，4chan数据显著增加了模型使用“我”语句的频率，暗示了一种更以自我为中心或自我投入的输出，这可能不适用于助理式聊天机器人。这与Twitter数据形成了对比，Twitter数据被指出会迅速降低模型性能。
- 关于使用不同聊天模板和数据源影响的技术讨论显示，ChatML和“湮灭”的结合可以显著改变模型的行为和政治立场。尽管预期聊天模板影响很小，但观察到的变化是巨大的，KL散度表明从古典自由主义转向了中间派，这暗示了模型世界观的深刻改变。
- 关于“对齐税”的评论表明，小型模型在整合不同数据源时可能面临更大的对齐挑战。这意味着模型的复杂性和规模可能会影响它如何整合和平衡各种数据输入，从而可能影响其性能和偏见。

4. Claude Sonnet 5 发布及功能

Sonnet 5 下周发布？ [58]：图片显示HTTP 404错误消息，表明未找到“claude-sonnet-5”的“Publisher Model”或无权访问，暗示模型尚未公开或可访问，预示其即将发布。这与帖子中关于Sonnet 5预期发布的讨论一致，该模型预计提供100万上下文，价格为Opus 4.5的一半，并采用TPU训练，有望在代理编码方面带来显著改进。评论者对Sonnet 5的潜力表示兴奋，指出它可能超越Opus 4.5等现有模型。同时也有关于GPT 5.3和Gemini 3等即将发布模型的猜测，表明竞争激烈。
- 讨论强调Sonnet 5作为“竞争杀手”的潜力，暗示它可能显著超越Opus 4.5等现有模型。这表明AI社区对Sonnet 5的能力寄予厚望。
- 关于即将发布的模型训练基础设施的猜测集中在谷歌的TPU上。提到Gemini 3完全无需Nvidia硬件训练，暗示了向TPU的战略转变，这可能对AI模型训练的性能和成本效率产生影响。
- 对Anthropic产品“干净”和“精致”特性的评论，表明其注重用户体验和产品完善，这可能成为AI市场中的竞争优势。这凸显了不仅性能，还有AI产品的可用性和集成性的重要性。
Sonnet 5 将于2月3日发布 [59]：据Vertex AI错误日志显示，代号为“Fennec”的Claude Sonnet 5据说定于2026年2月3日发布。据传其价格比前身Claude Opus 4.5便宜50%，同时保持1M token上下文窗口并提供更快的性能。该模型据称在Google TPU上优化，提高了吞吐量并降低了延迟。它引入了“开发团队”模式，允许自主子代理协作构建功能。内部消息泄露称，它在SWE-Bench上获得80.9%的评分，超越了当前的编码模型。然而，对于发布日期和错误日志作为模型存在证明的有效性存在一些怀疑。评论者对发布日期表示怀疑，指出Anthropic的模型ID通常反映创建日期而非发布日期。还对大上下文窗口中精度下降的问题提出担忧，这在以前的模型中也存在。
- andrew_kirfman讨论了对Sonnet 5发布时间的怀疑，引用了Vertex API端点的一个404错误，该错误并未确认模型的存在。他们强调，Anthropic的模型ID通常反映模型检查点的创建日期，而非发布日期，并引用Opus 4.5的ID作为示例。他们对未来发布标签感到怀疑，这在软件发布中并不常见。
- andrew_kirfman还提到了Sonnet 5可能拥有100万个Token的上下文，指出Sonnet 4和4.5等以前的模型已经通过API提供了此功能。然而，他们指出这些模型存在准确性下降的问题，这表明新模型需要在此领域进行改进才能获得信任。
- LuckyPrior4374对Sonnet 5超越以前模型的说法表示怀疑，特别提到了Opus 4.5。此评论暗示了对未经充分证据支持的显著改进营销说法的质疑，暗示了过去期望未达成的经验。
Sonnet 5 将于周三发布，Gemini 3.5 在哪里？ [60]：代号为“Fennec”的Claude Sonnet 5据传在现有模型（包括尚未发布的Gemini 3.5）上取得了显著进步。预计其价格比Claude Opus 4.5便宜50%，同时保持1M token上下文窗口并提供更快的性能。该模型据称在Google TPU上优化，提高了吞吐量并降低了延迟。它具有“开发团队”模式，允许自主子代理并行执行任务，并在SWE-Bench上获得80.9%的评分，超越了当前的编码模型。Vertex AI错误日志表明发布窗口为2026年2月3日，这表明其存在于谷歌的基础设施中。评论者对Gemini 3.5的发布表示怀疑，指出Gemini 3仍处于预览阶段并面临问题。对Gemini 3.5的存在存在疑问，一些人认为它只是“白日梦”。
- alexander_chapel指出Gemini 3仍处于预览阶段，质疑对3.5版本发布的期望。这突显了Gemini 3的当前状态尚未完全发布，暗示任何关于3.5版本的讨论可能为时尚早或基于谣言。
- Lost-Estate3401提到Gemini 3的Pro版本仍在预览阶段并存在许多问题，这表明在该阶段发布3.5版本可能不切实际。此评论强调了当前版本面临的挑战，这可能会延迟进一步的更新或增强。
- philiposull在写作能力方面将Gemini 3与4-5 opus等其他模型进行了不利比较，暗示谷歌在此领域落后。此比较突出了潜在的性能差距以及AI模型开发中的竞争格局。

5. 创新 AI 模型与工具发布

MIT新型热驱动硅芯片在数学计算中实现99%准确率 [61]：麻省理工学院研究人员开发了一种新型硅芯片，利用废热进行计算，在数学计算中实现了超过99%的准确率。该芯片利用温差作为数据，热量自然地从热区流向冷区进行计算，特别是矩阵向量乘法，这在AI和机器学习中至关重要。芯片结构由特殊工程的多孔硅制成，其内部几何结构经过算法设计，以引导热量沿精确路径流动。尽管尚未取代传统CPU，但该技术可显著降低未来芯片的能量损耗和冷却需求，在热传感和低功耗操作方面具有潜在应用。评论者指出，虽然99%的准确率令人印象深刻，但可能不足以应对现代应用中数万亿次操作，他们希望有纠错机制。考虑到目前矩阵大小为2x2和3x3，也有人对该技术的扩展性表示怀疑。
- ReasonablyBadass强调了对麻省理工学院热驱动硅芯片99%准确率的批判性视角，指出虽然99%看起来很高，但对于需要数万亿次操作的现代应用来说可能不够。评论表明芯片目前处理小矩阵，如2x2和3x3，表明仍需要取得重大进展才能实现更广泛的应用。
- Putrumpador提出了对新芯片99%准确率以及需要纠错机制的担忧。这意味着虽然芯片具有创新性，但其在关键系统中的实际部署将需要额外的可靠性层来处理潜在的不准确性。
- BuildwithVignesh引用了发表在Physical Review上的研究 [62]，提供了论文链接，这对于那些对研究技术细节感兴趣的人来说很有价值。这表明该研究经过同行评审并可供进一步的学术审查。
上海科学家创造出比头发还细的纤维计算机芯片，能承受15.6吨的压力 [63]：复旦大学的科学家开发出一种柔性纤维芯片，其细如人发，能承受15.6吨的压力。这种纤维芯片每厘米集成多达100,000个晶体管，并采用独特的“寿司卷”设计，将薄电路层卷绕在弹性基板上以最大化空间。该芯片高度耐用，可承受10,000次弯曲循环、30%的拉伸和高达100°C的温度。它旨在应用于智能纺织品、脑机接口和VR手套。该研究于2026年1月发表在Nature杂志上 [64]。评论指出纤维宽度描述可能存在错误，认为其比所述宽度宽10倍。也有人对一米长的纤维具有与经典CPU相当的处理能力的主张表示怀疑，指出潜在的延迟问题。
- KidKilobyte指出报告尺寸可能存在错误，指出人发通常宽50到100微米，暗示芯片纤维可能被不准确地描述为比人发更细。这引发了对原始报告中测量或描述精度的质疑。
- Practical-Hand203强调了对一米长的纤维具有与经典CPU相当的处理能力的主张可能存在的问题。他们认为，如果处理器晶片在一米上拉伸，很可能会出现严重的延迟问题，这表明对技术能力存在误解或过度简化。
- BuildwithVignesh引用了该研究发表在Nature杂志上的文章 [64]。这表明该研究经过同行评审，增加了发现的可信度，尽管评论中未讨论该研究的技术细节和影响。
[P] PerpetualBooster v1.1.2：无需超参数调优的GBM，现在通过ONNX/XGBoost支持速度提升2倍 [65]：PerpetualBooster v1.1.2对其用Rust实现的梯度提升机（GBM）进行了重大增强，重点是通过单个“预算”参数消除超参数调优。此次更新声称训练速度提升高达2倍，完整R发布，支持ONNX，并原生支持“另存为XGBoost”，以改善互操作性。它还包括零拷贝Polars支持以实现高效数据处理，并保证API稳定性，向后兼容v0.10.0。基准测试显示，与LightGBM + Optuna相比，壁钟时间加速100倍，并在单次运行中实现了相似的准确性 [66]。用户赞赏速度提升和使用单个“预算”参数而非传统超参数调优的新颖方法，尽管一些人发现适应这种新方法有点不寻常。
- Alternative-Theme885强调了PerpetualBooster显著的速度提升，指出无需手动调整超参数的不寻常体验。相反，用户设置一个预算，工具会利用该预算优化性能，从而简化了与传统方法相比的过程。
- whimpirical询问PerpetualBooster与SHAP（一种流行的机器学习模型解释工具）的互操作性。他们特别关注与提取特征贡献和生成部分依赖图（PDP）相关的文档，这对于理解模型行为和特征影响至关重要。

6. AI 在专业和研究领域

[D] MSR 剑桥与亚马逊应用科学实习，有何想法？ [67]：帖子讨论了一名博士生在微软研究院（MSR）剑桥和亚马逊美国应用科学部门两个实习机会之间的选择。MSR剑桥的职位与学生的博士研究高度契合，并有发表论文的潜力，但薪酬远低于美国Offer。亚马逊的职位薪酬更高，如果项目偏向研究，也有可能参与论文。学生正在权衡在美国建立人脉与MSR剑桥的声望和研究匹配度之间的影响，尤其是考虑到他们博士毕业后在美国工作的长期目标。评论者普遍倾向于MSR剑桥的实习，认为其声望和研究机会有助于职业发展。他们对亚马逊的工作环境表示怀疑，认为其可能不利于纯粹的研究。
- 微软研究院（MSR）剑桥被强调为一个声誉卓著的研究机构，以其对研究人员职业生涯轨迹的显著影响而闻名。重点在于与MSR这样知名机构相关的长期利益，这可以提升个人简历，并在学术界和工业界打开未来的机会。
- 讨论表明，亚马逊的应用科学家角色可能不像MSR那样以研究为重点，一些评论暗示亚马逊的工作环境可能不适合那些寻求研究导向职业的人。使用“PIP工厂”来描述亚马逊，表明其可能是一个高压环境，存在绩效改进计划。
- 多条评论强调，在选择实习时，应优先考虑职业发展机会而非短期薪酬。普遍共识是，早期职业决策应优先考虑简历建设和在MSR等知名机构获得经验，这可以带来更好的长期职业前景。
我们对自主OpenClaw代理进行了红队与蓝队实时测试 [R] [68]：在最近使用OpenClaw自主代理进行的对抗性安全测试中，红队攻击者和蓝队防御者在无人干预的情况下进行对抗。攻击者最初使用社会工程策略，在安全管道中嵌入远程代码执行负载，防御者成功阻止。然而，攻击者通过在JSON文档的元数据中嵌入shell扩展变量，成功实施了间接攻击，这凸显了防御间接执行路径的难度。本次演习旨在识别代理间交互中的实际故障模式，而非声称安全性。更多细节可参阅完整报告 [69]。评论者指出，类似攻击场景早在2019年就被Eliezer Yudkowsky和Scott Alexander等人物理论化，但随着广泛应用，其实际价值现在才更显著。另一位评论者强调了OpenClaw中内存注入攻击的风险，认为持久性内存文件是严重的漏洞，并主张从一开始就将部署视为提示注入目标来对待。
- JWPapi强调了OpenClaw代理中与内存注入相关的关键安全漏洞。OpenClaw使用的持久性内存文件（.md）被认为是重要的攻击向量，因为一旦被破坏，它们会影响所有未来的代理行为。JWPapi建议从一开始就将整个部署视为提示注入目标，主张为每个集成隔离凭据、设置支出上限和单独的爆炸半径，以减轻风险。更多细节在其关于实际VPS部署的文章中讨论 [70]。
- sdfgeoff引用了Eliezer Yudkowsky和Scott Alexander等人物在2019年和2020年进行的讨论，他们在GPT-2发布后不久就理论化了AI攻击。这些早期讨论预测了许多现在正在真实世界场景中进行测试的攻击向量，突出了随着更多人部署这些系统，从理论到实际应用的转变。这一历史背景强调了随着部署规模增加，AI安全担忧的演变。
- Uditakhourii提供了一个关于OpenClaw代理红队与蓝队实时测试的完整报告链接 [69]，其中提供了对抗性AI交互的详细见解。该报告可能包含有关安全审计的全面数据和分析，对于那些对AI安全测试技术方面感兴趣的人很有用。
波士顿咨询集团（BCG）宣布为其全球3.2万名顾问内部部署超过3.6万个自定义GPT [71]：波士顿咨询集团（BCG）已为其3.2万名顾问部署了超过3.6万个自定义GPT，强调AI作为知识工作基础设施的重要性。这些GPT是针对特定角色定制的，根据内部方法论进行训练，并具有项目记忆功能，使其能够在团队之间共享。这种方法与许多以孤立、不可扩展方式使用AI的组织形成对比。BCG的战略侧重于创建、管理和扩展自定义GPT，这得益于GPT生成器高级版等工具的支持，该工具支持这些AI代理的创建和管理 [72]。此次部署反映了AI作为业务运营基本组成部分的转变，而不仅仅是一个工具。

八、AI Discord 社区精华回顾

Discord社区作为AI前沿讨论的重要阵地，提供了许多关于最新技术进展和实战经验的洞察，以下是本期由gpt-5.2总结的总结：

1. 代理编码与开发工具走向本地优先

Codex 走向桌面：macOS 代理指挥中心：OpenAI 发布了macOS 版 Codex 应用，作为代理构建的指挥中心，适用于 Plus/Pro/Business/Enterprise/Edu 用户，并限时向 ChatGPT Free/Go 用户开放 [73, 74]。
- 此次发布也引发了社区对工作流的讨论（代理配对、多代理“指挥中心”），而 Cerebral Valley 的活动页面也推出了Codex App 黑客马拉松，提供90,000美元奖金 [75]。
LM Studio 支持 Anthropic：Claude Code 遇上本地 GGUF/MLX：LM Studio 0.4.1 添加了 Anthropic /v1/messages 兼容 API，允许开发者将 Claude Code 风格的工具指向本地 GGUF/MLX 模型，只需更改基础 URL [76]。
- 同时，LM Studio 还推出了用于第三方插件的 TypeScript SDK 和一个 OpenAI 兼容端点 [77]，这进一步强化了一个日益增长的模式：重用现有代理工具，同时在本地切换后端模型堆栈。
Arena 模式无处不在：Windsurf 将模型评估变为游戏：Windsurf 发布了 Wave 14，其中包括用于模型横向比较的 Arena 模式（包括战斗组和“自定义选择”），并暂时将战斗组设置为0倍积分 [78]。
- 这与更广泛的“实时评估”趋势相呼应：用户还在 LMArena 的文本竞技场 [79] 和代码竞技场 [80] 中追踪了新的竞技场参赛者，如 step-3.5-flash 和 qwen3-max-thinking，将模型选择从静态基准转向持续的人工投票。

2. 模型发布与性能竞赛 (Kimi vs GLM vs Qwen)

Kimi K2.5 快速登顶排行榜：Moonshot 的 Kimi K2.5 广泛应用于产品界面：Perplexity Pro/Max 为订阅用户添加了 Kimi K2.5，并表示它运行在美国的推理栈上，以实现更紧密的延迟/可靠性/安全性控制 [81]。
- 社区结果也蜂拥而至：LMArena 报告称 Kimi-K2.5-thinking 在代码竞技场中获得了开源模型第一名和总榜第五名 [80]，而多个开发者频道则争论其工具调用可靠性和通过聚合器路由时的提供商差异。
GLM-4.7 Flash：小模型，大前端能量：开发者们强调 GLM-4.7 Flash 是一个出人意料的强大编码模型——特别是对于交互式网站/前端工作——引用其保留的推理能力和交错功能 [82]。
- 讨论的焦点在于剥离“思考”是否会损害性能，一些用户描述将 GLM-4.7 与 Claude Code（或类似 Claude 的代理工具）配对是一种实用的混合栈：廉价执行 + 昂贵审查。
新的竞技场参赛者：step-3.5-flash 和 qwen3-max-thinking 加入战局：LMArena 将 step-3.5-flash 添加到文本竞技场 [79]，将 qwen3-max-thinking 添加到代码竞技场 [80]，明确将它们定位为横向评估的新基线。
- 用户利用这些新模型的加入，重新审视了“模型偏好”的讨论（Kimi vs GLM vs Gemini），反复出现的结论是，排行榜和实时评估越来越驱动采纳，而非供应商营销。

3. 训练信号、密集奖励与新架构/数据集

从二元奖励到密集监督：RL 变得更丰富：多个社区围绕更丰富的后训练信号达成共识：Unsloth 讨论推动使用最终答案的对数概率（logprobs）和非二元奖励进行训练，引用 Jonas Hübotter 将描述性反馈转化为密集监督的方法 [83]。
- 实际难点仍然存在：人们要求提供用于 RL 训练代理编码的可验证数据集，这暗示了“酷炫的奖励塑造想法”与“可复现、自动化评估工具”之间的管道鸿沟。
Complexity-Deep：Token 路由 MLP 尝试 MoE 而无负载均衡困扰：Complexity-Deep (1.5B) 架构开源了 Token 路由 MLP，实现了 MoE 风格的路由，但“没有负载均衡损失”，还包括 Mu-Guided Attention 和 PiD 控制器。代码已在 Complexity-ML/complexity-deep 发布 [84]，并报告 20.6% MMLU（基础）。
- 社区将其视为“无痛路由”趋势的又一步——试图在保持 MoE 优势的同时，减少平衡专家带来的训练时间工程开销。
Moltbook 数据倾倒：5万条帖子用于代理社会学研究：Moltbook 的数据集抓取已在 Hugging Face 发布，包含 50,539 条帖子、12,454 个 AI 代理、195,414 条评论和 1,604 个社区 [85]。
- 此外，研究人员指出了代理平台背后的安全隐患（机器上的身份验证 Token、机器人真实性担忧），并将该数据集视为分析涌现行为的燃料——无需超出原始日志进行猜测。

4. GPU/内核工程：更快注意力、更好剖析、更奇怪的 PTX

FlashAttention v3 支持 RDNA：AMD 用户迎来转机：FlashAttention 更新通过 flash-attention PR #2178 中的持续工作添加了 RDNA GPU 支持 [86]，旨在减少 AMD 显卡上的注意力瓶颈。
- 各服务器的普遍观点是：这是一种“不性感的基础设施工作”，但它实际上解锁了非 NVIDIA 硬件上的本地推理和微调——特别是与开源模型和桌面代理工具结合使用时。
Triton-Viz v3.0：Tile-Kernel 调试利器：Triton-Viz v3.0 发布了更广泛的剖析支持（包括 Triton 和 Amazon NKI），以及一个用于越界访问的清理器和一个标记低效循环的剖析器 [87]。
- 它还通过共享的 Colab 笔记本与 triton-puzzles 关联 [88]，维护者甚至提议将 srush/Triton-Puzzles [89] 纳入 GPU Mode 组织，以保持高错误修复速度。
sm120：TMA + mbarrier 险胜 cp.async，cuBLAS 仍使用 sm80 内核：在 sm120 上的实验表明，精心实现的 TMA + mbarrier 对于较大的矩阵形状可以略微优于 cp.async，同时还揭示了 cuBLAS 即使存在更新的机制，似乎仍在使用 sm80 内核。
- 在调试方面，一个 CUDA/PTX 死锁通过在 MMA 后、预取下一个 TMA 前插入 __syncthreads() 得到解决，将挂起变为可衡量的性能提升——这正是内核开发者们不断重新学习的“一劳永逸的屏障”教训。

5. 安全性、确定性与代理行为失常（实用型）

提示注入防御军备竞赛：嵌入式 + 语法约束解码：红队成员分享了一个结构化的对抗性实践网站——“对抗性设计思维” [90]——并以此为基础提出了针对提示注入的具体缓解措施。
- 一种提议的“双重保障”防御结合了基于嵌入的过滤与语法约束解码，其明确目标是通过约束模型的输出空间而非仅仅监管输入来减少注入面。
确定性推理和“严格模式”热潮蔓延：在 OpenAI 和 OpenRouter 的讨论中，用户推动 LLM 推理的确定性/可重放性/可追溯性；有人提供了一个确定性推理引擎，强制固定结构并发出 32D 统计向量追踪（未公开链接）。
- 在 OpenRouter 中，同样的直觉表现为对响应修复的怀疑和对严格模式的呼吁，以保持工具调用和输出的可预测性——以及关于更好的参数描述/示例可以提高工具调用准确性的建议。
OpenClaw：炫酷的代理技巧、惊人的账单和“2/100的安全性”：OpenClaw 引发了反复的警告：OpenRouter 用户报告它会迅速耗尽积分（包括一个耗尽的 Claude Max 订阅），而一个 OpenAI 服务器链接的安全评估声称 OpenClaw 得分 2/100 [91]。
- 同时，“在我的机器上能跑”的故事（本地模型控制设备、互开玩笑）与实际运营担忧发生冲突——工具权限、内容审核/拒绝（特别是针对越狱式查询），以及代理工作流中对可观察性和人工干预门槛的需求。

参考链接

[1] https://substack.com/redirect/befaefc7-81a4-40da-be08-52d81d44fbd6?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[2] https://substack.com/redirect/49c97a88-87ce-4ba9-803c-0ccad2c5bc1a?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[3] https://substack.com/redirect/8063a355-56ee-438b-9262-f26c5f36c82e?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[4] https://substack.com/redirect/6460f330-1b29-4102-9d1b-420b66a7ce27?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[5] https://substack.com/redirect/f1999e76-eae9-481f-bafa-12d0cf0be13c?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[6] https://substack.com/redirect/ff553500-3754-45b3-85f0-3495a9eed5b1?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[7] https://substack.com/redirect/2b7abe4a-9f19-46d6-ab57-4dc071a5fc8d?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[8] https://substack.com/redirect/393a9b96-ac30-4985-be50-7a6f4e7ba3b0?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[9] https://substack.com/redirect/eb07b96a-168c-488e-b3a1-1abff7b962b8?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[10] https://substack.com/redirect/e08e9171-e910-496f-83bd-e72846921fbc?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[11] https://substack.com/redirect/68fa646f-0c1e-4757-a0e3-d18c74371722?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[12] https://substack.com/redirect/5c2f49ba-89d5-4999-a464-7e4283f92a9b?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[13] https://substack.com/redirect/7f38ce14-c7fd-483e-b18c-baa060d1a1cf?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[14] https://substack.com/redirect/74e18229-5954-425b-a93e-5ae599b95619?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[15] https://substack.com/redirect/740cef82-9912-450d-81b2-40b8b439d2a0?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[16] https://substack.com/redirect/c51aa54e-183c-4daf-873c-60f3c172b690?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[17] https://substack.com/redirect/0d03cab2-0339-4aaa-8ec3-a14abe0eb8f9?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[18] https://substack.com/redirect/2fcae9d9-1daf-40de-bb3b-279be12a6683?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[19] https://substack.com/redirect/4a834ff3-aa87-44bc-84ce-2e7126c77dbe?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[20] https://substack.com/redirect/5cbd9456-d6aa-4e23-9ec7-aabf1502f271?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[21] https://substack.com/redirect/38dc97ca-b0fc-4e83-a8dc-eff23c622d42?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[22] https://substack.com/redirect/a606ab53-290e-4e59-9a25-6fc6e6d82fa4?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[23] https://substack.com/redirect/3c9eaa91-dff3-451d-b53a-5759d236458f?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[24] https://substack.com/redirect/d6015ff8-790a-4628-be31-03af30b12126?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[25] https://substack.com/redirect/e2b62afb-1b57-4923-87aa-dad3e6fab21f?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[26] https://substack.com/redirect/e1a0a089-f14c-45a4-9771-89cfbf0b00af?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[27] https://substack.com/redirect/1a9c3999-aec7-4271-922d-3ac05b488b0b?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[28] https://substack.com/redirect/e13ae040-6f9f-4529-ba9e-1b656f02a9dd?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[29] https://substack.com/redirect/605473fc-83d1-4498-a08d-85cdaa7726eb?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[30] https://substack.com/redirect/218d7aa7-6da8-4e7a-ac14-8feb3d59d77a?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[31] https://substack.com/redirect/7bdf44db-d7e0-4bda-8fb7-ef2e695b5b80?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[32] https://substack.com/redirect/05e7ef6b-6da4-40bb-b363-f6ddde079dfa?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[33] https://substack.com/redirect/ac30c1b6-974d-4598-bc51-619d4ef8218f?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[34] https://substack.com/redirect/c708199f-8679-4d1d-b793-47c142db67de?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[35] https://substack.com/redirect/c07cf834-729d-4b6d-a2c6-5658d7aa1a97?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[36] https://substack.com/redirect/d261c817-d7c5-4b8b-b3e0-84d161abccb9?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[37] https://substack.com/redirect/7999524b-5426-4dbc-b664-b49fe824acf2?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[38] https://substack.com/redirect/de71145e-e338-40b1-977d-d11f7e38a532?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[39] https://substack.com/redirect/e042c858-be13-4342-afc4-c1612340ef1f?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[40] https://substack.com/redirect/60a7947f-c204-428b-a7ea-76ca0bd9e73d?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[41] https://substack.com/redirect/62a0ef49-56d9-4dfd-a531-c0c24cb2e147?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[42] https://substack.com/redirect/d824fcc0-4b15-4190-a5da-e81b8f60d72c?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[43] https://substack.com/redirect/69ca49ea-7c94-4ba4-a2a6-3804d2df4e3b?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[44] https://substack.com/redirect/65a296d1-d5f1-4aa1-833e-8b93a69ceabf?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[45] https://substack.com/redirect/0354d33e-ec6b-4233-8b57-dca033b7809e?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[46] https://substack.com/redirect/b4e637d2-eed1-42c3-a536-2d87675be231?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[47] https://substack.com/redirect/e6bea62c-ad94-4771-b1e9-b6ac0f801c42?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[48] https://substack.com/redirect/1554149d-f453-4305-88c6-e1123aa06b87?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[49] https://substack.com/redirect/784a7f97-75e2-449d-af65-7988f490324b?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[50] https://substack.com/redirect/3318f6a2-483a-4b6d-83b4-364ac75d19ae?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[51] https://substack.com/redirect/8d47b061-9331-45bf-88d6-6e353010fe65?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[52] https://substack.com/redirect/98fcc6f4-770e-4220-8991-663ee9cc39bd?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[53] https://substack.com/redirect/3254005e-b8a0-435d-a455-0e47794dd594?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[54] https://substack.com/redirect/0bafbd9c-3ea3-4513-b383-cca3ad2e376e?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[55] https://substack.com/redirect/85c4059c-eba2-4a82-9f7e-4f7e0d33c434?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[56] https://substack.com/redirect/d26d54a8-b6dc-49f5-a719-a66aa4d966e9?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[57] https://substack.com/redirect/e79340e1-1119-48d8-b2e2-01e658f756fc?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[58] https://substack.com/redirect/580a7724-f996-4af7-983a-96f4261c9519?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[59] https://substack.com/redirect/332aac32-7613-4382-9a1e-11081be0af25?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[60] https://substack.com/redirect/9a1e624f-4045-4d58-9e0c-55b3d097bc0f?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[61] https://substack.com/redirect/82de0c67-cf2f-4713-9726-d7ac757a9f6d?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[62] https://substack.com/redirect/e714fc3e-3485-444f-b684-c78f2b2c6d28?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[63] https://substack.com/redirect/004a2cb3-a845-414a-a640-c64a1d17d0f5?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[64] https://substack.com/redirect/e714fc3e-3485-444f-b684-c78f2b2c6d28?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[65] https://substack.com/redirect/a2db33f9-c32f-47ba-93d3-fd8a1d643899?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[66] https://substack.com/redirect/33082872-9dbe-4f39-918e-72094678eeed?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[67] https://substack.com/redirect/c93951fb-54ce-4d77-ab4e-500f3dfe6e47?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[68] https://substack.com/redirect/69f8432f-a24a-4b37-9444-0fc88cfe2f32?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[69] https://substack.com/redirect/ded5530f-ab10-4139-917a-8f2a6d585aff?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[70] https://substack.com/redirect/c2db4875-7da5-42cc-840d-4515df2eb609?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[71] https://substack.com/redirect/432f3700-e3a6-471e-8a74-5cd70f025652?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[72] https://substack.com/redirect/d92b61fc-44f1-4871-94ff-d3c431facae2?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[73] https://substack.com/redirect/60aa3178-40e1-40f0-be78-b9eb27bb804c?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[74] https://substack.com/redirect/8807d8c9-5f92-44e1-93db-47c0533f7f54?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[75] https://substack.com/redirect/03e38b3d-bea1-48ed-a372-bad81fd0b32d?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[76] https://substack.com/redirect/8e7be075-83a4-4b23-82bb-847272b1daa3?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[77] https://substack.com/redirect/43ade275-4f42-4480-bccc-c8a55fe696c5?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[78] https://substack.com/redirect/d628cf50-dff8-48ae-877b-32f68c8ef5c0?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[79] https://substack.com/redirect/071678a5-d05b-4f27-8b9b-85558ed6bb61?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[80] https://substack.com/redirect/34251911-89a2-4671-9dff-096d2d019c3e?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[81] https://cdn.discordapp.com/attachments/1047204950763122820/1466893776105771029/20260130_203015.jpg
[82] https://substack.com/redirect/de9060ba-20d3-41a0-9ea5-ef3c6095435f?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[83] https://substack.com/redirect/f1fc93c2-4d97-43e9-8b40-1d53b9b53a36?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[84] https://substack.com/redirect/1cb236fb-96b1-4795-b02a-9f839269d4b5?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[85] https://substack.com/redirect/6071860d-fc06-46db-afc3-a2748a5fd470?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[86] https://substack.com/redirect/8645e352-2492-4e78-bc70-28380e0c6c51?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[87] https://discord.com/channels/1189498204333543425/1225499141241573447/1467634539164602563
[88] https://substack.com/redirect/27545493-c393-44eb-9158-79808bb8017f?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[89] https://substack.com/redirect/aceaccfb-d2c2-4aa6-a7e1-cb4c88fbe08f?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[90] https://substack.com/redirect/7a56ddc1-0bd5-4c9f-9167-d1d4e7396ae6?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE
[91] https://substack.com/redirect/3493d0bf-cd4f-4e1c-b285-3066551ec649?j=eyJ1IjoiNnFlZWh0In0.mj92BjIKLPtgM6aGb3Z5Km0aFgCAo08wXqvJ3k6bBeE

标签: 科技资讯,AI

AI群: 欢迎加我微信 tsla10times，备注AI交流，拉你进群！我们刚刚建立这个AI交流社群，正在寻找志同道合的朋友一起成长！

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

OpenAI Codex AI编程新范式,VSCode时代终结?Kimi2.5 Code榜开源第一,Sonnet 5 下周发布?

一、OpenAI Codex应用：Agent-Native的编程新体验

二、AI编码代理的实践：可靠性、测试与并行化

三、开源模型：StepFun Step-3.5-Flash与Kimi K2.5领跑

四、合成数据、评估与“不要迷信困惑度”

五、代理系统与基础设施：内存瓶颈、可观察性与RAG分块

六、AI Twitter 热门话题回顾

七、AI Reddit 热门话题回顾

1. Step-3.5-Flash 模型性能

2. GLM-5 及即将发布的 AI 模型

3. Falcon-H1-Tiny 及专用微型模型

4. Claude Sonnet 5 发布及功能

5. 创新 AI 模型与工具发布

6. AI 在专业和研究领域

八、AI Discord 社区精华回顾

1. 代理编码与开发工具走向本地优先

2. 模型发布与性能竞赛 (Kimi vs GLM vs Qwen)

3. 训练信号、密集奖励与新架构/数据集

4. GPU/内核工程：更快注意力、更好剖析、更奇怪的 PTX

5. 安全性、确定性与代理行为失常（实用型）

参考链接

最新文章

热门文章

随机文章

OpenAI Codex AI编程新范式,VSCode时代终结?Kimi2.5 Code榜开源第一,Sonnet 5 下周发布?

一、OpenAI Codex应用：Agent-Native的编程新体验

二、AI编码代理的实践：可靠性、测试与并行化

三、开源模型：StepFun Step-3.5-Flash与Kimi K2.5领跑

四、合成数据、评估与“不要迷信困惑度”

五、代理系统与基础设施：内存瓶颈、可观察性与RAG分块

六、AI Twitter 热门话题回顾

七、AI Reddit 热门话题回顾

1. Step-3.5-Flash 模型性能

2. GLM-5 及即将发布的 AI 模型

3. Falcon-H1-Tiny 及专用微型模型

4. Claude Sonnet 5 发布及功能

5. 创新 AI 模型与工具发布

6. AI 在专业和研究领域

八、AI Discord 社区精华回顾

1. 代理编码与开发工具走向本地优先

2. 模型发布与性能竞赛 (Kimi vs GLM vs Qwen)

3. 训练信号、密集奖励与新架构/数据集

4. GPU/内核工程：更快注意力、更好剖析、更奇怪的 PTX

5. 安全性、确定性与代理行为失常（实用型）

参考链接

用GPT写Verilog代码,助力小脚丫FPGA开发

一个私活(会编程的进)

最新文章

热门文章

随机文章