AI Agent & LLM
下午好。趋势榜上 Agent 工具链依然活跃,学术侧也有几篇值得关注的工作。
重点动态
VellumVault
把互联网上的一切内容塞进你的 Markdown 知识库,视频文章文件通吃,LLM 做语义层面的结构化。
知识管理赛道从来不缺选手,VellumVault 的思路是做笔记工具的「信息收集前置层」。输入端用 yt-dlp 抓视频、爬网页文章、导入本地文件,输出端统一到 Markdown 格式。
底层靠 LLM 做内容提取和摘要,所以它不只是格式转换工具,而是有语义结构化能力。对需要处理大量多源信息的研究者来说,省了不少手动整理的功夫。

📎 相关链接
VellumVault
https://github.com/VectorLetter/VellumVault
Browser Use 官方部署模板
Browser Use 出了 Vercel 一键部署模板,fork 之后直接跑云端浏览器 Agent,连基础设施都不用搭。
Browser Use 这段时间热度一直在涨,这次出的 template 面向想快速上线的团队。配合他们的 cloud browser 服务,部署门槛降到了 fork-and-deploy 的程度。
坦率的讲,这种模式的上限取决于云浏览器的稳定性和调用成本。高频场景下费用可能比自建 headless Chrome 还高,选型时得算清楚这笔账。

📎 相关链接
browser-agent-template
https://github.com/browser-use/browser-agent-template
dots.mocr 容器化服务
OCR 模型 dots.mocr 的容器化部署方案,FastAPI 封装,支持 vLLM GPU、昇腾 NPU、Transformers CPU 三种后端,可完全离线。
多后端设计是亮点,一套接口适配三种硬件环境。GPU、NPU、纯 CPU 各有适用场景,特别是国内用昇腾芯片的团队,开箱即用省了不少适配工作。
离线部署对政务和金融场景尤其重要,这些环境通常不能调用外部 API,本地跑模型是刚需。

📎 相关链接
dots.mocr-Serve
https://github.com/ouyangfeng2022/dots.mocr-Serve
跨尺度推理增强病理 VLM
arXiv 新论文,针对病理图像的多尺度特性设计显式跨尺度推理目标,让 VLM 模拟病理医生从低倍到高倍的诊断流程。
病理图像天然是多尺度的,病理医生需要从全局组织结构到细胞形态逐级放大观察。现有病理 VLM 数据集虽然包含不同倍率图像,但缺少显式的跨尺度推理训练目标。
这篇工作的核心贡献是补上这个缺口,设计了跨尺度表示学习框架。对医学影像 AI 领域的研究者来说,思路值得借鉴。

📎 相关链接
Enhancing Pathological VLMs with Cross-scale Reasoning
https://arxiv.org/abs/2606.17412
大规模无标签数据驱动 AEB
自动紧急制动系统的学习方案,用 meta-feedback 半监督学习 处理海量车队无标签数据,在量产约束下提升性能。
核心思路是教师模型给无标签驾驶数据打伪标签,再用小规模标注锚点集做安全关键反馈来更新教师。车队数据量级巨大但标注成本极高,半监督方案在这里的价值很明显。

📎 相关链接
Scaling Learning-based AEB
https://arxiv.org/abs/2606.18864
种子引导的半监督聚类
基于 a-contrario 异常检测的半监督聚类框架,用统计对偶性统一分组原则和异常检测,解决噪声环境下聚类不稳健的问题。
密度方法对全局超参数敏感,划分算法容易把异常点误分进聚类里。这篇用 a-contrario 统计推理和格式塔邻近原则来定义稳健的聚类边界,理论框架挺优雅。

📎 相关链接
Seed-Guided Semi-Supervised Clustering
https://arxiv.org/abs/2606.18833
Claude Code Linux 桌面版
社区做的 Claude Code Linux 桌面客户端,给不想在终端里操作的开发者一个图形界面选择。
Claude Code 目前只有 CLI,这个项目补上了 Linux 桌面端的空缺。具体功能完成度得看实际体验,社区项目的维护节奏不好说。

📎 相关链接
claude-code-desktop-linux
https://github.com/1194042851/claude-code-desktop-linux
Claude Code .NET 开发者工具链
专门给 .NET 开发者定制的 Claude Code harness,把 Claude Code 的能力接入 .NET 开发工作流。
Claude Code 生态在快速扩展,对 C# / .NET 技术栈的团队来说,终于不用看着 Python 和 JS 生态眼馋了。

📎 相关链接
cde-dotnetcc
https://github.com/atherio-danp/cde-dotnetcc
CesiumJS 矢量瓦片渲染增强
cesium-vectortile-gl-plus,原生 Primitive 实现,不依赖 ImageryProvider 和第三方渲染器,支持 MVT/PBF 和 GeoJSON,兼容 MapLibre 样式规范。
虽然是 GIS 工具而非 AI 项目,但对做三维地理可视化的团队来说,GPU 剔除和合批优化在大数据量渲染时优势明显。

📎 相关链接
cesium-vectortile-gl-plus
https://github.com/Try112/cesium-vectortile-gl-plus