Paper Daily!代码秒变图,8*压缩仍超文本,视觉LLM刷新效率极限

CodeOCR:视觉-语言模型在代码理解中的有效性研究(CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding)
✍️Yuling Shi(上海交通大学)、Chaoxiang Xie(河海大学)、Zhensu Sun(新加坡管理大学)等
🗓️2026-02
🔗 论文原文 (Paper Source)
https://arxiv.org/pdf/2602.01785视觉代码理解多模态大模型图像压缩代码表示视觉压缩
核心痛点
随着软件规模扩大,传统将源代码视为线性token序列的文本范式导致上下文长度线性增长,带来计算开销瓶颈。如何在保留语义的前提下压缩代码表示、降低推理成本成为关键难题。现有缺陷
现有文本压缩方法(如token剪枝、语义重写)多为离散操作,易丢失关键信息;而图像模态具备连续可缩放特性,却尚未被系统研究用于代码理解。核心价值
本文首次系统验证:将代码渲染为图像后,利用视觉-语言模型(VLM)可在高达8×token压缩比下仍保持甚至超越文本基线的理解性能,为“视觉优先”的代码智能开辟新路径。模型架构
提出“视觉代码表示”范式:用2240×2240高分辨率渲染代码,再经双线性下采样获得任意压缩比图像,适配MLLM的14×14 patch编码,实现连续视觉token缩减。核心算法
设计三阶段实验协议:①纯文本vs.图像输入对照;②1×–8×压缩比鲁棒性扫描;③语法高亮/加粗渲染增强,首次量化视觉增强对代码理解的边际收益。发布资产
发布CodeOCR工具包(Pygments+Pillow),支持6种语言→图像渲染,实测吞吐6.9k token/s;开源Python/Java跨语言评测数据与100段抗污染OCR重建代码。技术流程
输入源代码→Pygments语法高亮→Pillow渲染2240×2240 PNG→双线性下采样至目标token预算→VLM视觉编码→V-L Adapter对齐→与文本指令拼接→MLLM自注意力→输出结果。技术栈
视觉压缩渲染: 通过调节图像分辨率连续控制视觉token数量,避免离散token剪枝的信息损失 | V-L Adapter池化: 2×2 patch合并+MLP投影,减少视觉序列长度同时保持语义密度竞品对比
文本基线(Text)、无上下文基线(NoCtx)核心表现
在Python克隆检测任务上,GPT-5-mini图像输入F1达47.0,较文本基线33.2提升42%;Gemini-3-Pro在8×压缩下代码问答准确率79.5%,反超文本基线74.8%。效率指标
视觉编码引入的TTFT延迟与文本相当;4×压缩图像推理延迟降为文本的1/4,显存占用同步下降。消融实验
去掉视觉增强后,Gemini-3-Pro在2×压缩下Edit Similarity下降1.8%,证实高亮与加粗在1×–4×区间贡献最大。范式转移
首次实证“代码即图像”可在主流SE任务中替代文本,而无需任何代码专用微调,动摇了“文本token是唯一高效表示”的固有认知。未来启示
工业落地场景:IDE插件可实时将大文件压缩为图像,降低云端LLM调用费用50%以上;同时催生“视觉压缩即服务”中间件新赛道。设计哲学
论文验证了“连续视觉压缩>离散文本剪枝”的假设,体现“模态即效率”哲学:选对模态,可在不牺牲语义的前提下把压缩做成连续优化问题,而非NP-hard的离散选择。失败案例
8×压缩时,弱模型(GLM-4.6v)出现整块代码幻觉,Block Error率飙升至>30%,导致代码补全EM降至8.9。隐性成本
高分辨率渲染+下采样增加前端工程链路;需维护字体、行距等渲染参数一致性,否则OCR误差放大。未来方向
①面向代码的视觉预训练,提升极端压缩下符号识别;②自适应渲染策略,根据任务敏感度动态选择压缩比与增强方式;③探索10×以上超压缩与混合模态表示。论文地址
https://arxiv.org/pdf/2602.01785代码仓库
https://github.com/YerbaPage/CodeOCR数据集
LongCodeCompletion、LongModuleSummarization、GPT-CloneBench、自采CodeQA(200例抗污染)演示视频
未提供在线Demo,工具包支持本地CLI与Python API调用