多模态与视觉生成技术:图像化代码作为代码智能体中间表示;3D感知视角动作控制的视频生成;保持多样性分布的匹配蒸馏视觉生成
CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding
2026-02-02|SJTU, Hohai U, SMU, BIT Zhuhai, ICL(Imperial), UCSD, ECNU, SII, CQU|🔺81
http://arxiv.org/abs/2602.01785v1https://huggingface.co/papers/2602.01785https://github.com/YerbaPage/CodeOCR
研究背景与意义
随着软件系统规模和复杂度的急剧增长,传统基于文本的源代码理解方法面临上下文长度线性增加导致的计算效率瓶颈。多模态大语言模型(MLLMs),尤其是具备视觉理解能力的视觉语言模型(VLMs),为解决这一瓶颈提供了新思路。与难以无损压缩的文本不同,代码图像因其固有的可缩放性,通过调整分辨率即可实现有效压缩,显著降低计算成本。本文首次系统评估了MLLMs在代码图像理解上的效果,探讨了图像化代码表示是否能成为更高效的代码理解范式,填补了该领域的研究空白。
研究方法与创新
本文设计了全面的实验框架,评估七款主流支持多模态输入的LLMs(包括GPT-5系列、Gemini系列及开源模型Qwen-3-VL和GLM-4.6v),覆盖代码补全、代码总结、克隆检测和代码问答四大任务。核心创新点包括:
- 代码图像渲染与分辨率压缩:将代码渲染为2240×2240像素的高分辨率图像,利用视觉编码器将图像划分为固定大小的patches,形成视觉token序列。通过双线性下采样实现1×至8×的压缩,保持视觉信息的同时显著减少token数量。
- 视觉增强策略:引入语法高亮和加粗渲染,利用视觉线索提升模型对代码结构的感知,尤其在中低压缩比下显著改善性能。
- 多任务、多语言评测:不仅在Python任务上验证,还扩展至Java,确保结果的语言泛化性。
- 细粒度信息降解分析:通过OCR式代码重建实验,揭示压缩过程中从token级到代码块级的错误演进规律,发现模型在轻微模糊情况下仍能基于语言先验推断正确逻辑。
该方法突破了传统文本线性序列的限制,充分利用视觉模态的空间和压缩优势,为高效的代码理解提供了新范式。
实验设计与结果分析
实验采用多任务基准,涵盖代码补全(长上下文)、代码总结、克隆检测(语义相似度)、代码问答,结合多模型、多压缩比(1×、2×、4×、8×)和三种视觉渲染策略(纯文本、加粗、语法高亮)。
- 视觉代码理解的可行性:所有任务中,视觉输入模型表现出与文本输入相当甚至更优的性能。例如,GPT-5-mini在克隆检测任务中F1提升42%,Gemini-3-Pro在多任务中均表现优异,表明视觉表示不仅保留了代码语义,还可能通过整体结构感知提升理解效果。
- 压缩鲁棒性:不同任务对视觉压缩的容忍度不同。代码总结和克隆检测对压缩表现出高度鲁棒性,部分模型在4×甚至8×压缩下性能不降反升,推测中等压缩起到了去噪作用。代码补全和问答任务对压缩更敏感,超过2×至4×压缩后性能明显下降。
- 视觉增强效果:语法高亮和加粗在1×至4×压缩范围内普遍带来1%至3%的性能提升,尤其在代码补全和问答任务中效果显著。高压缩比下视觉细节丢失导致增强效果减弱,加粗渲染在极端压缩时甚至加剧字符模糊。
- 跨语言泛化:Python与Java任务中,模型表现趋势高度一致,Gemini家族在Java中代码补全和克隆检测任务中分别提升了12%和6–20%的准确率,验证了视觉代码理解的语言无关性。
- 信息降解分析:压缩导致的错误从token级开始,逐渐升级到行级和块级。4×至8×压缩为临界区间,大多数模型性能显著下降,唯独Gemini-3系列维持较高的CodeBLEU分数。模型能够在轻微视觉模糊下依靠语言模型推断正确代码逻辑,体现出强大的语义恢复能力。
结论与展望
本文首次系统性地验证了基于视觉的代码表示在多模态大语言模型中的有效性,展示了该范式在提升计算效率和保持甚至超越文本基线性能方面的巨大潜力。研究表明:
- 视觉代码理解是可行且有前景的技术路线,尤其适合应对大规模代码的计算瓶颈。
- 视觉压缩为代码理解任务带来了显著的token数减少和成本节约,同时在部分任务中提升了模型的泛化和鲁棒性。
- 视觉增强策略在合理压缩范围内有效提升模型性能,未来可探索自适应渲染以平衡清晰度与压缩率。
- 不同模型对视觉代码理解的适应度存在差异,开源模型仍有较大优化空间。
- 未来研究可聚焦于模型架构优化以更好地融合视觉和文本信息,扩展至更多编程语言和复杂任务,探索更高效的压缩与编码技术,以及结合视觉与结构化代码信息的混合表示方法。
综上,视觉模态代码表示为大规模代码理解提供了一条创新且高效的路径,具备广阔的应用前景和研究价值。
3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation
2026-02-03|Kuaishou Kling, THU, CASIA|🔺43
http://arxiv.org/abs/2602.03796v1https://huggingface.co/papers/2602.03796https://hjrphoebus.github.io/3DiMo/
研究背景与意义
- 当前人类动作视频生成领域面临的核心问题是如何实现对动作的三维空间理解和灵活控制。传统方法多依赖2D姿态或显式3D参数模型(如SMPL)作为控制信号,但2D姿态受限于视角绑定,无法实现新颖视点合成;显式3D模型则存在深度模糊和动态不准确等问题,限制了动作表达的自然性和空间一致性。
- 本文针对上述挑战,提出从3D感知视角重新审视动作控制,主张采用隐式、视角无关的动作表示,依托视频生成器内在的空间先验,而非外部重建的刚性约束,实现更自然、灵活的摄像机控制和动作再现。
- 该研究意义在于突破现有基于外部参数的动作控制瓶颈,推动视频生成技术向具备真实3D空间理解和多视角适应能力的方向发展,拓展了人类动作动画和影视制作等应用场景的可能性。
研究方法与创新
- 核心架构:提出3DiMo,一个端到端联合训练的框架,融合基于Transformer的动作编码器与预训练的DiT视频生成模型。动作编码器将2D驱动视频帧压缩为视角无关的1D动作token,通过跨注意力机制注入生成器,实现语义丰富且与生成器空间先验对齐的动作控制。
- 视角无关动作表示:通过随机视角变换增强驱动帧,强制编码器关注动作的3D内在动态,剔除2D视角依赖的结构信息,确保动作表达与视角无关。
- 多尺度动作编码:采用双编码器分别捕获全身粗动作和细粒度手部动作,保证动作的完整性和细节表现。
- 视角丰富的监督策略:构建涵盖单视角、多视角及动态摄像机的视频数据集,设计多阶段训练策略,包含同视角重建、多视角动作再现及摄像机轨迹驱动,促进模型学习真正的3D空间动作语义。
- 辅助几何监督:引入轻量级辅助解码器,利用SMPL和MANO伪标签对动作编码进行早期几何引导,解决训练初期收敛慢和动作控制不稳定的问题,并逐步退火该监督,最终实现从外部几何到内在空间先验的平滑迁移。
- 灵活的文本驱动摄像机控制:动作表示与文本驱动的摄像机控制自然共存,利用生成器本身的文本控制能力,实现高自由度的视点变化与动作同步生成。
- 首次实现隐式3D动作表示与大规模预训练视频生成器空间先验的深度融合。
- 设计跨注意力机制替代传统刚性2D投影对齐,提升动作语义表达的灵活性。
- 多阶段视角丰富监督策略确保模型具备真正的3D空间理解能力。
- 结合辅助几何监督与端到端训练,解决了3D动作学习中的深度模糊和训练不稳定难题。
实验设计与结果分析
- 数据集与训练:采用包含10万+单视角、8万多多视角及动态摄像机轨迹的多源大规模数据集,覆盖互联网、虚幻引擎渲染和自建多摄像机采集,训练过程分三阶段,逐步引入视角丰富的监督和辅助几何指导。
- 定量评估:在50个TikTok视频和100个互联网视频上测试,指标包括SSIM、PSNR、LPIPS、FID和FVD。结果显示,3DiMo在LPIPS、FID和FVD上显著优于现有2D姿态和3D SMPL基线,表明视觉质量和动作控制的自然性及准确性均有提升。
- 用户研究:30名参与者基于动作准确性、自然性、3D合理性和整体视觉质量进行评分,3DiMo在所有维度均领先,特别是在动作自然性和物理合理性方面优势明显,验证了其空间一致性和动态真实性。
- 采用SMPL显式参数替代隐式表示导致动作深度模糊和物理接触错误,突出隐式表示的优势。
- 取消视角丰富数据监督或辅助几何监督均导致训练不稳定和动作控制质量下降,强调多阶段训练和辅助监督的重要性。
- 替换跨注意力为通道拼接条件注入显著降低性能,表明跨注意力更适合语义丰富的动作控制。
- 去除手部编码器造成细节动作丢失,验证双编码器设计的必要性。
- 定性分析:示例视频展示3DiMo在不同文本引导摄像机轨迹下,能够准确再现复杂动作及物理接触关系,克服传统方法的视角绑定和深度模糊问题,支持灵活的视角切换和高保真动作动画。
结论与展望
- 本文提出的3DiMo框架通过隐式、视角无关的动作编码与预训练视频生成器的深度融合,实现了基于2D视频驱动的高质量3D动作控制和文本驱动的灵活摄像机操控,显著超越了现有基于2D姿态和显式3D模型的方案。
- 该方法不仅提升了动作的空间一致性和物理合理性,还支持多视角、多摄像机轨迹的复杂控制,拓展了人类动作视频生成的应用边界。
- 未来工作可进一步探索更丰富的动作细节捕捉、实时交互控制机制以及多人物协同动作生成,推动3D-aware视频生成技术向更广泛的影视、虚拟现实和人机交互领域应用。
Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis
2026-02-03|CityU HK, PolyU, OPPO|🔺31
http://arxiv.org/abs/2602.03139v1https://huggingface.co/papers/2602.03139https://github.com/Multimedia-Analytics-Laboratory/dpdmd
研究背景与意义
研究背景:近年来,扩散模型(Diffusion Models)在图像和视频生成领域取得显著进展,尤其是大规模预训练基础模型和现代优化技术推动了生成质量的大幅提升。然而,这类模型通常需要大量推理步骤(NFEs),导致推理时间长、计算资源消耗大,限制了实际应用的效率。
研究意义:为加速推理,扩散蒸馏技术应运而生,旨在将多步扩散模型蒸馏为少步模型,实现快速高质量生成。现有的分布匹配蒸馏(DMD)方法虽能提升推理效率,但存在模式崩溃(mode collapse)问题,导致生成样本多样性下降。为此,本文提出了多步蒸馏中角色分离的框架——多样性保留分布匹配蒸馏(DP-DMD),旨在在保持视觉质量的同时显著提升样本多样性,推动扩散蒸馏技术向更高效稳定方向发展。
研究方法与创新
技术描述:DP-DMD基于扩散模型的流匹配(Flow Matching)理论,将蒸馏过程中的不同推理步骤分配不同训练目标。具体地,首个蒸馏步骤采用目标预测(如v预测)监督,重点保留样本多样性;其余步骤则使用标准的分布匹配蒸馏损失,专注于提升生成质量。
- 角色分离设计:通过将早期步骤专注于多样性保留,后期步骤专注于质量优化,有效缓解了逆向KL散度导致的模式崩溃问题。
- 梯度截断机制:在首步多样性保留阶段停止梯度传播,防止后续步骤的质量优化损失覆盖多样性信号,实现训练稳定性和效果的双重提升。
- 轻量级无附加模块:不依赖感知损失、判别器或辅助网络,完全在潜空间进行训练,保持蒸馏流程简洁高效,降低计算和内存开销。
- 多样性锚点控制:通过调节多样性监督应用的时间点(锚步)和权重,实现多样性与视觉质量的可控平衡,灵活适应不同应用需求。
理论基础对比:相较于传统DMD直接优化逆向KL散度,DP-DMD通过分步差异化目标设计,避免了模式寻求行为带来的多样性损失,体现了对扩散模型阶段性特性的深刻理解和创新利用。
实验设计与结果分析
- 采用SD3.5-Medium和SDXL作为教师模型,分别在1024×1024分辨率下进行蒸馏。
- 通过调整多样性锚点步骤K和多样性权重λ,系统评估多样性、视觉质量和人类偏好。
- 评测指标包括DINO、CLIP等多样性度量,VQ-R1、MANIQA等视觉质量指标,以及ImageReward和PickScore等人类偏好评分。
- 与基线DMD及其带感知损失(LPIPS)和对抗损失(GAN)变体进行对比,同时与多种开源少步蒸馏方法(如Hyper-SD、Flash Diffusion、TDM)进行系统级评测。
- 多样性提升显著:DP-DMD在所有多样性指标上均优于基线DMD,且随着多样性锚点后移,多样性进一步增强,验证了多样性监督的有效性。
- 视觉质量保持稳定:尽管提升了多样性,DP-DMD在视觉质量指标上与基线持平或略优,显示了多样性和质量的良好平衡。
- 人类偏好一致:人类评测结果表明DP-DMD生成的样本在视觉感受上优于或不逊色于对抗和感知损失方法,且训练更稳定无额外开销。
- 梯度截断效果明显:停止首步梯度传播显著防止了模式崩溃,保持多样性优势,且不影响质量优化,体现了设计的合理性。
- 系统级竞争力:DP-DMD在多个公开数据集和任务上均表现出与或优于现有顶尖少步蒸馏方法的性能,验证了其广泛适用性和实用价值。
- 语义与组合能力保留:在GenEval评测中,DP-DMD保持了教师模型的语义对齐和复杂组合推理能力,说明其蒸馏过程未损害核心生成能力。
结论与展望
总结贡献:本文提出的DP-DMD方法通过角色分离的蒸馏框架,有效解决了传统分布匹配蒸馏中的多样性丧失问题,实现了少步扩散模型的快速高质量生成。该方法设计简洁,无需额外感知或对抗模块,训练稳定且计算高效,兼顾了样本多样性与视觉质量,具有较强的实用性和推广潜力。
局限性分析:当前DP-DMD仅在首步引入多样性监督,后续步骤完全依赖标准DMD损失,可能在某些复杂场景下限制多样性和结构调整的灵活性。
未来展望:未来工作可探索动态、自适应的步骤分配策略,实现多步多样性与质量目标的平衡优化;同时扩展方法到更多生成任务和模型架构,提升方法的通用性和鲁棒性,进一步推动高效扩散蒸馏技术的发展。