祝贺!实验室研究成果被人工智能领域顶级会议CVPR录用

近日,实验室硕士研究生张侃毓同学的论文《Boosting Vision-Language-Action Finetuning with Feasible Action Neighborhood Prior》被计算机视觉和人工智能领域顶级会议IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2025)录用。

CVPR作为当前全球最负盛名的计算机视觉和人工智能领域旗舰会议之一,在谷歌学术发布的全球学术期刊和会议影响力排名中位列第2,H5 index高达450,为中国计算机学会人工智能领域A类国际会议,Core Conference Ranking A*类会议。

文章聚焦视觉-语言-动作(VLA)模型在真实机器人操作中泛化性差和样本效率低的难题:主流的VLA微调方法直接沿用了语言模型(如NLP)的训练范式,但这种方法忽视了物理世界动作的一个基本属性——对于特定的状态,通常存在一个“可行动作邻域(Feasible Action Neighborhood, FAN)”,在这个邻域内的近乎等效动作都能产生几乎相同的任务进度 。这种忽视导致模型在使用小样本进行监督微调(SFT)时容易产生极度尖锐、崩溃的概率分布,或在强化微调(RFT)时极度缺乏样本效率 。

文章进而提出了两点关键洞察与方法创新:

  1. 策略分布的几何形状是模型鲁棒性的重要指征:窄而尖锐的分布意味着模型仅学会了微小的动作容差,导致泛化能力差;而宽广且平滑的分布则标志着模型拥有更大的FAN,成功率和泛化性更强 。
  2. 提出FAN引导的正则化器(FAN-guided regularizer):文章引入了高斯先验,无需改变VLA模型架构或自回归解码方案,即可引导模型输出分布对齐FAN的几何特征(局部平滑且单峰) 。这一创新成功将训练信号从寻找“绝对正确”转变为“加权容差” 。

图注:Geometric structure of policy distribution. 传统SFT方法导致极度尖锐的分布(泛化差),而FAN-PPO引导策略学习到更平滑、鲁棒的高斯形态分布,极大提升了成功率。

据此,论文将该正则化方法无缝集成到了主流的两种微调范式中,分别提出了 FAN-SFTFAN-PPO 。通过在损失函数中显式地重塑策略的几何结构,模型能够在保证离散自回归特性的同时,极大抑制过拟合现象 。

文章首先从数学和几何层面对“动作容差”进行了形式化定义:

基于这一概念,文章指出策略的分布形状(即隐式FAN的大小)与模型的泛化能力高度相关 。为此,工作引入了FAN引导的正则化器(FAN-guided regularizer),通过计算策略分布与目标高斯分布之间的KL散度,显式地引导模型输出局部平滑且单峰的概率分布 :

在这一坚实的理论基础上,论文将该方法无缝集成到了两种主流微调范式中:

FAN-SFT(监督微调):通过引入动态自适应协方差 σ,使正则化器能够根据当前的几何特性塑造高斯形态,在可控的计算开销下极大地抑制了模型对单一演示动作的过拟合

FAN-PPO(强化微调):在信任区域策略优化的约束目标下(即RFT),FAN正则化赋予了最优策略Π一个极其优雅的闭式解(Closed-form structure)。理论证明,更新后的策略本质上是前置策略与目标高斯分布之间的几何插值,并由指数化的Q值重新加权 :

这一数学性质完美解释了为何该方法能在保持训练稳定的同时,提供极高的探索与样本效率 。

在分类/操作任务评估上,该方法在主流机器人仿真基准 ManiSkillLIBERO 上对代表性模型(如OpenVLA和OpenVLA-OFT)进行了全面评测 。在面对多达15种视觉、语义和执行(空间)等干扰条件的分布外(OOD)连续测试中,该方法不仅大幅超越了现有基准(如在ManiSkill的SFT OOD任务中平均提升5.2%,分布内提升11.7%),还显著加快了RFT训练的收敛速度,极大提升了样本效率 。

图注:在各类OOD任务(视觉、语义、执行干扰)中,FAN-PPO 均展现出卓越且一致的性能优势,并以极少的训练步数快速达到高成功率。

在真实物理层面,文章构建了基于 JAKA协作机械臂 的物理测试平台验证其空间鲁棒性 。当面对初始对象姿态偏移、机械臂初始位姿扰动或目标容器位置偏移等真实干扰时,经过FAN-SFT微调的模型依然能够成功纠正动作轨迹,表现出极其优异的物理适应能力 。

图注:Real-world rollouts on object-in-box manipulation tasks. 在面对真实世界的目标位姿与空间扰动时,基线模型操作失败,而我们的FAN-SFT模型展现出了强大的空间泛化与纠偏能力。

图注:LIBERO perturbed task. 在面对LIBERO仿真环境的目标位姿与空间扰动时,基线模型缺乏对目标物体的空间理解与任务适应,而我们的FAN-SFT模型则依旧展现出了强大的空间泛化与纠偏能力。

总体而言,这项工作首次从几何与物理一致性的视角出发,通过让语言式的VLA训练目标与物理真实操作的“容差”属性相对齐,为实现高样本效率、强泛化能力的机器人VLA模型微调提供了原则性且极具实用价值的新方法 。