祝贺！实验室研究成果被人工智能领域顶级会议CVPR录用 – 上海交通大学类脑智能应用与技术中心

近日，实验室硕士研究生张侃毓同学的论文《Boosting Vision-Language-Action Finetuning with Feasible Action Neighborhood Prior》被计算机视觉和人工智能领域顶级会议IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2025)录用。

CVPR作为当前全球最负盛名的计算机视觉和人工智能领域旗舰会议之一，在谷歌学术发布的全球学术期刊和会议影响力排名中位列第2，H5 index高达450，为中国计算机学会人工智能领域A类国际会议，Core Conference Ranking A*类会议。

文章聚焦视觉-语言-动作（VLA）模型在真实机器人操作中泛化性差和样本效率低的难题：主流的VLA微调方法直接沿用了语言模型（如NLP）的训练范式，但这种方法忽视了物理世界动作的一个基本属性——对于特定的状态，通常存在一个“可行动作邻域（Feasible Action Neighborhood, FAN）”，在这个邻域内的近乎等效动作都能产生几乎相同的任务进度。这种忽视导致模型在使用小样本进行监督微调（SFT）时容易产生极度尖锐、崩溃的概率分布，或在强化微调（RFT）时极度缺乏样本效率。

文章进而提出了两点关键洞察与方法创新：

策略分布的几何形状是模型鲁棒性的重要指征：窄而尖锐的分布意味着模型仅学会了微小的动作容差，导致泛化能力差；而宽广且平滑的分布则标志着模型拥有更大的FAN，成功率和泛化性更强。
提出FAN引导的正则化器（FAN-guided regularizer）：文章引入了高斯先验，无需改变VLA模型架构或自回归解码方案，即可引导模型输出分布对齐FAN的几何特征（局部平滑且单峰）。这一创新成功将训练信号从寻找“绝对正确”转变为“加权容差” 。

图注：Geometric structure of policy distribution. 传统SFT方法导致极度尖锐的分布（泛化差），而FAN-PPO引导策略学习到更平滑、鲁棒的高斯形态分布，极大提升了成功率。

据此，论文将该正则化方法无缝集成到了主流的两种微调范式中，分别提出了 FAN-SFT 和 FAN-PPO 。通过在损失函数中显式地重塑策略的几何结构，模型能够在保证离散自回归特性的同时，极大抑制过拟合现象。

文章首先从数学和几何层面对“动作容差”进行了形式化定义：

基于这一概念，文章指出策略的分布形状（即隐式FAN的大小）与模型的泛化能力高度相关。为此，工作引入了FAN引导的正则化器（FAN-guided regularizer），通过计算策略分布与目标高斯分布之间的KL散度，显式地引导模型输出局部平滑且单峰的概率分布：

在这一坚实的理论基础上，论文将该方法无缝集成到了两种主流微调范式中：

FAN-SFT（监督微调）：通过引入动态自适应协方差 σ，使正则化器能够根据当前的几何特性塑造高斯形态，在可控的计算开销下极大地抑制了模型对单一演示动作的过拟合

FAN-PPO（强化微调）：在信任区域策略优化的约束目标下（即RFT），FAN正则化赋予了最优策略Π一个极其优雅的闭式解（Closed-form structure）。理论证明，更新后的策略本质上是前置策略与目标高斯分布之间的几何插值，并由指数化的Q值重新加权：

这一数学性质完美解释了为何该方法能在保持训练稳定的同时，提供极高的探索与样本效率。

在分类/操作任务评估上，该方法在主流机器人仿真基准 ManiSkill 和 LIBERO 上对代表性模型（如OpenVLA和OpenVLA-OFT）进行了全面评测。在面对多达15种视觉、语义和执行（空间）等干扰条件的分布外（OOD）连续测试中，该方法不仅大幅超越了现有基准（如在ManiSkill的SFT OOD任务中平均提升5.2%，分布内提升11.7%），还显著加快了RFT训练的收敛速度，极大提升了样本效率。

图注：在各类OOD任务（视觉、语义、执行干扰）中，FAN-PPO 均展现出卓越且一致的性能优势，并以极少的训练步数快速达到高成功率。

在真实物理层面，文章构建了基于 JAKA协作机械臂 的物理测试平台验证其空间鲁棒性。当面对初始对象姿态偏移、机械臂初始位姿扰动或目标容器位置偏移等真实干扰时，经过FAN-SFT微调的模型依然能够成功纠正动作轨迹，表现出极其优异的物理适应能力。

图注：Real-world rollouts on object-in-box manipulation tasks. 在面对真实世界的目标位姿与空间扰动时，基线模型操作失败，而我们的FAN-SFT模型展现出了强大的空间泛化与纠偏能力。

图注：LIBERO perturbed task. 在面对LIBERO仿真环境的目标位姿与空间扰动时，基线模型缺乏对目标物体的空间理解与任务适应，而我们的FAN-SFT模型则依旧展现出了强大的空间泛化与纠偏能力。

总体而言，这项工作首次从几何与物理一致性的视角出发，通过让语言式的VLA训练目标与物理真实操作的“容差”属性相对齐，为实现高样本效率、强泛化能力的机器人VLA模型微调提供了原则性且极具实用价值的新方法。