清华大学团队 NeurIPS 2025 论文分析 RL 和 SFT 的泛化差异

清华大学团队 NeurIPS 2025 论文分析 RL 和 SFT 的泛化差异

在具身智能领域,大规模视觉、语言和动作(VLA)模型显示出巨大的前景,但仍然面临重大挑战。当前的监督微调训练(SFT)方法常常使模型在遇到新环境或任务时容易出错,从而难以实现真正的类人泛化。然而,在大规模语言模型(LLM/VLM)领域,强化学习(RL)已被证明可以显着提高模型的泛化能力。 RL 给 VLA 带来了哪些独特的泛化优势?与SFT相比,它们有哪些优点和缺点?清华大学研究团队在NeurIPS 2025上发表论文,首次系统揭示了强化学习(RL)在提高VLA泛化能力方面的独特优势,形成了全面的评估基准和高效的训练方法。通讯作者为万教授g Yu和清华大学博士后研究员于超。文章标题:RL 可以为 VLA 的泛化做出什么贡献?实证研究项目网站及代码:https://rlvla.github.io/ 文章地址:https://arxiv.org/abs/2505.19789 为了解决VLA模型泛化能力有限的问题,研究团队构建了一个新的评估基准,涵盖了视觉、语义和执行等多个方面。挑战并系统地比较强化学习(RL)的性能。传统的监督微调(SFT)可提高模型泛化能力。通过大量实验,我们发现使用参考学习算法suerzo作为PPO对VLA进行微调不仅显着提高了模型在语义理解和任务执行方面的鲁棒性,而且在视觉变化的场景中也保持了与SFT相当的性能。同时提出了一种简单高效的PPO训练方案,使得应用强化学习在VLA领域的应用更加实用和高效。内置基础模型:开源OpenVLA大规模模型研究团队采用当前SoTA之一的开源OpenVLA模型作为研究基础。我用它作为基础。 OpenVLA 自 Llama2-7b 以来已进行了修改。在每个时间步,它接收 RGB 图像和指令(即历史长度 H=1),并生成一组离散动作令牌来控制机械臂的运动。问题 1:哪种强化学习技术最好?研究团队测试了大规模语言模型领域已知的三种广泛使用的强化学习算法。这包括RLHF中常用的PPO(邻近策略优化)和DPO(直接优先级优化),以及在数学等推理任务中表现出良好性能的GRPO(组相对策略优化)。实验结果令人惊讶。对于机器人控制的多步决策任务,分类传统的PPO算法表现出显着的优势,而专门针对语言模型设计的DPO和GRPO则难以高效学习。研究团队认为,这是由于机器人任务的马尔可夫决策过程(POMDP)具有部分可观察的特性,其中每个动作都会改变环境的状态。这种非平稳性可能会损害 GRPO 利润预测的稳定性。 OPD面临的挑战是奖励结构稀疏,难以区分轨迹的质量,并且离线数据和在线运行之间存在较大的分布变化。问题2:如何实现高效的PPO培训?为了在VLA模型中高效实现PPO,研究团队提出了三项关键创新。 1. Actor-Critic共享架构设计:Actor和Critic共享相同的主干网,仅在末尾添加一个轻量级的MLP作为值头。此设计可减少 45% 的显存使用量并增加训练速度提高 35%,同时保持可比较的性能。 2. VLA模型预热策略:使用140条高质量轨迹预热模型。这一步将后续强化学习的收敛速度提高了 50%,并显着减少了所需的环境交互次数。 3.分层引用PPO最小化噪声:传统的PPO通常对每一批数据进行多轮梯度更新,但研究表明,在VLA场景中将PPO的训练轮次(epoch)设置为1次就足够了。增加刷新轮次不仅不会提高性能,还会增加训练时间。这种优化使得整个训练过程在单个 A100 GPU 上仅需 42 小时即可收敛。问题三:SFT 和 RL 的比较 为了进行公平的比较,研究团队首先研究了 SFT 的数据大小限制。研究团队使用 Motion Planner 收集了各种大小的 SFT 数据集。实验表明,当当演示轨迹数量达到 16,000 个(大约 126 万个状态-动作对)时,SFT 对于新对象/桌面的性能趋于饱和,无论是在训练分布内还是在分布外。然而,对于 RL 来说,训练分布内的任务在收敛时的性能与 SFT 相当,而分布外的任务则实现了 42.6% 的性能提升,表明 RL 的泛化能力更强。为了进一步分析泛化能力的差异,研究团队基于Maniskill模拟器创建了综合评估基准,将泛化能力系统地分解为三个维度:视觉(例如动态纹理、新桌面)、语义(例如不可见物体、指令变体)和执行(例如物体位置变化、机器人初始姿势)。实验结果清楚地证明了强化学习的优势。 RL显示出明显的优势当涉及到理解任务时,语义尤其是不可见的物体抓取任务。它在执行方面明显更加稳健。无论是物体位置的变化、机器人初始位姿的位移,还是任务执行过程中物体的位移,RL都表现出了非常强的适应性。从视觉泛化的角度来看,这两种方法同样有效。通过直观地分析具体案例,研究团队可以发现深刻的差异。在强噪声干扰下,SFT策略在抓取物体后反复跌倒,而RL策略则可以稳定完成任务。当面对看不见的物体时,SFT很容易陷入无限循环,反复尝试抓住他所持有的物体,而RL则可以做出正确的决定并完成放置。最明显的是ej轨迹执行分布的差异。强化学习探索更大的工作空间和更丰富的末端执行器姿势,而 SFT 轨迹则聚集在演示数据中的运动规划路径周围。这种广泛的覆盖范围可以解释强化学习在任务方面的卓越泛化能力。这项工作不仅为训练VLA模型提供了新的方向,更重要的是展示了强化学习在构建真正通用的嵌入式智能体方面的核心价值。随着机器人应用场景变得越来越复杂和多变,通过试错学习和自主适应新环境的能力变得越来越重要。该团队正致力于研究强化学习在VLA中的应用,并开源了RLinf(https://github.com/RLinf/RLinf),这是第一个用于嵌入式智能的大规模“渲染、训练、推送集成”强化的学习框架。我们的网站上提供了更广泛的实验结果。
特别提示:以上内容(包括图片和视频,如有)为上传发布由自有媒体平台“网易号”用户关注。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注