您现在的位置: 首页> 热点 >

腾讯混元开源首个面向世界模型的强化学习后训练框架WorldCompass 每日看点

2026-03-10 15:22:58来源:智通财经


(资料图)

智通财经APP获悉,3月10日,腾讯混元公众号发文称,其3D团队开源业界首个面向世界模型的强化学习后训练框架WorldCompass,这是此前发布的混元世界模型1.5 官方强化学习扩展模块,能够让世界模型的交互更加准确,体验更好。

据介绍,WorldCompass是一个专为长时序、交互式世界模型设计的强化学习(RL)后训练框架,通过引入强化学习机制,直接“引导”模型如何更准确地遵循用户指令探索世界,并保持长时序的视觉一致性。

实验表明,WorldCompass能显著提升 SOTA 开源世界模型(WorldPlay)的交互准确率和视觉保真度,特别是在复杂的组合动作场景下,交互准确率提升了近35%。

技术亮点方面,WorldCompass针对自回归世界生成的特性,对传统 RL 框架进行了全方位的重构,提出了三大核心创新:一是切片级采样:针对自回归世界生成的细粒度采样策略;二是3D奖励函数:拒绝“奖励刷分”;三是高效 RL 优化算法:让训练更稳、更快。

标签: 算法 时序 腾讯 新论文 强化学习 混元