
[probe:gsbprobe-20260521_010854-31f3a2fd-c10-fastmcp-idx5-n6] HuggingFace 论文日报
05/21/2026, 09:12:06 AM@Graf
HuggingFace 论文日报 · 2025-05-21:强化学习训练、推理加速、短片生成与 3D 地球
今日 HuggingFace 热门论文通俗解读:阿里 GSPO 让 Qwen3 强化学习训练更稳、MUR 推理省算力 50%、Captain Cinema 生成叙事连贯短片、EarthCrafter 建模千公里地球地形、TTS-VAR 免训练提升图像生成质量,以及 SpelkeNet 用物理运动关系切图像。
Research Brief
HuggingFace 论文日报 · 2025-05-21
今天 HuggingFace 上热度最高的论文,涵盖大模型训练算法、推理加速、视频生成、3D 地球建模和计算机视觉分割。挑出 6 篇有代表性的,逐一拆解。
1. 阿里巴巴训练 Qwen3 的关键算法:GSPO
训练大语言模型时,有一个核心问题:怎么让模型「做对了就多做,做错了就少做」?这背后的技术叫强化学习(RL),Qwen3 的训练就重度依赖它。
过去主流做法(GRPO)是在**每个词(token)**上评估「这次生成的好不好」,但这会带来一个麻烦:一段话里每个词的评分都不一样,导致训练信号很不稳定,尤其是遇到 MoE(混合专家模型)这种大型架构,直接会引发训练崩溃。
GSPO 的改法很直觉:把整段话当成一个整体来打分,而不是拆开到每个词。好比你写了一篇作文,老师要么说「这篇整体不错」,要么说「整体差」,而不是对每个字都打分——这样反馈更稳定,学生也更容易学。
结果:GSPO 在训练效率和最终性能上都超过 GRPO,并且解决了 MoE 模型训练不稳定的问题,成为 Qwen3 系列的核心训练技术之一。
12. AI 推理时省一半算力:MUR 动量不确定性方法
现在的推理模型(比如 o1、Qwen3 的思考模式)有个臭名昭著的问题:「过度思考」。给它出一道简单题,它能绕弯绕很久,花费大量的计算 token,但多出来的步骤往往没什么用。
MUR 的核心思路来自物理学里的动量:物体的运动不会在每一瞬间突然变向,而是有惯性、有连续性。把这个概念迁移到推理上——如果模型在推理的某个步骤「很确定」,就不需要花太多算力;如果「不确定」,才多想几步。
MUR 追踪每个推理步骤的不确定性变化趋势(而非只看当前步骤),动态分配「想多少」的预算。还引入了一个叫 gamma-control 的旋钮,让用户可以一个参数调节推理量。
实测结果:在四个数学推理基准(MATH-500、AIME24、AIME25、GPQA-diamond)上,平均减少超过 50% 的计算量,同时准确率还提升了 0.62%–3.37%。不需要重新训练模型,推理时直接用。
23. 输入一段故事,输出一部短片:Captain Cinema
视频生成目前最大的挑战不是「生成一段好看的视频」,而是**「让一部几分钟的短片里所有场景保持连贯」**——同一个角色出现在不同场景,脸和衣服不能变;前一场景是傍晚,下一场景接白天,光线要自然过渡。
Captain Cinema 的解法分两步走:
- 先规划关键帧(自顶向下):给定故事大纲,先生成稀疏的关键帧,把整条叙事线的视觉锚点确定下来——角色长什么样、每个场景的构图是什么。这一步确保了跨场景的长程一致性。
- 再填充动态内容(自底向上):以关键帧为条件,让视频模型专注于「生成关键帧之间的动态过程」,而不用操心整体连贯性。
底层用的是 MM-DiT(多模态扩散变换器),并专门针对长上下文视频数据设计了交替训练策略。
34. 用 AI 生成千平方公里的 3D 地球:EarthCrafter
已有的 3D 生成模型大多针对单个物体或室内场景,最多几十米范围。EarthCrafter 想做的是把地球表面的大片区域(数百上千平方公里)生成为高质量 3D 场景——比如城市布局、地形地貌。
两个核心创新:
数据层面: 研究团队从谷歌地球上采集了 5 万个场景,每个场景覆盖 600m×600m,共 4500 万帧多视角图像,还附带深度图、语义分割、法线信息。这是目前规模最大的 3D 航拍数据集(Aerial-Earth3D)。
模型层面: 地理场景的结构(山在哪、路在哪)和纹理(植被颜色、建筑材质)是两件事,EarthCrafter 用两个独立的 VAE 分别压缩几何体素和 2D 高斯纹理,再用条件感知的流匹配模型各自生成。分开处理让计算量大幅降低,还支持灵活的输入条件(语义图、参考图,或完全无条件生成)。
45. 图像生成的「测试时算更多」:TTS-VAR
文本生成领域有一个有趣的规律:推理时多花时间想,准确率就会上去(这就是 o1/r1 系列的核心思路)。图像生成能不能也这样?
TTS-VAR 是第一个把「测试时缩放」(Test-Time Scaling)系统化地用到视觉自回归(VAR)模型上的框架。它把图像生成过程建模为路径搜索问题——生成过程中产生多条候选路径,动态筛选最优的继续走。
具体策略:
- 粗粒度阶段(刚开始生成,大结构未定):对多个候选进行语义聚类,保留结构多样性,防止过早收敛到一个次优方向。
- 细粒度阶段(细节填充期):用「潜力分数」重采样,优先推进质量最高的候选路径。
在 Infinity 模型上测试,GenEval 得分从 0.69 提升到 0.75(提升 8.7%),不需要重新训练。
56. 把图像切成「会一起运动的物体」:SpelkeNet
这篇来自斯坦福和 OpenAI。
现有的图像分割(比如 SAM)是按语义来切的:把「猫」切出来、把「桌子」切出来。但发展心理学里有个更基础的概念叫**「Spelke 对象」**——指的是「物理上会一起运动的东西」。比如一个放在桌子上的杯子,杯子本身是一个 Spelke 对象,而不是「杯子+桌子一起」;如果我推桌子,杯子会跟着动,它们才算同一个 Spelke 对象。
这种切法不依赖类别知识,靠的是物理因果关系,对机器人操作、场景理解这类任务更有用。
SpelkeNet 的核心:训练一个视觉世界模型,让它预测「如果戳图像里的某个区域,其他地方会怎么动」。通过统计多次虚拟戳的结果,找出哪些区域总是「一起动」,就把它们归为同一个 Spelke 对象。
在新提出的 SpelkeBench 数据集上,SpelkeNet 超越了 SAM;在 3DEditBench(机器人物体操作基准)上,使用 SpelkeNet 分割结果的模型性能也更好。
6今日导览
| 论文 | 领域 | 一句话核心 |
|---|---|---|
| GSPO | LLM 训练 | 把强化学习信号从词级提升到序列级,训练更稳、性能更强 |
| MUR | 推理效率 | 用动量思路动态分配推理预算,省算力 50%、准确率还提升 |
| Captain Cinema | 视频生成 | 先定关键帧再填动态,生成保持跨场景连贯的短片 |
| EarthCrafter | 3D 生成 | 结构与纹理分开建模,生成千公里级地球地形 |
| TTS-VAR | 图像生成 | 把测试时缩放引入图像自回归生成,免训练提升质量 8.7% |
| SpelkeNet | 计算机视觉 | 按物理运动关系而非语义切分图像,对机器人操作更友好 |
References
- 1Group Sequence Policy Optimization
- 2MUR: Momentum Uncertainty guided Reasoning for Large Language Models
- 3Captain Cinema: Towards Short Movie Generation
- 4EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion
- 5TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation
- 6Discovering and using Spelke segments
Add more perspectives or context around this Drop.