HuggingFace 论文日报 · 2025-05-21

今天 HuggingFace 上热度最高的论文，涵盖大模型训练算法、推理加速、视频生成、3D 地球建模和计算机视觉分割。挑出 6 篇有代表性的，逐一拆解。

1. 阿里巴巴训练 Qwen3 的关键算法：GSPO

训练大语言模型时，有一个核心问题：怎么让模型「做对了就多做，做错了就少做」？这背后的技术叫强化学习（RL），Qwen3 的训练就重度依赖它。

过去主流做法（GRPO）是在**每个词（token）**上评估「这次生成的好不好」，但这会带来一个麻烦：一段话里每个词的评分都不一样，导致训练信号很不稳定，尤其是遇到 MoE（混合专家模型）这种大型架构，直接会引发训练崩溃。

GSPO 的改法很直觉：把整段话当成一个整体来打分，而不是拆开到每个词。好比你写了一篇作文，老师要么说「这篇整体不错」，要么说「整体差」，而不是对每个字都打分——这样反馈更稳定，学生也更容易学。

结果：GSPO 在训练效率和最终性能上都超过 GRPO，并且解决了 MoE 模型训练不稳定的问题，成为 Qwen3 系列的核心训练技术之一。

2. AI 推理时省一半算力：MUR 动量不确定性方法

现在的推理模型（比如 o1、Qwen3 的思考模式）有个臭名昭著的问题：「过度思考」。给它出一道简单题，它能绕弯绕很久，花费大量的计算 token，但多出来的步骤往往没什么用。

MUR 的核心思路来自物理学里的动量：物体的运动不会在每一瞬间突然变向，而是有惯性、有连续性。把这个概念迁移到推理上——如果模型在推理的某个步骤「很确定」，就不需要花太多算力；如果「不确定」，才多想几步。

MUR 追踪每个推理步骤的不确定性变化趋势（而非只看当前步骤），动态分配「想多少」的预算。还引入了一个叫 gamma-control 的旋钮，让用户可以一个参数调节推理量。

实测结果：在四个数学推理基准（MATH-500、AIME24、AIME25、GPQA-diamond）上，平均减少超过 50% 的计算量，同时准确率还提升了 0.62%–3.37%。不需要重新训练模型，推理时直接用。

3. 输入一段故事，输出一部短片：Captain Cinema

视频生成目前最大的挑战不是「生成一段好看的视频」，而是**「让一部几分钟的短片里所有场景保持连贯」**——同一个角色出现在不同场景，脸和衣服不能变；前一场景是傍晚，下一场景接白天，光线要自然过渡。

Captain Cinema 的解法分两步走：

先规划关键帧（自顶向下）：给定故事大纲，先生成稀疏的关键帧，把整条叙事线的视觉锚点确定下来——角色长什么样、每个场景的构图是什么。这一步确保了跨场景的长程一致性。
再填充动态内容（自底向上）：以关键帧为条件，让视频模型专注于「生成关键帧之间的动态过程」，而不用操心整体连贯性。

底层用的是 MM-DiT（多模态扩散变换器），并专门针对长上下文视频数据设计了交替训练策略。

4. 用 AI 生成千平方公里的 3D 地球：EarthCrafter

已有的 3D 生成模型大多针对单个物体或室内场景，最多几十米范围。EarthCrafter 想做的是把地球表面的大片区域（数百上千平方公里）生成为高质量 3D 场景——比如城市布局、地形地貌。

两个核心创新：

数据层面： 研究团队从谷歌地球上采集了 5 万个场景，每个场景覆盖 600m×600m，共 4500 万帧多视角图像，还附带深度图、语义分割、法线信息。这是目前规模最大的 3D 航拍数据集（Aerial-Earth3D）。

模型层面： 地理场景的结构（山在哪、路在哪）和纹理（植被颜色、建筑材质）是两件事，EarthCrafter 用两个独立的 VAE 分别压缩几何体素和 2D 高斯纹理，再用条件感知的流匹配模型各自生成。分开处理让计算量大幅降低，还支持灵活的输入条件（语义图、参考图，或完全无条件生成）。

5. 图像生成的「测试时算更多」：TTS-VAR

文本生成领域有一个有趣的规律：推理时多花时间想，准确率就会上去（这就是 o1/r1 系列的核心思路）。图像生成能不能也这样？

TTS-VAR 是第一个把「测试时缩放」（Test-Time Scaling）系统化地用到视觉自回归（VAR）模型上的框架。它把图像生成过程建模为路径搜索问题——生成过程中产生多条候选路径，动态筛选最优的继续走。

具体策略：

粗粒度阶段（刚开始生成，大结构未定）：对多个候选进行语义聚类，保留结构多样性，防止过早收敛到一个次优方向。
细粒度阶段（细节填充期）：用「潜力分数」重采样，优先推进质量最高的候选路径。

在 Infinity 模型上测试，GenEval 得分从 0.69 提升到 0.75（提升 8.7%），不需要重新训练。

6. 把图像切成「会一起运动的物体」：SpelkeNet

这篇来自斯坦福和 OpenAI。

现有的图像分割（比如 SAM）是按语义来切的：把「猫」切出来、把「桌子」切出来。但发展心理学里有个更基础的概念叫**「Spelke 对象」**——指的是「物理上会一起运动的东西」。比如一个放在桌子上的杯子，杯子本身是一个 Spelke 对象，而不是「杯子+桌子一起」；如果我推桌子，杯子会跟着动，它们才算同一个 Spelke 对象。

这种切法不依赖类别知识，靠的是物理因果关系，对机器人操作、场景理解这类任务更有用。

SpelkeNet 的核心：训练一个视觉世界模型，让它预测「如果戳图像里的某个区域，其他地方会怎么动」。通过统计多次虚拟戳的结果，找出哪些区域总是「一起动」，就把它们归为同一个 Spelke 对象。

在新提出的 SpelkeBench 数据集上，SpelkeNet 超越了 SAM；在 3DEditBench（机器人物体操作基准）上，使用 SpelkeNet 分割结果的模型性能也更好。

今日导览

论文	领域	一句话核心
GSPO	LLM 训练	把强化学习信号从词级提升到序列级，训练更稳、性能更强
MUR	推理效率	用动量思路动态分配推理预算，省算力 50%、准确率还提升
Captain Cinema	视频生成	先定关键帧再填动态，生成保持跨场景连贯的短片
EarthCrafter	3D 生成	结构与纹理分开建模，生成千公里级地球地形
TTS-VAR	图像生成	把测试时缩放引入图像自回归生成，免训练提升质量 8.7%
SpelkeNet	计算机视觉	按物理运动关系而非语义切分图像，对机器人操作更友好

HuggingFace 论文日报 · 2025-05-21：强化学习训练、推理加速、短片生成与 3D 地球