CUDA二十年最大更新,英伟达CUDA 13.1带来了哪些突破?(5)

2025-12-09 13:24  头条

通过Batch DFS算法,他们批量生成多种可能的代码路径,一旦某段代码完美解决了所有示例,大概率也能解决测试题。

在比赛的最后10天,NVARC团队还尝试引入了ARC社区非常火的TRM(微型递归模型)。

虽然由于时间仓促,TRM并没有成为得分的主力(主要还是靠Qwen3+合成数据),但这种将「递归推理」与「大模型直觉」结合的思路,非常有启发性。

在最终的集成方案中,TRM也为分数的提升贡献了微薄但宝贵的力量。

NVARC的胜利再次证明了Scaling Law在推理任务上的有效性,但这次Scaling的对象不是模型参数量,而是高质量的合成推理数据。

  • 数据:用LLM生成代码,用代码生成数据。
  • 模型:专精的小模型+针对性微调。
  • 策略:推理时不要只做一次预测,要利用测试样本进行TTT。

通往AGI的路上,也许不需要更复杂的架构,只需要更聪明的「造题」方法。

为此,团队除了合成数据,还用了一些真实的谜题数据集。

最终数据集包含了320万个增强样本,每个样本包含多达7对输入/输出。

在后训练(post-training)阶段,团队基于NeMoRL框架,并用Megatron后端进行了监督微调(SFT),这样能高效利用多节点H100GPU的显存和计算资源。

期间,为了全量微调4B模型,团队用了4个8xH100节点跑了27个小时。

在测试时,团队对每个谜题独立进行了LoRA微调(test-timefine-tuning),参数设为r=256和alpha=32。

期间,既要去掉梯度检查点,也要去掉4-bit量化,并且微调要用bfloat16精度去跑。

除了这些,团队还配合Unsloth框架使用了FlashAttention2。

开源项目:https://github.com/1ytic/NVARC

技术报告:https://github.com/1ytic/NVARC/blob/main/nvarc_2025.pdf

团队在ARChitects方法中做的主要优化,是在解码阶段实现了深度优先搜索(DFS)算法的批处理(batch)。

并且,还使用了额外的增强(augmentations)来对DFS阶段的候选结果进行重打分。