CUDA二十年最大更新，英伟达CUDA 13.1带来了哪些突破？

通过Batch DFS算法，他们批量生成多种可能的代码路径，一旦某段代码完美解决了所有示例，大概率也能解决测试题。

在比赛的最后10天，NVARC团队还尝试引入了ARC社区非常火的TRM（微型递归模型）。

虽然由于时间仓促，TRM并没有成为得分的主力（主要还是靠Qwen3+合成数据），但这种将「递归推理」与「大模型直觉」结合的思路，非常有启发性。

在最终的集成方案中，TRM也为分数的提升贡献了微薄但宝贵的力量。

NVARC的胜利再次证明了Scaling Law在推理任务上的有效性，但这次Scaling的对象不是模型参数量，而是高质量的合成推理数据。

通往AGI的路上，也许不需要更复杂的架构，只需要更聪明的「造题」方法。

为此，团队除了合成数据，还用了一些真实的谜题数据集。

最终数据集包含了320万个增强样本，每个样本包含多达7对输入/输出。

在后训练（post-training）阶段，团队基于NeMoRL框架，并用Megatron后端进行了监督微调（SFT），这样能高效利用多节点H100GPU的显存和计算资源。

期间，为了全量微调4B模型，团队用了4个8xH100节点跑了27个小时。

在测试时，团队对每个谜题独立进行了LoRA微调（test-timefine-tuning），参数设为r=256和alpha=32。

期间，既要去掉梯度检查点，也要去掉4-bit量化，并且微调要用bfloat16精度去跑。

除了这些，团队还配合Unsloth框架使用了FlashAttention2。

开源项目：https://github.com/1ytic/NVARC

技术报告：https://github.com/1ytic/NVARC/blob/main/nvarc_2025.pdf

团队在ARChitects方法中做的主要优化，是在解码阶段实现了深度优先搜索（DFS）算法的批处理（batch）。

并且，还使用了额外的增强（augmentations）来对DFS阶段的候选结果进行重打分。

CUDA二十年最大更新，英伟达CUDA 13.1带来了哪些突破？(5)