通过Batch DFS算法,他们批量生成多种可能的代码路径,一旦某段代码完美解决了所有示例,大概率也能解决测试题。

在比赛的最后10天,NVARC团队还尝试引入了ARC社区非常火的TRM(微型递归模型)。
虽然由于时间仓促,TRM并没有成为得分的主力(主要还是靠Qwen3+合成数据),但这种将「递归推理」与「大模型直觉」结合的思路,非常有启发性。
在最终的集成方案中,TRM也为分数的提升贡献了微薄但宝贵的力量。
NVARC的胜利再次证明了Scaling Law在推理任务上的有效性,但这次Scaling的对象不是模型参数量,而是高质量的合成推理数据。
- 数据:用LLM生成代码,用代码生成数据。
- 模型:专精的小模型+针对性微调。
- 策略:推理时不要只做一次预测,要利用测试样本进行TTT。
通往AGI的路上,也许不需要更复杂的架构,只需要更聪明的「造题」方法。
为此,团队除了合成数据,还用了一些真实的谜题数据集。
最终数据集包含了320万个增强样本,每个样本包含多达7对输入/输出。

在后训练(post-training)阶段,团队基于NeMoRL框架,并用Megatron后端进行了监督微调(SFT),这样能高效利用多节点H100GPU的显存和计算资源。
期间,为了全量微调4B模型,团队用了4个8xH100节点跑了27个小时。
在测试时,团队对每个谜题独立进行了LoRA微调(test-timefine-tuning),参数设为r=256和alpha=32。
期间,既要去掉梯度检查点,也要去掉4-bit量化,并且微调要用bfloat16精度去跑。
除了这些,团队还配合Unsloth框架使用了FlashAttention2。

开源项目:https://github.com/1ytic/NVARC
技术报告:https://github.com/1ytic/NVARC/blob/main/nvarc_2025.pdf
团队在ARChitects方法中做的主要优化,是在解码阶段实现了深度优先搜索(DFS)算法的批处理(batch)。
并且,还使用了额外的增强(augmentations)来对DFS阶段的候选结果进行重打分。










