模型选择:小模型,大智慧
有了海量数据,用什么模型来学呢?
NVARC并没有使用乃至微调那种几千亿参数的巨型模型,而是选择了Qwen3(4B参数)。

为什么选小模型?
1. 速度快:ARC竞赛有严格的时间限制,小模型推理飞快。
2. 效果好:在特定领域(Coding/Reasoning)的海量高质量合成数据喂养下,4B模型的表现完全可以吊打未经微调的巨型模型。
他们使用NeMoRL框架和Megatron后端进行了高效的全量微调(SFT),让模型学会了「看图写代码」的能力。

推理时的魔法:TTT与DFS
模型训练好了,在考场上(推理阶段)怎么发挥最大威力?
NVARC用了两个大招:
- 测试时训练(Test-Time Training,TTT)
对于测试集中的每一个新谜题,他们不会直接预测答案,而是先利用该谜题给出的几个示例,快速用LoRA技术微调一下模型。
让模型在做题前,先「适应」一下这个题目的独特风格。

深度优先搜索(DFS)
模型生成的不仅仅是答案,而是生成答案的Python代码。这意味着,他们可以运行这些代码来验证结果是否符合示例。










