CUDA二十年最大更新，英伟达CUDA 13.1带来了哪些突破？

模型选择：小模型，大智慧

有了海量数据，用什么模型来学呢？

NVARC并没有使用乃至微调那种几千亿参数的巨型模型，而是选择了Qwen3（4B参数）。

为什么选小模型？

1. 速度快：ARC竞赛有严格的时间限制，小模型推理飞快。

2. 效果好：在特定领域（Coding/Reasoning）的海量高质量合成数据喂养下，4B模型的表现完全可以吊打未经微调的巨型模型。

他们使用NeMoRL框架和Megatron后端进行了高效的全量微调（SFT），让模型学会了「看图写代码」的能力。

推理时的魔法：TTT与DFS

模型训练好了，在考场上（推理阶段）怎么发挥最大威力？

NVARC用了两个大招：

对于测试集中的每一个新谜题，他们不会直接预测答案，而是先利用该谜题给出的几个示例，快速用LoRA技术微调一下模型。

让模型在做题前，先「适应」一下这个题目的独特风格。

深度优先搜索（DFS）

模型生成的不仅仅是答案，而是生成答案的Python代码。这意味着，他们可以运行这些代码来验证结果是否符合示例。

CUDA二十年最大更新，英伟达CUDA 13.1带来了哪些突破？(4)