CUDA二十年最大更新,英伟达CUDA 13.1带来了哪些突破?(3)

2025-12-09 13:24  头条

核心秘诀:320万合成数据的「暴力美学」

NVARC方案最震撼的地方,在于他们构建了一个极其复杂的合成数据生成流水线。

他们没有依赖原本稀缺的几百个训练题,而是自己造了320万个!

他们的逻辑很简单:如果AI没见过类似的推理题,那就生成无穷无尽的类似题目让它看个够。

思路:合成数据、测试时训练(Test-timetraining)以及严谨的工程化。

数据生成的「四步走」战略

他们使用了一个120B参数的开源大模型(gpt-oss-120b),通过NeMo-Skills框架搭建了如下流水线:

  • 收集描述(Descriptions):收集ARC题目的人类自然语言描述(比如「把红色方块向右移动直到碰到墙壁」)。
  • 混合重组(MixSummaries):让LLM将两个不同谜题的描述「杂交」,生成一个新的、更复杂的谜题描述。这一步生成了26万+的新创意。
  • 生成输入逻辑(InputLogic):这是最关键的一步!他们不直接生成像素图,而是让LLM写Python代码来生成输入网格。为什么?因为代码蕴含了逻辑,比纯像素更「懂」推理。
  • 生成输出逻辑(OutputLogic):有了输入代码,再让LLM写出将输入变换为输出的Python代码(即解题规则)。

最终,他们构建了一个包含320万个增强样本的超级数据集!