团队在这里做了一点小改动。
也就是,对每个候选解只用了8次增强,但确保对每个候选解使用完全相同的增强。
如此一来,不同解法的分数更有可比性。
比赛期间,团队在不同比例的合成数据上微调了模型。
从下图中可以看到,在预训练阶段增加更多数据对损失函数的影响。
最好的模型在比赛期间拿到了27.64%的分数。


20年最大更新
CUDA 13.1彻底重构
CUDA Tile编程
为了帮助开发者为当前和未来的GPU构建软件,CUDA 13.1重磅推出了CUDA Tile。
基于此,开发者可以直接在SIMT之上的一层编写GPU Kernel(核函数)。
在SIMT编程中,开发者需要通过划分数据和定义每个线程的执行路径来指定Kernel。而通过CUDA Tile,则可以将代码提升一个层级,指定为Tile数据块。
开发者只需指定要在这些Tile上执行的数学运算,编译器和运行时会自动确定将工作分发到各个线程的最佳方式。
不仅如此,由于Tile模型屏蔽了使用Tensor Core等专用硬件的细节,因此开发者现在写的Tile代码将直接兼容未来的GPU架构。
除此之外,CUDA13.1还发布了两个用于Tile编程的组件:
- CUDA TileIR:一种用于对英伟达GPU进行编程的新虚拟指令集架构(ISA)。
- cuTile Python:一种新的领域特定语言(DSL),用于在Python中编写基于数组和Tile的Kernel。










