CUDA二十年最大更新，英伟达CUDA 13.1带来了哪些突破？

cuBLAS Blackwell性能

CUDA Toolkit 12.9在Blackwell上引入了块缩放（block-scaled）的FP4和FP8 matmul。

CUDA13.1增加了对这些数据类型和BF16的性能支持。

在不同数值精度下，Blackwell GPU相对于H200的加速比

cuSOLVER Blackwell性能

CUDA13.1继续改进用于特征值分解的批处理SYEVD和GEEV API，提供了性能增强。

批处理SYEV（cusolverDnXsyevBatched）是cuSOLVER SYEV例程的统一批处理版本，用于计算对称/厄米矩阵的特征值和特征向量，非常适合并行求解许多小矩阵。

在批量大小为5000（24-256行）的测试中，与L40S相比，RTX Pro 6000实现了约2倍的加速.

cusolverDnXgeev（GEEV）是一种混合CPU/GPU算法，用于计算一般（非对称）稠密矩阵的特征值和特征向量。

在矩阵大小从1024到32768的测试中，RTX PRO 6000相对于L40S实现了最大超1.5倍的性能。

CUDA二十年最大更新，英伟达CUDA 13.1带来了哪些突破？(10)