cuBLAS Blackwell性能
CUDA Toolkit 12.9在Blackwell上引入了块缩放(block-scaled)的FP4和FP8 matmul。
CUDA13.1增加了对这些数据类型和BF16的性能支持。

在不同数值精度下,Blackwell GPU相对于H200的加速比
cuSOLVER Blackwell性能
CUDA13.1继续改进用于特征值分解的批处理SYEVD和GEEV API,提供了性能增强。
批处理SYEV(cusolverDnXsyevBatched)是cuSOLVER SYEV例程的统一批处理版本,用于计算对称/厄米矩阵的特征值和特征向量,非常适合并行求解许多小矩阵。
在批量大小为5000(24-256行)的测试中,与L40S相比,RTX Pro 6000实现了约2倍的加速.

cusolverDnXgeev(GEEV)是一种混合CPU/GPU算法,用于计算一般(非对称)稠密矩阵的特征值和特征向量。
在矩阵大小从1024到32768的测试中,RTX PRO 6000相对于L40S实现了最大超1.5倍的性能。










