CUDA二十年最大更新,英伟达CUDA 13.1带来了哪些突破?(9)

2025-12-09 13:24  头条

要使用此新功能,请使用如下NVCC标志编译代码:

nvcc -fdevice-sanitize=memcheck -o myapp myapp.cu

然后使用memcheck工具通过compute-sanitizer运行你的应用程序:

compute-sanitizer --tool memcheck myapp

NVIDIA Nsight Systems

NVIDIA Nsight Systems 2025.6.1与CUDA Toolkit 13.1同步发布,其中包括了多个全新的追踪功能:

  • 系统级CUDA追踪:--cuda-trace-scope启用跨进程树或整个系统的追踪。
  • CUDA主机函数追踪:增加了对CUDA Graph主机函数节点和cudaLaunchHostFunc()的追踪支持,后者在主机上执行并阻塞Stream。
  • CUDA硬件追踪:在支持的情况下,基于硬件的追踪现在是默认设置;使用--trace=cuda-sw可恢复到软件模式。
  • Green Context时间轴行现在在工具提示中显示SM分配,帮助开发者了解GPU资源利用率。

数学库

核心CUDA Toolkit数学库的新功能包括:

  • NVIDIA cuBLAS

一个新的带有Grouped GEMM的实验性API,支持Blackwell GPU上的FP8和BF16/FP16。

针对上述数据类型的Grouped GEMM,提供了一种无需主机同步的实现,在MoE用例中比多流GEMM实现速度提升高达4倍。

  • NVIDIA cuSPARSE

一个新的稀疏矩阵向量乘法(SpMVOp)API,与CsrMV API相比性能有所提高。

此API支持CSR格式、32位索引、双精度和用户定义的epilogue(后处理)。

  • NVIDIA cuFFT

一组cuFFT device API,提供用于在C++头文件中查询或生成设备函数代码和数据库元数据的主机函数。

它专为cuFFTDx库设计,通过查询cuFFT来促进cuFFTDx代码块的生成,这些代码块可以与cuFFTDx应用程序链接来提高性能。