“全球最强智算”王座刚刚易主：阿里一举击败谷歌

总体而言，"扶摇"具备两大特征。

首先就是以超大规模GPU算力作为AI模型迭代的基础。

这是因为自动驾驶、或者说智能汽车上的核心功能，其实都是AI，是大规模的深度学习算法。

而无论是训练，还是测试这样的模型，扮演主角的不再是传统CPU的逻辑推理能力，而是以AI加速器为主的浮点计算能力，GPU则是当前AI加速器的主流。

其次，便是提供了针对自动驾驶应用特征的计算集群、性能加速软件和AI大数据一体式平台，使得模型训练速度、GPU资源利用率和算法研发效能都大大提升。

据了解，目前已经建成交付的扶摇智算中心，总算力达到600PFLOPS，即每秒进行6x1017次浮点运算。

整体计算效率上，扶摇实现了算力的线性扩展。存储吞吐比业界20GB/s的普遍水准提升了40倍，数据传输能力相当于从送快递的微型面包车，换成了20多米长的40吨集装箱重卡。

这也就是自动驾驶核心模型训练时间，能够由7天缩短至1小时内的主要原因。

而自动驾驶，只是飞天智算中心应用的场景之一。

在科研领域，也早已处于"上岗"状态。

北京大学化学与分子工程学院便利用阿里云的智能算力，将靶向药研究数据集计算效率提升了100倍。

此前算法依赖的是单机式算力，受限于软硬件的限制，往往系统整体性能偏低，无法满足快速增长的算力需求。而通过集群进行并行计算，能让算力规模不再成为掣肘。

“全球最强智算”王座刚刚易主：阿里一举击败谷歌

不过有一说一，算力这个东西，其实通过自行购买GPU搭建集群的方式便可以获取，而且此前行业内普遍的做法也是如此。

那么为什么诸多领域现在都开始时兴采用智算中心了呢？

这是因为近年来，不论是自动驾驶、元宇宙，亦或是生命科学天文学，各类科研和产业应用的发展，都越发具备数智驱动的趋势，这种情况下算的更快往往就是核心优势，算力成为了绝对的生产力。

基于如此现状，智能计算可以提供更加多元化的算力服务，逐渐成为了主流选择。

但智能计算不同于通用型计算，需要海量数据对AI模型进行训练，算力往往在模型参数更新、数据迁移等环节被消耗，千卡以上规模仅有40%的有效算力输出，甚至出现计算卡越多，总体性能越差的情况。

这便导致了规模化的算力的获取困难，不仅硬件成本昂贵，而且还需要专业的技术从系统架构、软件等方面进行深度重构和优化，自建智算中心，成本和时间便成为了最大的敌人。

以自动驾驶为例，复杂路况下的复杂决策能力，包括识别红绿灯、路口、行车车辆等等，其实已经进入L3-L4级范围。

按照如此迭代速度，未来3-5年，自动驾驶研发很快会进入较为成熟的L4级甚至是L5级，迭代所需算力规模也会快速上升到只有"智算中心"才能满足。

算力需求的指数级膨胀，造成目前自动驾驶玩家的"算力"焦虑越来越严重。

因此，当下自动驾驶对于智算中心的需求，其实是为保持持续的技术领先优势做储备。

而飞天智算中心便在拿下全球第一速度之外，还规避了诸多传统高性能计算固有的疑难杂症。

为了解开这些疑难，阿里连顶会最佳论文都没少拿。

"全球最强"背后的一套功法

秘密就藏在背后的飞天智算平台：

一个可以持续进化的智能算力系统。

“全球最强智算”王座刚刚易主：阿里一举击败谷歌

换句话说，做智算中心不能仅考虑基础设施和硬件，也要考虑其上运行的软件平台、算法和服务。

这其中最重要的是做到软硬一体，通过"打磨"让软件和硬件在一个平台中真正相互融合。

首先，要做到单集群12EFLOPS的算力峰值，仅靠单块芯片无法完成，就需要考虑并行效率的问题。

如果在一台普通电脑里装两张相同的游戏显卡，大概只能获得75%的性能，也就是花了两份钱只享受到一份半的效果。

类似的问题在智算中心也存在，而且更严重。因为要用到上千张GPU做并行计算，算力输出最低往往仅有40%左右。花一千份的钱，只享受四百份的效果，亏大了。

那么在飞天智算平台，千卡并行的效率可以做到多少呢？

90%。

要做到这一点，最关键的就是减少非计算部分的开销--上图里的阿里云灵骏智能计算就是干这事的。

“全球最强智算”王座刚刚易主：阿里一举击败谷歌

△采用浸没式液冷的灵骏智能计算，Pue低至1.09

此外，还需要分布式并行计算框架、混合精度、数据通信的优化、I/O的优化等，都需要在业务实践中反复打磨、相互配合才能做到极致的优化。

除了GPU之外，构建如此大规模算力也少不了异构计算。

飞天智算平台适配多种芯片架构，支持X86、ARM、GPU、NPU等多种处理器混合部署和统一调度。

据灵骏产品研发负责人曹政透露，为了支持国产化芯片的生态发展，在云服务的领域他们甚至做到了比厂商更好的性能调优。

“全球最强智算”王座 刚刚易主：阿里一举击败谷歌(2)