“全球最强智算”王座 刚刚易主:阿里一举击败谷歌(2)

2022-08-30 16:50  量子位

总体而言,"扶摇"具备两大特征。

首先就是以超大规模GPU算力作为AI模型迭代的基础。

这是因为自动驾驶、或者说智能汽车上的核心功能,其实都是AI,是大规模的深度学习算法。

而无论是训练,还是测试这样的模型,扮演主角的不再是传统CPU的逻辑推理能力,而是以AI加速器为主的浮点计算能力,GPU则是当前AI加速器的主流。

其次,便是提供了针对自动驾驶应用特征的计算集群、性能加速软件和AI大数据一体式平台,使得模型训练速度、GPU资源利用率和算法研发效能都大大提升。

据了解,目前已经建成交付的扶摇智算中心,总算力达到600PFLOPS,即每秒进行6x1017次浮点运算。

整体计算效率上,扶摇实现了算力的线性扩展。存储吞吐比业界20GB/s的普遍水准提升了40倍,数据传输能力相当于从送快递的微型面包车,换成了20多米长的40吨集装箱重卡。

这也就是自动驾驶核心模型训练时间,能够由7天缩短至1小时内的主要原因。

而自动驾驶,只是飞天智算中心应用的场景之一。

在科研领域,也早已处于"上岗"状态。

北京大学化学与分子工程学院便利用阿里云的智能算力,将靶向药研究数据集计算效率提升了100倍。

此前算法依赖的是单机式算力,受限于软硬件的限制,往往系统整体性能偏低,无法满足快速增长的算力需求。而通过集群进行并行计算,能让算力规模不再成为掣肘。

“全球最强智算”王座 刚刚易主:阿里一举击败谷歌

不过有一说一,算力这个东西,其实通过自行购买GPU搭建集群的方式便可以获取,而且此前行业内普遍的做法也是如此。

那么为什么诸多领域现在都开始时兴采用智算中心了呢?

这是因为近年来,不论是自动驾驶、元宇宙,亦或是生命科学天文学,各类科研和产业应用的发展,都越发具备数智驱动的趋势,这种情况下算的更快往往就是核心优势,算力成为了绝对的生产力。

基于如此现状,智能计算可以提供更加多元化的算力服务,逐渐成为了主流选择。

但智能计算不同于通用型计算,需要海量数据对AI模型进行训练,算力往往在模型参数更新、数据迁移等环节被消耗,千卡以上规模仅有40%的有效算力输出,甚至出现计算卡越多,总体性能越差的情况。

这便导致了规模化的算力的获取困难,不仅硬件成本昂贵,而且还需要专业的技术从系统架构、软件等方面进行深度重构和优化,自建智算中心,成本和时间便成为了最大的敌人。

以自动驾驶为例,复杂路况下的复杂决策能力,包括识别红绿灯、路口、行车车辆等等,其实已经进入L3-L4级范围。

按照如此迭代速度,未来3-5年,自动驾驶研发很快会进入较为成熟的L4级甚至是L5级,迭代所需算力规模也会快速上升到只有"智算中心"才能满足。

算力需求的指数级膨胀,造成目前自动驾驶玩家的"算力"焦虑越来越严重。

因此,当下自动驾驶对于智算中心的需求,其实是为保持持续的技术领先优势做储备。

而飞天智算中心便在拿下全球第一速度之外,还规避了诸多传统高性能计算固有的疑难杂症。

为了解开这些疑难,阿里连顶会最佳论文都没少拿。

"全球最强"背后的一套功法

秘密就藏在背后的飞天智算平台:

一个可以持续进化的智能算力系统。

“全球最强智算”王座 刚刚易主:阿里一举击败谷歌

换句话说,做智算中心不能仅考虑基础设施和硬件,也要考虑其上运行的软件平台、算法和服务。

这其中最重要的是做到软硬一体,通过"打磨"让软件和硬件在一个平台中真正相互融合。

首先,要做到单集群12EFLOPS的算力峰值,仅靠单块芯片无法完成,就需要考虑并行效率的问题。

如果在一台普通电脑里装两张相同的游戏显卡,大概只能获得75%的性能,也就是花了两份钱只享受到一份半的效果。

类似的问题在智算中心也存在,而且更严重。因为要用到上千张GPU做并行计算,算力输出最低往往仅有40%左右。花一千份的钱,只享受四百份的效果,亏大了。

那么在飞天智算平台,千卡并行的效率可以做到多少呢?

90%。

要做到这一点,最关键的就是减少非计算部分的开销--上图里的阿里云灵骏智能计算就是干这事的。

“全球最强智算”王座 刚刚易主:阿里一举击败谷歌

△采用浸没式液冷的灵骏智能计算,Pue低至1.09

此外,还需要分布式并行计算框架、混合精度、数据通信的优化、I/O的优化等,都需要在业务实践中反复打磨、相互配合才能做到极致的优化。

除了GPU之外,构建如此大规模算力也少不了异构计算。

飞天智算平台适配多种芯片架构,支持X86、ARM、GPU、NPU等多种处理器混合部署和统一调度。

据灵骏产品研发负责人曹政透露,为了支持国产化芯片的生态发展,在云服务的领域他们甚至做到了比厂商更好的性能调优。