总体而言,"扶摇"具备两大特征。
首先就是以超大规模GPU算力作为AI模型迭代的基础。
这是因为自动驾驶、或者说智能汽车上的核心功能,其实都是AI,是大规模的深度学习算法。
而无论是训练,还是测试这样的模型,扮演主角的不再是传统CPU的逻辑推理能力,而是以AI加速器为主的浮点计算能力,GPU则是当前AI加速器的主流。
其次,便是提供了针对自动驾驶应用特征的计算集群、性能加速软件和AI大数据一体式平台,使得模型训练速度、GPU资源利用率和算法研发效能都大大提升。
据了解,目前已经建成交付的扶摇智算中心,总算力达到600PFLOPS,即每秒进行6x1017次浮点运算。
整体计算效率上,扶摇实现了算力的线性扩展。存储吞吐比业界20GB/s的普遍水准提升了40倍,数据传输能力相当于从送快递的微型面包车,换成了20多米长的40吨集装箱重卡。
这也就是自动驾驶核心模型训练时间,能够由7天缩短至1小时内的主要原因。
而自动驾驶,只是飞天智算中心应用的场景之一。
在科研领域,也早已处于"上岗"状态。
北京大学化学与分子工程学院便利用阿里云的智能算力,将靶向药研究数据集计算效率提升了100倍。
此前算法依赖的是单机式算力,受限于软硬件的限制,往往系统整体性能偏低,无法满足快速增长的算力需求。而通过集群进行并行计算,能让算力规模不再成为掣肘。

不过有一说一,算力这个东西,其实通过自行购买GPU搭建集群的方式便可以获取,而且此前行业内普遍的做法也是如此。
那么为什么诸多领域现在都开始时兴采用智算中心了呢?
这是因为近年来,不论是自动驾驶、元宇宙,亦或是生命科学天文学,各类科研和产业应用的发展,都越发具备数智驱动的趋势,这种情况下算的更快往往就是核心优势,算力成为了绝对的生产力。
基于如此现状,智能计算可以提供更加多元化的算力服务,逐渐成为了主流选择。
但智能计算不同于通用型计算,需要海量数据对AI模型进行训练,算力往往在模型参数更新、数据迁移等环节被消耗,千卡以上规模仅有40%的有效算力输出,甚至出现计算卡越多,总体性能越差的情况。
这便导致了规模化的算力的获取困难,不仅硬件成本昂贵,而且还需要专业的技术从系统架构、软件等方面进行深度重构和优化,自建智算中心,成本和时间便成为了最大的敌人。
以自动驾驶为例,复杂路况下的复杂决策能力,包括识别红绿灯、路口、行车车辆等等,其实已经进入L3-L4级范围。
按照如此迭代速度,未来3-5年,自动驾驶研发很快会进入较为成熟的L4级甚至是L5级,迭代所需算力规模也会快速上升到只有"智算中心"才能满足。
算力需求的指数级膨胀,造成目前自动驾驶玩家的"算力"焦虑越来越严重。
因此,当下自动驾驶对于智算中心的需求,其实是为保持持续的技术领先优势做储备。
而飞天智算中心便在拿下全球第一速度之外,还规避了诸多传统高性能计算固有的疑难杂症。
为了解开这些疑难,阿里连顶会最佳论文都没少拿。
"全球最强"背后的一套功法
秘密就藏在背后的飞天智算平台:
一个可以持续进化的智能算力系统。

换句话说,做智算中心不能仅考虑基础设施和硬件,也要考虑其上运行的软件平台、算法和服务。
这其中最重要的是做到软硬一体,通过"打磨"让软件和硬件在一个平台中真正相互融合。
首先,要做到单集群12EFLOPS的算力峰值,仅靠单块芯片无法完成,就需要考虑并行效率的问题。
如果在一台普通电脑里装两张相同的游戏显卡,大概只能获得75%的性能,也就是花了两份钱只享受到一份半的效果。
类似的问题在智算中心也存在,而且更严重。因为要用到上千张GPU做并行计算,算力输出最低往往仅有40%左右。花一千份的钱,只享受四百份的效果,亏大了。
那么在飞天智算平台,千卡并行的效率可以做到多少呢?
90%。
要做到这一点,最关键的就是减少非计算部分的开销--上图里的阿里云灵骏智能计算就是干这事的。

△采用浸没式液冷的灵骏智能计算,Pue低至1.09
此外,还需要分布式并行计算框架、混合精度、数据通信的优化、I/O的优化等,都需要在业务实践中反复打磨、相互配合才能做到极致的优化。
除了GPU之外,构建如此大规模算力也少不了异构计算。
飞天智算平台适配多种芯片架构,支持X86、ARM、GPU、NPU等多种处理器混合部署和统一调度。
据灵骏产品研发负责人曹政透露,为了支持国产化芯片的生态发展,在云服务的领域他们甚至做到了比厂商更好的性能调优。










