“全球最强智算”王座 刚刚易主:阿里一举击败谷歌(3)

2022-08-30 16:50  量子位

那么,这种"打磨"的能力从何而来?

源于阿里多年的业务实践。

拿淘宝来说,商品搜索、智能客服、千人千面的个性化推荐等,平均每天需要处理10亿张图像、120万小时视频、55万小时语音和5000亿句自然语言。

每逢618、双11大促,更是要面对峰值负载的考验,多年来已沉淀出适应实际需求的技术体系和最佳工程实践。

在AI开发层,阿里云还有两个杀手锏:PAI-EPL和PAI-Blade。

前者能够支撑万亿级参数的大模型训练,提供了包括数据并行、模型并行、流水并行在内的丰富的分布式训练能力。

在内部测试中,PAI-EPL只用了512张 GPU就完成了M6万亿模型的训练,大幅降低了超大模型训练的成本,将训练效率提升了11倍以上。

PAI-Blade则为用户提供了一站式的通用推理优化工具,对算法模型进行量化、剪枝、稀疏化、蒸馏等操作,尽量避免用户改模型代码,可将推理效率提升6倍以上,极大地方便用户使用。

这些综合技术整合到一起,就成了飞天智算平台软硬一体能力的来源。

“全球最强智算”王座 刚刚易主:阿里一举击败谷歌

除了智算中心自身软硬件之外,其上运行的算法和智能服务也是飞天智算平台中的重要能力。

全链路AI开发工具与大数据服务,包括阿里云大数据+AI一体化产品体系,集合了机器学习平台PAI、大数据开发与治理平台DataWorks、MaxCompute、Hologres、Flink等计算引擎实现架构统一。

如此一来,可适用于多种AI场景的计算和开发需求,包括科学研究、精准医学、气象预报、数字孪生、自动驾驶等多种场景。最多可提升AI训练效率11倍,推理效率6倍。

另外说到智能算法也别忘了达摩院。据介绍,达摩院开源的M6大模型从诞生之初就与飞天智算平台一起生长,相互配合起来更能发挥出彼此的实力。

最后,绿色低碳也是飞天智算中心的优势之一。

对于大型算力中心来说,衡量绿色化程度的一个重要指标是能源利用效率(PUE, Power Usage Effectiveness)。

根据《2021年中国数据中心市场报告》,2021年全国数据中心平均PUE为1.49,华北地区平均约为1.40。

这意味着IT设备每消耗1度电,就有额外的0.9度电用于散热、供配电系统本身的消耗、照明等其他用途。

而张北智算中心采用了行业独有的单相浸没式液冷解决方案,将服务器泡在特殊冷却液里,PUE最低可以达到1.09,行业领先。

“全球最强智算”王座 刚刚易主:阿里一举击败谷歌

△图:阿里云浸没式液冷服务器

此外,AI调温和模块化设计等都起到了关键作用。

不仅如此,智算中心选址在张北还可以利用起当地充足的光伏和风电资源,做到100%使用清洁能源。

不过为了克服光伏和风力发电不稳定的问题,也需要更强大的供配电技术来保障。

如何评价全球智算王座易主?

纵向看时间。

两年前,阿里首次公开自研AI集群细节,那篇论文还被计算机体系结构顶级会议HPCA 2020收录。

不过在多年来一直参与平台建设的曹政看来,当年团队把注意力单纯的集中在了技术上。

如今升级扩展到智算平台,除了规模扩大,技术进化以外,还更看重产品、服务,看重智算平台能否真正顺滑的与生产流程相结合。

横向看对比。

建设大规模智能算力有几类玩家,云计算公司、AI算法公司、硬件公司。

阿里在其中是一种比较特别的存在,既有自研云计算技术体系,又有内部AI业务的大量实践,最近又开始涉足自研芯片。

如此打造出来的智算平台高度自主可控,既能以此为蓝本不断复制出新的智算中心,又能在服务不同行业时低成本迁移。

如专为小鹏汽车定制打造的乌兰察布智算中心便是很好的例证。

如果把目光拉远,更大的图景在于数字化升级、智能化转型。

这些年来,智算中心的服务对象从大型技术公司、AI算法初创公司,逐渐扩展到自动驾驶、AI for Science等交叉行业。

随着智能化转型逐渐深入,不久的将来还要服务于农业、制造业、能源、物流这些离IT技术更远的行业,而越是这样的行业就越是需要端到端的解决方案。

从这一点来看,强调"打磨"、"顺滑"的飞天智算平台,再一次"幸运地"引领了时代趋势。