​全国政协委员张云泉:国内智算集群效率普遍偏低,需突破“算力围城”

2025-03-04 18:59  观察者网

"政协委员提案不是'一锤子买卖',不光要四处调研发现问题、写成提案指出问题,还要持续跟进解决问题。"全国政协委员、中国科学院计算技术研究所研究员张云泉用这句话道出了他连续几年聚焦算力基础设施建设而提交提案的初心。  

全国政协委员、中国科学院计算技术研究所研究员张云泉

作为算力领域的专家,张云泉今年再次围绕算力设施建设与智算产业发展,提案呼吁加快高端算力设施建设,提升算力使用效率,以应对人工智能大模型快速发展所带来的"算力围城"困局。"前两年,我的提案关注'东数西算'宏观布局,今年则要聚焦'超智融合'趋势下的发展难题。"张云泉表示道。

对于张云泉而言,一份好的提案不只是写出来的,还是跑出来的。在过去一年的时间里,张云泉走访了众多算力中心及相关企业,对于当下算力产业发展状况进行了敏锐洞察。"我们可以看到伴随DeepSeek等AI开源大模型涌现,大模型在各个行业的应用不断变多,这对算力基础设施建设提出新需求。而当前算力市场存在供需性矛盾:'算力结构单一、高端算力紧缺'。而算力基础设施与国际领先水平存在代际差异,制约了大模型迭代创新速度。"

谈及算力建设短板问题,张云泉直言:"我认为这种供需失衡,首先反映在规模上。"他介绍,目前国内公开的主要智算中心单体规模仅在100-1000Pflops之间。高端智算中心要求具备万卡级分布式训练能力,性能需达到10Eflops@BF16以上,且机架功率密度达到40-100kW。

此外,智算中心算力结构单一,基础工具链不完善,通用性不强,利用率不高则进一步加剧了供需矛盾。"部分智算中心往往只考虑低精度训练算力需求,未结合行业场景考虑混合精度融合算力需求,导致通用性不强;而国产高性能可扩展并行训推编程框架和优化工具链的缺失,则导致国产大规模智算集群计算效率普遍偏低,可扩展性不高。"张云泉说。

张云泉还提及另一个产业痛点"大模型与产业应用脱节"。"国内大模型百花齐放是好事。不过在此过程中,有些大模型研制单位只注重训练效果、参数规模,而忽视模型落地到产业应用时的效率和不同场景应用效果,难以为实体产业发展服务。"

对于算力设施建设与智算产业发展的诸多痛点,张云泉在新提案中呼吁,一方面从算力供给侧,引导高端算力发展走上"超智融合"技术路线,建设大算力、全精度、高互联的高端智算中心,并发展先进存力,促进产业界均衡配置算力与存力资源;另一方面从算力应用侧,重点支持头部基础大模型企业,打造世界领先开源开放主权级基础通用大模型,鼓励开放更多应用场景。

张云泉介绍,超智融合技术也是近年来全球计算领域热点话题,其核心思想是将超算与智算的能力相结合,以满足在人工智能高速发展背景下的各行业多元算力需求。而如国家超算互联网等算力平台,正成为国内"超智融合"技术演变的重要依托。

对于如何走好"超智融合",张云泉提出多项具体建议:

一、出台高端智算中心建设管理办法,建立智算中心分级准入标准,支持市场主体建设高端智算中心,新建智算中心必须通过大模型训练或推理能力评测,不符合要求的不予批准建设。

二、集中资源,重点支持大模型领军企业。加强统筹布局,坚定不移培育"领跑者",打造世界领先的开源开放主权级基础通用大模型。

三、建设国家级大算力集群,引入先进算力调度、分配、优化和管理技术,提高利用率。积极引导基于全精度、大算力、高互连国产芯片,构建新一代超智融合国家级算力中心。

四、设立"智算工具链产业基础再造"和"超智融合"专项研发基金,通过产学研协同创新,打造开放共享的智算工具链和超智融合生态。

作为全国政协十四届的委员,张云泉已连续多年建言算力设施建设,2023张云泉提出合理规划算力网建设相关提案,建议建设国家级算力调度和交易平台,该提案得到了相关部门的正式答复和办理。

为何对算力设施建设如此执着?他笑道:"提案就像种树,不能只播种不养护。既然成为了政协委员,就得为数字中国栽种好算力这棵'大树'!"

本文系观察者网独家稿件,未经授权,不得转载。