华为轮值董事长徐直军:中国半导体工艺落后是现实(4)

2024-09-20 13:19  观察者网

大模型的技术突破大大加速了智能化的进程,一段时间以来,各行各业几乎言必称大模型,纷纷建设AI算力,纷纷训练大模型。这对于华为这样的算力提供商而言,无疑是重大利好。但从长远发展角度考虑,我们始终相信,只有客户的持续成功,才有华为的持续发展。今天就几个问题谈几点想法。

第一、不是每个企业都要建设大规模AI算力。我们都清楚,AI服务器,特别是AI算力集群不同于通用x86服务器,对供电、散热等数据中心机房环境要求极高,且随着大模型越来越大,AI算力也将走向更大规模,而且变化节奏快,AI服务器快速升级换代,数据中心机房面临要么浪费、要么满足不了需求的困境。

其次是,现在业界平均一到两年推出新的AI硬件产品,迭代速度快,相比公有云,企业受限于算力规模小,面对快速变化的大模型,比较难以让每个代际的算力硬件独立完成工作,而是希望多个代际产品混合使用来进行模型训练,由此导致资源调度复杂度高,而且因为历史代际产品的"木桶短板"效应,拖累新一代产品性能的充分发挥,影响大模型训练的能力。

最后是运营维护带来的挑战,AI技术还处于成长期,技术变化快,多代际产品共存,对技能要求高,导致运营维护困难,对很多只具备传统IT维护能力的企业而言是重大挑战。由于这些挑战在一段时间内将继续存在,因此,我认为,每个企业都要思考适合自己的获取AI算力的方式,而不仅仅是建设自己的AI算力。

第二、不是每个企业都要训练自己的基础大模型。训练出基础大模型,关键是数据,而准备足够多的高质量数据是很大挑战,基础大模型预训练数据量进入10万亿tokens量级,这对于企业来说,不仅意味着高成本,同时是否能获取到足够的数据量也是挑战。

其次,模型训练难,基础大模型参数量在持续增大,模型迭代和优化难度大,通常需要数月到数年时间完成模型迭代训练。每个企业都应聚焦自身核心业务,自行训练基础大模型会影响AI尽快赋能核心业务。

最后,人才获取难,基础大模型涉及的相关技术每天都在更新,具备实战经验的技术专家少,对于企业来说,建立足够的技术人才资源也是挑战。

第三、不是所有的应用都要追求"大"模型。从华为盘古在行业的实践看,十亿参数模型可以满足科学计算、预测决策等业务场景的需求,比如降雨预测、药物分子优化、工艺参数预测,在PC、手机等端侧设备上,十亿参数模型也有广泛应用。而百亿参数模型可以满足面向NLP、CV、多模态等大量特定领域场景的需求,比如知识问答、代码生成、坐席助手、安全检测。面向NLP、多模态的复杂任务,可以用千亿参数模型来完成。

所以我们认为,企业需要的是根据自身不同业务场景需求,选择最合适的模型,通过多模型组合,解决问题,创造价值。

二、华为云面向AI全栈升级,赋能千行百业智能化

基于我刚讲过的几点想法,我认为,对于很多不具备自建AI算力和自训基础大模型能力的企业来讲,选择云服务是更为合理的、可持续的选择。华为云也针对这些挑战,面向AI,对全栈进行了升级,致力于让每个企业都能按需、高效地训练模型和应用模型推理。

首先华为云通过持续打造昇腾云服务,让企业一键获取澎湃AI算力,无需改造或自建机房,无需运营维护AI算力基础设施;同时通过计算、存储、网络端到端协同,已经实现千亿参数模型云上训练40天无中断。

其次华为云升级了ModelArts服务,支持业界主流基础大模型开箱即用,包括盘古、开源、以及第三方大模型,让企业无需为基础大模型准备大量数据和迭代训练,并提供一站式模型调优、部署、测评等工具链支持,降低企业模型微调和增量训练的技术门槛。

同时华为云在全力打造盘古5.0,支持全系列模型,包括十亿级、百亿级、千亿级等,最佳适配企业不同场景需求,并通过百模千态社区提供100多个大模型,为企业提供更丰富的选择。概括讲,我认为云服务是很多企业推进智能化的最佳选择。通过华为云昇腾云服务和模型云服务,我们期望让每个企业都能实时按需获取AI算力,以及高效地训练模型和应用模型推理。

华为云提供体系化安全能力,保障大模型训练推理安全

在云上进行大模型的训练和推理,带来新的安全挑战,华为云为了应对这些新的安全挑战,大力提升了安全能力,保障大模型训练推理安全,主要包括:

在安全理念方面,华为云面向"防御极限攻击"的理念来进行安全设计,基于零信任构筑了物理、身份、网络、应用、主机、数据、运维七层防线和一个安全运营中心,每天成功抵御高达12亿次的攻击,确保业务"攻击不瘫,数据不丢,监管合规"。