2024年10月,OpenAI被报道其因时间与成本因素放弃成立代工厂,专注于通过内部芯片设计工作实现芯片供应多样化、降低成本。而OpenAI的芯片团队规模已达约20人,其正与博通开发一款新型人工智能芯片用于AI推理。
OpenAI已在计划将其设计送往台积电,表明其在首个AI芯片设计上取得了快速进展,而其他芯片设计公司通常需要数年的时间完成这一过程。
如果OpenAI按计划推进,其芯片预计将在2026年在台积电实现大规模生产。若芯片在第一次流片时无法正常工作,OpenAI需要诊断问题重新进行流片,而一次典型的流片费用可达数千万美元,如果OpenAI不支付加速费用,生产时间大致需要六个月。
路透社称,如果首次流片顺利进行,OpenAI可能今年晚些时候测试英伟达芯片的替代品。目前,Open AI已尝试通过微软的Azure云服务引入AMD的MI300X芯片用于训练和推理工作。
OpenAI内部将此款针对训练的芯片视为一项战略工具,旨在增强OpenAI在与其他芯片供应商谈判时的筹码。知情人士透露,OpenAI的工程师计划在初版芯片之后,开发越来越先进、功能更广泛的处理器。
OpenAI十分依赖英伟达GPU的算力,2024年2月,OpenAI CEO萨姆·奥尔特曼在X上抱怨没有足够的英伟达GPU来支持其公司的AI开发。其之后从微软获得了更多英伟达服务器的使用权。2025年中期,甲骨文和微软将为OpenAI提供世界上最强大的英伟达服务器集群之一,每年的租金约为25亿美元(约合人民币183亿元)。
奥尔特曼路透社
目前,OpenAI已参与由其与软银、甲骨文等联合成立的"星际之门"项目,计划投资5000亿美元(约合人民币3.65万亿元)用于建设人工智能基础设施。
当下,英伟达GPU占据全球AI芯片市场约80%份额,其Hopper架构产品被OpenAI、微软、Meta等企业广泛用于大模型训练,但供应不足与成本攀升的问题逐年显露。而依赖单一的供应商也可能制约企业技术迭代与产能稳定性。
Meta与微软都曾尝试自研芯片。微软曾为了AI推出了Maia系列加速器如Maia100等,而Meta也推出了MTIA v2芯片用于推理工作。同时,Meta表示,明年将在人工智能基础设施上投入600亿美元(约合人民币4.38千亿1亿元),微软表示,在2025年将投入800亿美元(约合人民币5.85千亿亿元)。
双方仍在大量采购英伟达GPU。据科技资讯公司Omdia预计,微软2024年购买了48.5万块英伟达Hopper芯片,而Meta则购买了22.4万块,亚马逊和谷歌则分别预计购买了19.6万和16.9万块Hopper芯片。
不过,消息人士称,OpenAI的内部人工智能芯片虽然能够训练和运行人工智能模型,但最初将以有限的规模部署,主要用于运行人工智能模型,在公司基础设施中的作用有限。路透社称,要建立一个像谷歌或亚马逊的人工智能芯片项目那样全面的项目,OpenAI需要雇佣数百名工程师。