(原标题:聚焦WAIC丨AI大模型时代 算力集群赛跑)什么叫大盘
21世纪经济报道记者倪雨晴 上海报道
AI大潮下,今年的世界人工智能大会格外受到关注。大模型、人形机器人群雄并起的同时,算力产业也在迭代升级。
会上,昇腾、摩尔线程、壁仞科技、燧原、天数智芯、浪潮、新华三等算力厂商悉数到场。从各家展台看,相比于单体硬件,目前厂商更聚焦集群的一体化方案和实际运营效率。
整体而言,国产算力正在崛起。摩尔线程创始人兼CEO张建中接受21世纪经济报道记者采访时谈道:“几年前对于客户来说,国产只是备份,现在很多国产已经成为首选了,因为要保证长期供应、本地服务。”
近日,摩尔线程宣布其AI旗舰产品夸娥(KUAE)智算集群解决方案实现升级,从当前的千卡级别大幅扩展至万卡规模。当然,摩尔线程作为GPU初创公司,也直面英伟达等巨头的竞争。
谈及竞争的挑战,张建中表示:“难点主要是在市场的推广、用户的生态适配和生态发展,肯定需要一个过程。”而能不能建好生态,需要上下游生态产业链一起合力发展,包括算力的供应商、建设方、软件服务等等。
万卡标配
张建中认为,当前正处在生成式人工智能的黄金时代,GPU成为加速新技术浪潮来临的创新引擎。
自大模型问世出圈以来,GPU的需求量就进一步加大。比如,OpenAI的ChatGPT-4共有1.8万亿参数,一次训练需要在大约25000个A100上训练90到100天。
当前,基础大模型的混战还在继续,各家继续订购算力资源。同时从趋势看,大模型对算力提出更高要求。比如Scaling Law将持续奏效,需要单点规模够大且通用的算力才能快速跟上技术演进;Transformer架构之外,Mamba、RWKV和RetNet等新兴架构,同样需要更高性能计算资源。
因此,在摩尔线程看来,AI模型训练的主战场,万卡已是标配。随着计算量不断攀升,大模型训练亟需超级工厂,即一个“大且通用”的加速计算平台,以缩短训练时间,实现模型能力的快速迭代。
而科技巨头都在通过积极部署千卡乃至超万卡规模的计算集群,以确保大模型产品的竞争力。随着模型参数量从千亿迈向万亿,模型能力更加泛化,大模型对底层算力的诉求进一步升级,万卡甚至超万卡集群成为这一轮大模型竞赛的入场券。
然而,构建万卡集群并非一万张GPU卡的简单堆叠,而是一项高度复杂的超级系统工程。它涉及超大规模的组网互联、高效率的集群计算、长期稳定性和高可用性等诸多技术难题。
据介绍,摩尔线程夸娥(KUAE)万卡智算集群,以全功能GPU为底座,旨在建设能够承载万卡规模、具备万P级浮点运算能力的国产通用加速计算平台,专为万亿参数级别的复杂大模型训练而设计。
张建中表示:“现在夸娥千卡集群MFU(算力利用率)有50%多,目标是做到60%,做万卡集群的时候,会有很多技术手段去提升MFU,包括软件、硬件很多方面,目标是达到业内较好水平。”
目前,摩尔线程已经联合中国移动通信集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司分别就三个万卡集群项目进行了战略签约。
算力竞赛
近十年来,全球的算力市场经历了不小的变化。一方面,云计算、AI需求驱动下,算力市场规模不断攀升;另一方面,数据中心的类型也从通用计算,拓展至更注重AI能力的智能计算,或者说加速计算。
IDC中国研究经理索引此前接受21世纪经济报道采访时谈道,中国的算力市场正在由高速增长进入到高质量增长的阶段。过去十几年,中国全面进入数字化经济这个新的阶段,对算力产生了大量的需求。
尤其是近两年生成式AI,为算力产业带来了新需求。在新的数据中心建设过程中,智算数据中心层出不穷,GPU则是底层的计算核心。
随着各地智算中心的增长,业内关注两方面课题,其一是投资回报率,其二是需求是否会过剩。
谈及投资和产出,张建中说道:“目前智算中心投资回报率是5年左右,根据市场的租金、使用率以及用户愿意付的价钱,这是正常的(周期),而且资本愿意去看5年回报周期。对于我们研发一颗芯片来说,研发费用(成本)相对美国公司来说更低,大概相当于他们的1/10,我们在国内可以得到更好的回报。”
另一方面,对于智算中心的火热建设,张建中提到了两个建议,首先是不应盲目建设,“不可能说连市场客户都没有就盲目建设,不是所有人都应该去建算力中心,而是应该由专业的人干专业的事。”
其次建集群也有风险,“建完之后好不好用、是不是能够通用、是不是能稳定运行、有没有能力去运营,都是需要考虑的事情。所以我们给用户提供建议的时候,希望使用我们的一揽子的解决方案,采用整体解决方案可以避免风险。”张建中谈道。
有产业链人士向记者指出,去年很多客户的业务重心都放在AI训练上,但今年一些头部互联网和大模型公司面临的主要挑战是落地应用。这也意味着,除了训练之外,各个行业的推理的需求也将快速增长。
眼下,算力市场正在经历变革。未来,随着生成式AI和智能计算的不断发展,算力需求将持续增加。从硬件、软件、集群、到智算中心,合理规划和体系化建设也将愈发重要。