我国新型算力基础设施发展观察

(整期优先)网络出版时间:2024-03-11
/ 2

我国新型算力基础设施发展观察

程鹏1魏海涛2刘旻昊3李骞4 王猛5

1、身份证号码: 653201198202264758   2、身份证号码: 130682198401020639    3、身份证号码: 430102198501050511   4、身份证号码: 110101198811191538 5、身份证号码: 152822197409197258

摘要:数字经济时代全面开启,算力正以一种新的生产力形式,为各行各业的数字化转型注入新动能。我国对算力基础设施的重视程度不断提升,全面推动我国算力基础设施高质量发展。

关键词:算力基础设施、算力共享、集约化、国产智算芯片

一、引言

随着数字经济时代全面开启,算力正以一种新的生产力形式,为各行各业的数字化转型注入新动能,成为经济社会高质量发展的重要驱动力。算力基础设施作为算力的主要载体,成为支撑数字经济发展的重要资源和基础设施,对于实现数字化转型、培育未来产业,以及形成经济发展新动能等方面具有重要作用。

当前,新一轮科技革命和产业变革正在向纵深演进,算力基础设施的重要性不断提升,全球主要经济体均发布相关计划。2019年,美国发布《国家战略性计算计划:引领未来计算》,将计算能力提升到国家战略高度。2023年底,欧盟委员会批准“欧洲共同利益重要计划——下一代云基础设施和服务”的国家援助计划,开发可互操作和开放访问的欧洲数据处理生态系统。

算力设施和产业规模快速增长,已成为经济增长的主要驱动力,全球各国持续加码算力基础设施布局。摩根士丹利预测,2024年全球前十大云计算服务商的资本支出将达到2000亿美元,新增投聚焦人工智能领域。

二、我国相关政策

近年来,我国对算力基础设施的重视程度不断提升,一体化发展、新型数据中心、算力基础设施等概念相继提出。20204月,国家发展和改革委员会首次明确“新基建”是基于新一代信息技术演化生成的基础设施,包含以数据中心、智能计算中心为代表的算力基础设施等。

中国信通院在20239月分别发布了《中国算力发展指数白皮书(2023)》和《中国综合算力评价白皮书(2023)》,为推进算力技术产业、基础设施建设及算力应用发展提供参考。

202310月,工业和信息化部等6部门联合印发《算力基础设施高质量发展行动计划》,从计算力、运载力、存储力以及应用赋能四个方面提出了到2025年发展量化指标,引导算力基础设施高质量发展。计算力方面,算力规模超过300EFLOPS每秒3亿浮点运算次数),智能算力占比达到35%。运载力方面,国家枢纽节点内重要算力基础设施间时延不高于 5ms,重点应用场所光传送网(OTN)覆盖率达到80%

2024117日,工信部发布《国家人工智能产业综合标准化体系建设指南》(征求意见稿),将智能芯片、算力中心等相关内容纳入标准化体系建设。

三、我国算力发展情况分析

随着人工智能应用的加速落地,特别是多模态大模型的快速演进,算力资源需求持续快速增长,算力已成为智能时代的关键生产力和稀缺资源。而我国在算力产业方面基础薄弱,算力供需矛盾突出,对我国人工智能产业的发展带来极大的影响。同时,政策扶持叠加技术创新,2024年我国以智算为核心的算力基础设施建设依然会保持高速增长。

(一)智能算力成为算力基础设施建设的新动能

有报道认为,我国算力基础设施发展正加速从“以通算为主的供给侧优化”向“以智算为核心的需求驱动”转变,支撑经济发展新动能作用日益凸显。根据工信部、赛迪发布数据,2022年我国高性能算力占比近20%2023年上半年我国新增算力设施中智算占比超50%,整体算力规模达到197EFLOPS。参照工信部等六部门联合印发的《行动计划》发展目标,2023年至2025年我国算力规模复合增长率为18.5%2024年新增算力规模将接近40EFLOPS,算力核心产业规模有望突破2.4万亿元。

(二)租赁和共享将为算力服务提供新模式

算力资源的需求促进云服务升级。2023年,拥有大量GPU资源,专门从事算力建设到租赁解决方案业务的第三方算力租赁商成为算力服务市场新势力。IDC服务提供商、云服务提供商和第三方算力租赁商将成为算力市场的“三大运营主体”,提供算力租赁、算力+平台服务、算力+平台+模型服务的“三类算力服务模式”。同时,为降低算力整体使用成本,算力共享模式将逐步显现。

(三)算力建设向规模化集约化建设发展

随着大模型参数规模的跨量级突破,数据集倍数增长,亟需海量算力支撑模型训练。一方面对AI服务器性能提出更高要求。另一方面依托高性能GPU卡搭建超级计算机(服务器集群),E级规模智算集群将成为主流。根据赛迪报告预测,到2024年年底我国将有5%8%的企业大模型参数从千亿级跃升至万亿级,算力需求增速将达到320%。谷歌、微软等相继推出的大模型参数量向千亿、万亿级规模演进,着力打造面向大模型训练的

E级智算集群。据公开统计我国建成的超E级智算中心仅5家,预计2024年超大规模智能中心占比稳步提升。

(四)算力组网需求将促进高速网络发展

随着新一代高性能智算芯片的发布,算力互联要求达到800G1.6T需求,各类高速组网新技术,如RDMA、百P级全光互联、新型光纤等关键技术将进一步突破。算力中心内部组网方面,无阻塞、高吞吐量是承接大模型训练的核心诉求,将催生RoCEv2相关算法更加成熟。

202312月,国家发展改革委、国家数据局、中央网信办、工业和信息化部、国家能源局联合印发《深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》,明确打造层级化网络时延圈,满足差异化城市-区域-国家的多级算力服务体系,为算力组网提供了指导。

(五)国产智算芯片研发生产将提速

2023年全年,ChatGPT等大语言模型引发“抢芯大战”。同时,美国对我国的高科技出口管制持续加码,20231023日,美国政府通知英伟达此前限制出口的GPU芯片禁令立即生效,对我国算力基础设施建设产生深刻影响。

在此前提下,国产芯片自主研发和生态建设逐步提速,华为、海光、百度昆仑芯、寒武纪等一系列国产厂商在高性能芯片均有所突破,但与英伟达高性能GPU芯片差距还较大。国产性能最好的华为昇腾910B计算芯片与英伟达最新的H200计算芯片存在二代的代差,且生态体系建设也存在较大差距。在我国广大算力市场需求的影响下,国产智算芯片研发和生产将持续投入和加速。

(六)算力统一调度成为降本增效的有效手段

公共算力资源集中在以政府机构、运营商和云厂商为主体的算力运营方。算力资源的稀缺,必然促进运营方最大化的挖掘算力资源潜力。算力资源统一调度平台应运而生,将分散的算力资源整合起来,依托高速网络实现算力资源和算力任务的匹配,有效提升算力使用效率。同时,为解决资源调度和算力需求适配问题,将产生围绕国家枢纽节点的算力生态,区域级、城市级公共算力服务平台将成为算力基础设施建设的方向。

(七)新的大模型框架和工具将会更有效的使用算力资源

随着大模型各类应用场景的落地,依托开源通用模型的行业大模型将会出现模型参数“先升后降”的现象。近期,阿里云发布的通义千问Qwen-72B开源大模型和Meta发布的Code Liama 70B开源大模型,模型参数都达到了700亿,部署单实例运行需要英伟达4块高端芯片,对算力的要求进一步提升。以这些开源模型为基础模型构建的行业模型参数会随之大幅增长。但受制于算力资源成本过高,对模型参数的调优降级将成为模型优化主要的方向。同时,并行训练框架算法的进步也将成为算力资源高效使用的重要手段,在同等算力资源下,优化后的训练框架将大大提升训练效率。

结束语:由于国内芯片设计和生产能力的差距,未来缩小与英伟达等算力芯片厂商的差距难度将越来越大。我们还需要在政策和资金上更加倾斜,同时推出基于国产算力芯片的通用开源大模型,完善国产算力的生态。