从计算中心走向算力网络 人工智能悄然“豹变”
人工智能是数字经济高质量发展的引擎,也是新一轮科技革命和产业变革的重要驱动力量。习近平总书记指出,人工智能是引领这一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的“头雁”效应。加快发展新一代人工智能是我们赢得全球科技竞争主动权的重要战略抓手。《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》也做出了相关部署。
人工智能计算中心作为人工智能算力基础设施受到全球广泛重视。中国、美国、欧洲、日本等国家和地区都在积极推动人工智能计算中心建设。当前,人工智能计算中心的发展面临新的形势。一方面,人工智能的发展对算力的需求持续攀升,以鹏程·盘古为代表的超大规模预训练模型开始赋能各行各业;另一方面,在国家“双碳”战略下,需要计算中心加强统筹建设和提升利用率,进一步减排降耗。君子豹变,其文蔚也,新形势下,人工智能计算中心正在悄然“豹变”,走向网络化和集约化,将实现算力、大模型、数据集、行业应用等人工智能要素流动共享,成为应对新需求的重要途径。
人工智能计算中心不再作为独立的系统,而是逐步走向相互连接的算力网络,将深化人工智能计算中心的高质量建设,是人工智能计算中心下一步发展的新形态和新范式。新型网络技术将各地分布的人工智能计算中心节点连接起来,构成感知、分配、调度人工智能算力的网络,可以更好地汇聚和共享算力、数据、算法资源,更好地满足我国经济社会高质量发展的新需求。
推进人工智能计算中心高质量网络化发展
人工智能计算中心及其网络建设具有技术实现复杂、建设周期长、资源投入巨大、产业辐射面广的特点,为了适应我国经济高质量发展的需要,进一步推进人工智能的集约化、普及化、低碳化发展,我国需要进一步强化战略统筹和政策保障,进行系统的组织机制和体制创新,加强关键核心技术攻关和标准化建设,以加快推动人工智能计算中心向高质量网络化发展。
统筹推进计算中心高质量建设
在确保已建成的人工智能计算中心高效运营的同时,顺应人工智能发展趋势和产业落地的需求,我们必须坚持以应用为导向,坚持自主创新技术路线,加强人工智能计算中心建设。
继续推进计算中心高效运营和可持续发展。已建成的人工智能计算中心,要强化洞察人工智能产业发展现状、调研算力需求的能力,继续实施算力普惠政策,为行业用户及应用开发企业、科研机构、高校提供普惠算力服务等。联合产业组织编制面向人工智能应用场景的项目机会清单,面向人工智能企业、高校院所、科研机构进行公开发布,鼓励开展人工智能先导性应用开发和场景试验,牵引科技创新成果进行商用转化,打造一批有影响力、有实际效果的应用示范项目,形成围绕大模型的产业集群,进一步带动产业智能化升级。
坚持自主创新技术路线与推动开放开源并重。在当前日益复杂的国际竞争环境下,在推动人工智能计算中心建设的过程中,要继续坚持自主技术路线,进一步强化政策支持,广泛吸纳产学研用各方参与,共同提升相关产业链供应链现代化水平。同时,坚持自主创新技术路线并不意味着故步自封,闭门造车。在注重掌握核心竞争力的基础上,仍需以积极开放的态度拥抱开源开放,在全球范围内推动形成共建共享的人工智能算力与创新生态。
有序推进人工智能算力网络建设
当前,顺应新形势的要求,推进人工智能算力网络建设,我们亟须做好以下三个方面的工作。
鼓励京津冀、长三角、粤港澳大湾区、长江经济带等人工智能发展基础较好的重点区域先行发展人工智能算力网络,有序推动各地人工智能计算中心加入算力网络,探索推动算力跨网络结算机制,降低算力网络的使用费用。
重点区域先行先试,有序推进。在京津冀、长三角、长江经济带、粤港澳大湾区、成渝地区双城经济圈等人工智能创新资源聚集、产业联系紧密的重点区域,可由节点城市平等互联或一方牵头,先行组建算力网络,实现资源互换和共享。在各节点之间自发互联和资源共享的基础上,随着更多网络互联和节点的加入,积极做好相关制度安排,探索形成统一规划和统一管理全国范围算力网络的体制和机制。
激励人工智能计算中心加入算力网络,降低算力网络使用费用,推动算力跨网络结算;通过政策保障和资金支持,激励不同运营主体的人工智能计算中心加入算力网络,突破资源流动的实际障碍和地域壁垒;探索建立跨算力网络结算机制,破解AI要素评级、定价、计费、传输、记账、监控、交易等机制建设难题,推动人工智能计算中心之间的算力、数据和生态服务实现可信交易,将多方、异构的资源整合在一起,实现供需的灵活对接、资源的统一管控,在满足用户业务需求的情况下,实现资源利用的整体最优化。
加强人工智能算力网络核心技术攻关
目前,我国人工智能算力网络技术还处于早期发展阶段,需要强化高效网络传输、算力调度联通等关键技术的研发部署和资金保障,引导相关企业和研究机构加大投入、联合攻关。同时,在当前功耗技术和管理水平的基础上,进一步加强绿色能源技术的研发和应用,提升电能利用水平,保证低碳可持续发展。
破解算力网络关键核心技术难题,加大攻关资金保障。开发高效网络传送技术,重点解决高带宽低成本传送、低延迟低抖动联接和信息安全等问题,以满足海量数据传输和分布式计算需求。开发适用于算力网络的调度器技术,实现作业调度层面联通,构建多级的算力调度系统层以实现全网算力与网络的调度、匹配,形成一个“算力操作系统”,将整个网络上的算力节点纳入统一的体系。要围绕以上关键技术问题,通过出台相关科技攻关专项等方式,联合计算技术、网络技术等多技术厂商和科研机构共同攻关。
以低碳绿色技术为牵引优化人工智能算力的利用率和能耗。围绕人工智能计算中心及算力网络可持续发展,强化绿色能源技术的研发应用。在技术研发上,出台政策牵引节能技术成为算力技术研发的重点方向,并积极使用绿色新能源和能效技术。在规划和建设上,人工智能计算中心要尽量靠近能源丰富且便于天然散热的地区,更多使用可再生能源,推广使用一体化机柜和液冷等先进散热方案。
推动人工智能算力网络标准化建设
在推动人工智能算力网络建设过程中,算力网络的一体化标准至关重要,需在各人工智能计算中心自身标准研究与应用实践的基础上,积极推动建立统一的算力网络标准,形成包括算力网络架构、节点互联标准、应用接口标准、人工智能数据集接口标准等在内的标准体系,兼容多样化算力和开发框架等软硬件平台,以促进AI要素在算力网络上的开放共享。其中包含以下三个方面的工作。
支持多样化算力,形成可迭代可替换的硬件标准体系。国内多家厂商纷纷在AI算力投入研发,逐步形成了自主创新的技术力量。不同厂商建设的人工智能计算中心所提供的算力资源包含多种不同类型指令集、不同体系架构异构硬件,比如CPU、NPU、GPU等,不同指令集、不同体系架构有不同的优缺点,适配不同的场景。人工智能计算中心网络在支持多样化算力的过程中,需要适配不同厂商的基础设施硬件架构,同时支持对不同厂商的硬件进行迭代和替换,提高算力基础设施层的通用性、易用性。
坚持开放性和兼容性,推动构建算子、框架、平台多层次互通的软件标准体系。人工智能计算在发展中形成了各有特色和优势的算子库、框架与使能平台,并拥有各自的使用群体。算力网络需要支持多算子库、多人工智能开发框架和多使能平台等基础软件,开发者可根据场景和需求来使用不同的框架与使能平台。应加快建设跨厂家的算子库、框架和使能平台的多层次标准,对人工智能开发软件系统分层解耦,层次之间接口统一且互联互通,最终在算力网络上形成开放的编程环境与编程接口标准。
以满足场景应用联合创新需求为重点,推动构建互联、应用、人工智能数据集等接口标准。为解决算力感知与调度、区域协同联合应用创新以及数据汇聚共享等技术问题,针对计算和服务感知、互联和资源控制调度、应用场景联合创新,重点推进算力网络架构及接口、应用及算力感知接口、算力量化与建模、人工智能数据集接口、资源可信与协同等标准化建设。
人工智能算力网络作为计算中心的新形态和新范式,让科研创新更高效,让人工智能与产业的融合更深入,共建资源、共享资源、共同发展,共同促进AI产业发展。人工智能算力网络作为新型基础设施,让各区域共享资源,促进AI技术生态和商业生态发展,加速科学新发现、推动应用新场景、发现产业新方向、孵化发展新理念,为数字经济发展提供原动力,打造中国人工智能的数字底座,在中国打造共同富裕的新格局中,发挥人工智能的引擎作用。
就是现在!进军人工智能算力网络
算力跨计算中心调度、大模型研究与产业跨区域创新协同、人工智能生产要素流动共享等新需求催生了人工智能算力网络。人工智能算力网络将各地分布的人工智能计算中心节点连接起来,构成多个计算中心间感知、分配、调度人工智能算力的网络,在此基础上汇聚和共享算力、数据、大模型等算法资源,是人工智能计算中心进一步发展的重要方向,将有助于推动构建区域范围乃至全国范围的人工智能产业生态网络。
随着5G、人工智能、云计算、大数据等新一代信息技术在各行各业广泛应用,行业应用的多样性带来数据和算力的多样性。未来,人工智能算力网络将进一步连接高性能计算中心和一体化大数据中心,演进为多样性算力网络,满足数字化技术交叉应用的广泛需求。
人工智能算力网络是以新型网络技术连接各地人工智能计算中心,汇聚算力、算法、生态等创新资源,释放人工智能产业赋能能力的新范式。通过算力网络建设,打造中国信息基础设施数字基座,实现“共建算力、共享资源、共同发展”的愿景。
人工智能算力网络的核心思想是通过新型网络技术将各地分布的人工智能计算中心节点连接起来,动态实时感知算力和网络资源状态,进而统筹分配和调度计算任务,构成感知、决策、分配、调度算力的网络,在此基础上汇聚和共享算力、应用、数据、算法资源,是一种多资源、多样性异构算力深度融合,释放人工智能赋能能力的新范式。
人工智能算力网络使算力资源从单计算中心统一分配转变为所有计算中心间任务和资源统一调度。过去,人工智能算力中心在各地由企业和科研机构等分散建设、分散使用,正如私家车一样由每个人自行购买、自行维护和使用,从全局视角来看,车辆使用率低,使用成本高。统筹建设人工智能等计算中心,可以实现资源统一分配,计算任务排队管理,就像出租车一样,车辆由出租车公司集中购买,车辆统一分配,用户排队打车,这样出租车车辆使用率较高,成本降低,但用户需排队使用车辆,用车高峰时需要等候,且无法将空闲的社会车辆利用起来。
人工智能算力网络将全部计算中心的算力需求统一管理,并将数据、算法、应用资源等开放共享,进行统一分配,实现了整网最大效率,并拓展了应用和创新的空间。正如当前的互联网用车平台,将加入平台的车辆资源进行统一的按需分配,用户向用车平台申请用车,可以利用全网的车辆资源,用车更快,时间和费用的综合成本进一步降低,全局资源利用率最优,实现可调度、可协同、可汇聚、可共享,达到了网络价值的最大化。
从计算中心到算力网络 符合国家“双碳”目标新要求
在国家碳达峰、碳中和目标下,2021年10月21日,国家发展改革委等部门发布了关于严格能效约束推动重点领域节能降碳的若干意见,将“加强数据中心绿色高质量发展”作为重点任务,鼓励重点行业利用绿色数据中心等新型基础设施实现节能降耗。新建大型、超大型数据中心电能利用效率(PUE)不超过1.3。到2025年,数据中心电能利用效率普遍不超过1.5。这些均对人工智能计算中心提出了进一步提升电能利用率,在不同计算中心间算力协同调度、削峰填谷、精细化能耗控制的要求。
人工智能计算中心能耗总量较大,且还在不断增长。2019年,马萨诸塞大学阿默斯特分校的研究人员发现,训练一个AI模型的过程中可排放超过626000磅二氧化碳,相当于普通汽车寿命周期排放量的5倍(其中包括汽车本身的制造过程)。统计表明,2018年中国所有数据中心的总用电量达1600亿千瓦时,需消耗5300万吨标准煤,占中国社会总用电量的2.5%。
工业和信息化部2021年7月印发的《新型数据中心发展三年行动计划(2021- 2023年)》提出,到2023年底,全国数据中心机架规模年均增速将保持在20%左右。按照目前的增长速度推算,2023年中国所有数据中心用电量将达2600亿千瓦时,相当于2.6个三峡大坝的年发电量。
人工智能计算中心提供人工智能计算范式所需的专用算力,配合少量的通用算力以进行数据预处理和其他任务,从而能够以较低的能耗提供高效的人工智能计算能力。NVIDIA曾测算,在完成相同的人工智能计算任务条件下,人工智能计算中心的计算效率是传统计算中心的10倍,而能耗仅为十分之一。近年来,计算中心不断降低PUE,能耗效率显著提升。原因主要有两点:一是得益于统筹规划,集中建设。在全球各地区政策的引导下,数据中心从较小的传统数据中心向超大规模数据中心转变。二是得益于制冷和供配电等基础设施技术的不断改进。这两个措施有效降低了计算中心的PUE。2013年以前,全国对外服务型数据中心平均PUE在2.5左右,而到2019年底,全国对外服务型数据中心平均PUE近1.6,实现了质的飞跃。
虽然计算中心有效降低了PUE,但计算业务天然存在波动,仍存在能耗闲置现象。计算中心的业务波动会造成算力利用的波峰和波谷,在波谷时部分计算集群没有任务运行,会发生能耗的闲置。如超大规模预训练模型在人工智能计算中心训练时,将占据计算中心大部分算力,持续数周或数月形成时间周期性的算力波动,在算力波峰时,算力满负荷运行,其他计算任务排队,在算力波谷时则造成能耗闲置。
因此,人工智能计算中心需要采用算力调度进一步降低业务波峰波谷造成的能耗闲置。多人工智能计算中心协同调度,在A中心算力波峰时,可以将排队任务转移到算力波谷的B中心计算,削峰填谷,多计算中心都可以保持算力高利用率,将计算中心的能耗充分利用起来,从全局和长远角度看,是进一步提升电能利用率,降低碳排放的有效路径。
国家“双碳”目标对计算中心能耗控制提出了更高的要求,多计算中心间联网感知计算应用所需算力资源,通过任务调度,在能效比的约束下作出算力调配的最优决策,从全局视角看,可以获得计算效率与能耗效率的最优。
因此,算力网络将成为人工智能计算中心下一步发展的新形态和新范式。人工智能超大规模预训练模型的不断涌现,基于大模型开发行业应用赋能区域经济社会发展的需求激增,人工智能数据集等AI要素进一步流动和共享,以及社会对计算中心不断提升能耗控制水平的要求,促使人工智能计算中心之间开始连接。人工智能计算中心不再是独立的系统,而是形成相互连接的算力网络。地理分布的多个算力中心将连接在一起,为基于基础模型开发新型分布式融合应用提供支撑。算力网络可以感知应用所需算力与存储资源,通过任务调度满足业务需求,多个组织用户在多个计算中心共享算力和数据,满足复杂应用对计算和数据处理的需求。
来源:人民邮电报