对 AI 赛道上奔驰的你我而言,可以预见的是,2025年,不仅是算力发展的关键窗口期,也是抢占先机、巩固自身竞争优势的关键大年。
AI 发展跨越拐点,进入新纪元,算力依旧重头戏。
2024年初,《政府工作报告》中提出要“适度超前建设数字基础设施。”
2024年末,由国务院国资委、中央广播电视总台联合制作的大型系列纪录片《大国基石》之《算力引擎》中明确提出“算力即国力,它是数字经济时代的新质生产力。”
在可预见的2025年,智算依旧会是市场的主旋律。身处算力产业中的我们又将面临什么?
O1.
激增的能源需求与可持续算力基础设施
AI技术日益成为经济发展的重要引擎。全球范围内,包含10万卡(H100 GPU)甚至千兆瓦级规模的超大规模集群正在加速建设,但其巨大的能源消耗对各国能源供应与基础配套设施构成了严峻考验。
美国咨询公司高德纳预测,到2027年,估计会有40%的AI数据中心将因电力供应问题而受到运营限制。其中支持AI优化服务器运营的数据中心的电力消耗将在2027年达到每年500太瓦时(TWh),足足是2023年的2.6倍。
AI数据中心增量功耗预测(2022-2027)
图片来源:高德纳
在碳排放方面,中国通信工业协会数据中心委员会前两年发布的数据显示,一座拥有1500架8千瓦机架的数据中心,按10年生命周期、75%的使用率、PUE值(数据中心消耗的所有能源与IT负载消耗的能源比值)为1.5来计算,平均年碳排放量达8万吨。若不加大可再生能源利用增例,2030 年全国算力中心二氧化碳排放或将超 2 亿吨。
无论是从数据中心的基础能耗还是新兴领域的未来发展来看,算力资源的需求量和资源能耗都在持续攀升。在全球“双碳”政策背景下,构建可持续的算力基础设施势在必行,PUE亦需向更加精细化的方向演进。
算力产业如何在高速发展的同时实现“碳中和”,是当下整个行业需要解决的重要问题。
O2.
芯片加速迭代与算力基础设施性能需求
AI持续爆发正对全球算力基础设施的弹性提出更高要求。
以 ChatGPT 为例,该模型参数规模庞大,计算复杂度极高,在参数量为 175B(1750 亿)规模下,在预训练阶段,数据量 35000 亿,使用 8192 张卡,其训练时长为 49 天。同等条件下参数变多,计算量变大,按照业界的经验,要达到可接受的训练时长,需要百亿参数百卡规模,千亿参数千卡规模,万亿参数万卡规模,这对底层算力基础设施而言是一项巨大的挑战。
这推动了芯片厂商对芯片架构、制造工艺、先进封装、带宽显存、高速互联、能源效率等的持续追求,加速全球AI芯片快速迭代,市场竞争愈发激烈。
以英伟达为例,有望在今年4季度开始出货的新一代AI GPU GB300,透露出可能出现多个关键硬件规格变化。据摩根士丹利表示,该系列可能会引入GPU插槽、增设冷板模块,并采用更高功率的电源模块等。而这背后的主要原因,就是对算力效率的要求无限提高。
反观国内,美方的禁令围绕着半导体生态链层层加码、愈演愈烈,也变相加速了国产自研的进度,尤其在信创的助推下,为国产芯片发展孕育了新的市场。
SEMI数据显示,2024年上半年,全球半导体设备出货总额达532亿美元,而中国大陆市场作为世界最大的半导体设备市场,在第二季度不仅市场规模居首,还以62%的增速领跑全球,成为为数不多实现正增长的市场。
O3.
AI推理需求加速渗透
进入2025年,大模型训练的放缓并没能阻止AI热潮的延续,以Agent为代表的AI推理需求正在进一步加速算力基础设施建设。
根据 IDC 数据,2020年,全球数据中心用于推理的芯片的市场份额已经超过 50%, 预计到 2025 年,用于推理的工作负载的芯片将达到 60.8%。
以 AI 芯片市场主导者英伟达为例,AI 训练是过去英伟达数据中心收入的主要部分,但在 2024 财年 AI 推理需求开始激增,根据英伟达估算,在 2024 财年已有约 40%的数据中心收入来自于 AI 推理,从侧面印证了生成式 AI 推理场景对算力的巨大需求。
目前,我国大模型训练正值高峰期,根据中国通服数字基建产业研究院的调研数据显示,我国算力需求仍以训练为主,占比约 80%。按照训练周期性规律,加之模型的落地应用节奏,预计未来 5 年内智算重心将快速转向推理应用。
随着技术突破、市场爆发,AI 推理的商业价值在多维博弈中不断重塑,算力需求会加速从预训练向推理侧倾斜,推理赛道有望迎来井喷式发展。
O4.
强化算电协同与创新节能技术
AI的尽头是算力,算力的尽头是电力,数据中心耗电量持续增加,绿电直供将成为数据中心高能耗破局之道,最终创新技能技术将成为算力与电力的一致需求。
据中国算力平台统计测算,2023年中国数据中心耗电量约为1500亿千瓦时,占全社会用电量的1.6%,中国算力市场规模平均增速达到30%,数据中心耗电量年增速为15%。算力行业正面临日益迫切的绿色电能的供给和节能压力。
各研究机构估算的数据中心用电量
国家发展改革委、国家能源局、国家数据局在去年印发的《加快构建新型电力系统行动方案(2024—2027年)》中就提出,“实施一批算力与电力协同项目”。算电协同,即“算优化电,电支撑算”,通过两者的协同互动,实现资源的优化配置和高效利用。例如,在电网负荷较低时,增加计算任务的处理量,充分利用闲置的电力资源;而在电网负荷较高时,适当减少非关键计算任务,降低电力需求。
近年来,由中国主导的一场清洁能源技术热潮就是其中一个重要表现。截至2023年底,全国发电总装机容量约为2013年发电装机规模的2.3倍,新增容量16.6亿千瓦。非化石能源发电装机突破15.7亿千瓦,装机比重提升至53.9%,相较于2013年非化石能源发电装机比重提高了23个百分点。
2023年全国各类电源发电装机和发电量
(亿千瓦、万亿千瓦时)
作为全球最大的清洁能源装备制造国,中国依托全球近70%的光伏产能,60%以上的风电产能,推动了全球可再生能源装备成本大幅下降,有效支撑了共建国家能源转型。
O5.
更加高效节能的液冷方案
知名半导体机构SemiAnalysis在2024年10月发布的《Datacenter Anatomy Part 1:Electrical Systems》报告中指出:“任何无法提供更高密度液体冷却能力的数据中心,将无法为客户带来显著的性能与总拥有成本(TCO)改进,最终将在生成式AI的竞争中落后。”
目前,H100/H200/H800等芯片TDP设计功耗已达700W,2024年3月GTC大会最新发布的B200达1000W,GB200已达2700kW功耗。伴随着智算中心芯片功耗的提升,其自身的散热功耗也在不断攀升,智算中心中单机柜的热密度大幅度的快速提升,因此,智算中心将面临单机柜功耗高密化的挑战。
据IDC说法,当前智算中心负载波动剧烈,可达50%以上,甚至瞬间超过150%或200%。因此,需重新评估UPS抗过载能力、系统架构以及制冷方案。
聚焦国内液冷市场,2023年数据中心机房液冷市场为9.3亿元,同比增长46.3%。2024年预计数据中心支出将回升,机房冷却市场(不包括冷板)总值可达到人民币90亿元。
数据来源:ICTresearch公司
从低能耗、高散热、低噪声、低TCO等优势出发,液冷技术是解决芯片散热问题、打造绿色低碳数据中心的关键技术,正逐渐成为主流趋势。
O6.
加速智算集群规模和性能“双提升”
Scaling Law规模定律推动大模型参数向万亿、十万亿发展,未来甚至可能向百万亿参数发展,高性能集群将不断演进。
《中国综合算力指数报告(2024)》显示,过去20年间,中国的智能算力需求增长了超过百亿倍。这一趋势使得算力中心正朝着万卡规模迈进,更多企业将加入万卡集群建设队伍,布局覆盖更多算力国家枢纽节点。以中国电信为例,其在京津冀、长三角地区,建成国内领先的万卡全液冷智算集群,截至2024年6月,智算总规模达到21EFLOPS,可承载万亿参数大模型训练任务。
特别是在美国市场,巨头的算力竞争门槛已达到十万卡规模,比如马斯克旗下的AI初创公司xAI以及Meta等科技巨头纷纷加速布局十万卡集群,以推动在基础大模型、智能算法研发及生态服务等方面的技术创新。
另一方面,为解决当前单一AI集群扩展受限难题,通过跨多中心的集群部署,借助存储、网络能力优化弥补单卡性能不足及计算的短板,也许是当下最值得探索并解决AI算力荒的必要路径。
当前业内MFU(模型算力利用率)普遍只有30%左右,顶尖的集群利用率也只能做到50%。随着集群规模的继续扩大,还会出现更复杂的软硬件协同、算力调度等问题。因此,需要企业和研究机构不断地进行技术探索和创新。
O7.
异构混训调度技术、算力交易调度平台或成为重点突破方向
国家持续规划推进计算基础设施建设,算力调度是发展重点。
据通信产业报测算,2025年算力调度潜在市场规模在400亿元以上。地方政府、科研机构算力企业等多方主体积极布局算力调度领域。在近期各地发布的有关人工智能产业建设或算力相关的政策中,无一例外提到了算力的编排调度。据不完全统计,目前国内在建和已经建设的算力调度平台超过20个。
一方面,全国算力跨地域、跨行业、跨平台的集中高效调度和共享建设提速,国内算力调度市场正处于先行先试的发展初期。当前,算力调度运营方有些类似于平台,可基于自有或第三方算力,提供自营、代理等多元服务,以灵活调度算力需求,提高算力的分发效率与使用效率,降低算力需求方的使用成本。
同时,异构算力混训正在成为提高算力资源利用热点技术。通过以“芯片协同作战”的方式,把有限的算力资源最大化利用起来。无论是百度、壁仞科技,还是金三道集团旗下公司云火智算等推出的混训方案,目的都是为了整合更多的异构算力,提高大模型技术能力的上限,打破单一芯片品牌训练资源瓶颈。
芯片混训:中国AI发展的破局之道
点击图片查看内容
随着模型训练、边缘推理等不同智能应用需要智算中心提供不同的算力,算力需求逐渐从单一算力向异构算力转变,更多国内企业加入芯片混训技术的研发和应用。当前,国内在异构GPU与国产芯片集群通信方面已经取得了一定进展。
根据 IDC 数据,2023 年上半年,中国加速服务器市场约 31 亿美元,其中 GPU 卡占比 90%,NPU、ASIC 和 FPGA 等非 GPU 加速服务器增速高达 17%。未来,随着技术能力提升和国产芯片的不断成熟,异构计算将成为提升算力、降低成本的重要路径。
-
写在最后
在政策和需求双重驱动下,我国算力基础设施迈向高质量发展阶段。正如纪录片《大国基石》所言,“在中国,算力正以勃发之姿,启前所未有之业。”
据IDC预测,未来五年,中国算力中心服务市场将以18.9%的复合增速持续增长,到2027年,市场规模或将达3075亿元大关。
对 AI 赛道上奔驰的你我而言,可以预见的是,2025年,不仅是算力发展的关键窗口期,也是抢占先机、巩固自身竞争优势的关键大年。
新一轮的风云变幻蓄势待发。2025,让我们拭目以待!
来源:金三道智算
协会宗旨:为数字经济产业服务
愿景:成为国际一流的数字经济专业服务平台
使命:提供服务 反映诉求 规范行为 促进发展
企业所急 协会所能 精准服务 价值创造
坚持做企业做不到的事
政府管不过来的事
个人解决不了的事
不与会员争利
不与政府争权
不与学者争名
不与个人争资
一切为了发展会员、一切为了服务会员、一切为了会员发展
以一辈子办成一件事的执着,成就有价值的人生
一心一意做协会,全力以赴做服务
联系我们 | ||
序号 | 负责内容 | 负责人及手机号 |
01 | 副会长、理事服务 | 范会长13392892809 |
02 | 政府关系&党建&工会 | 罗秘书长18820990700 |
03 | 市场活动&创业空间 | 俞永豪13380316965 |
04 | 品牌活动&展会咨询 | 俞永豪13380316965 |
05 | 公益培训 | 孙思敏18033412367 |
06 | 创业孵化 | 王慧君13392892806 |
非诚勿扰,请根据实际需求咨询相关工作人员 |