过去十年,人们习惯用“TOPS”衡量 AI 系统优劣,仿佛只要 GPU 堆得够多,智能就会涌现。真相是:在 2025 年发布的 GPT-5 训练集群里,GPU 算力只占总有效算力的 58 %,其余 42 % 被 CPU、存储、网络“吃掉”。OpenAI 工程总结报告首次提出“AI 算力漏斗”模型:
① 理论峰值 → ② 有效算力 → ③ 收敛算力 → ④ 推理算力
每一层漏斗的“缝隙”都由 CPU 调度效率、互连带宽、内存墙、编译器协同决定。本文从系统视角拆解:CPU、GPU 与互连技术如何跨芯片、跨节点、跨机柜协同,才能把“好算法”变成“能跑起来的系统”。
CPU:被低估的“交通警察”
数据管道的“第一公里”
CV 流水线中,数据增强占 30 % 训练时间。Intel SPR 4th Gen Xeon 在 AMX(Advanced Matrix Extensions)指令集下,单核可对 16×INT8 矩阵做 2K MAC/cycle,相当于 0.5 TOPS,能把 Resize、Flip、Mixup 在 CPU 端做完,解放 GPU 给大矩阵乘。实测在 128 核 SKU 上,ImageNet 预处理带宽 24 GB/s,GPU 等效时间缩短 18 %。
异步检查点
大模型每 2 h 做一次 checkpoint,传统“GPU 同步写盘”导致 3–5 min 空转。通过 CPU 侧 NVMe-oF 直通,把 200 GB 模型状态异步刷到 3D NAND,GPU 继续跑下一迭代,训练集群利用率提升 4.2 %。
细粒度调度
当 MoE(混合专家)模型把 1×batch 拆成 8×expert 后,CPU 通过 PCIe 4.0 P2P DMA 把子张量“快递”到对应 GPU 内存,调度延迟 < 50 μs;若让 GPU 自调度,延迟 600 μs,专家负载均衡失效,整体吞吐下降 12 %。
GPU:从“核弹头”到“舰队作战”
片内扩展:SM 到 GPC 的流水线
Hopper H100 拥有 144 SM → 8 GPC,Tensor Core 4 代支持 FP8 精度,单卡 989 TFLOPS。若编译器不能把 192 KB Shared Memory 拆成 32 KB tile,则 30 % SM 因数据等待而空转。
片间扩展:NVLink 4 的“高速匝道”
单卡 900 GB/s,八卡 hybrid cube-mesh 总带宽 4.3 TB/s,但只有当通信粒度 ≥ 256 KB 时才能打满。MoE all-to-all 通信若 64 KB slice,带宽利用率仅 38 %;通过 CPU 预合并到 512 KB,带宽利用率提到 82 %,等效卡数增加 2.2 倍。
跨节点扩展:RDMA 网络“舰队”
训练千亿模型需 1024 卡,跨节点 AllReduce 成为瓶颈。NVIDIA Collective 把算法切成“intra-node NVLink + inter-node CX7 400 G RDMA”,三段式流水线:
节点内 reduce-scatter(NVLink 900 GB/s)
节点间 ring 2×400 G(HDR)
节点内 all-gather
若 CPU 不参与内存注册,RDMA 注册延迟 1.2 ms;让 CPU 预注册连续内存池,延迟降到 0.2 ms,端到端加速 9 %。
互连:内存、PCIe、网络的三次握手
CXL:打破“内存墙”
单卡 80 GB HBM3 已不够放下 176 B 模型参数。CXL 2.0 让 GPU 直接 load/store CPU DDR5,延迟 200 ns,带宽 64 GB/s。测试表明,把 optimizer state 放到 CPU 512 GB 内存,GPU HBM 留给参数+梯度,训练 30 B 模型时 GPU 内存溢出率由 15 % 降至 0 %,单卡训练窗口扩大 2.8 倍。
PCIe 6.0:256 GB/s 的“数据高架”
2025 年上市 PCIe 6.0 x16,采用 PAM4 编码,单通道 16 GT/s。对 400 G 网卡,双口 800 G 进出共 200 GB/s,PCIe 6.0 刚好打满,避免“网卡等 PCIe”的老问题。
网络拓扑:从 Fat-Tree 到 Dragonfly+
128 节点、每节点 8 GPU 的集群,Fat-Tree 需 384 台 64 口交换机,电缆 2.4 万根;Dragonfly+ 仅 152 台,电缆 1 万根,布线重量下降 58 %,功耗下降 42 kW。CPU 负责全局路由计算,动态把热点流量切到备用平面,网络拥塞率从 8 % 降到 1 %。
存储:把“数据湖”搬到“计算堰塞湖”旁
GPUDirect Storage
传统“NVMe→CPU→GPU”路径需 2 次拷贝;GDS 让 NVMe-oF RDMA 直达 GPU,带宽 25 GB/s,延迟降 50 %。
分级 checkpoint
热检查点 10 GB 在本地 NVMe,温检查点 100 GB 在 CXL-SSD,冷检查点 1 TB 在对象存储。CPU 根据训练损失曲线自动决定保留策略,存储成本下降 70 %,恢复时间 < 2 min。
并行文件系统
DAOS 在 CPU 侧运行 metadata service,GPU 计算节点通过 RDMA 直接访问 NVMe-oF,单客户端 50 GB/s,创建 100 万文件仅 4 s,满足大模型海量小文件需求。
软件栈:编译器、框架、驱动的“三角协同”
编译器
LLVM/XLA 把计算图切到“CPU-GPU 混合”粒度,自动插入 CXL memcpy、NVLink reduce、RDMA all-reduce 节点,使 92 % 通信与计算重叠。
框架
PyTorch 2.4 支持“CPU 弹性线程池”,当 GPU kernel 排队> 200 μs 时,自动把小算子(激活函数、norm)上浮到 CPU,保持整体吞吐。
驱动
NVIDIA nvidia-peer-memory 让 GPU 直接 RDMA 到网卡,CPU 只做 cq 中断,CPU 占用率从 18 % 降到 3 %。
案例:1024 GPU AIGC 集群实测
配置:128 节点 × 8×H100,CPU 2×Xeon 8490H,存储 4×NVMe-oF RDMA,网络 400 G HDR Dragonfly+。
训练 175 B 参数 GPT 类模型,batch 2048,seq 4096:
理论峰值 1.26 EFLOPS
有效算力 0.73 EFLOPS(58 %)
收敛算力 0.68 EFLOPS(54 %)
瓶颈分析:
CPU 数据增强占 6 % GPU 等待 → 用 AMX offload 后降至 2 %;
跨节点 AllReduce 占 11 % → 切三段式+CPU 预注册,降至 4 %;
CXL 扩展内存后,checkpoint I/O 占 7 % → 用 GDS+DAOS,降至 1 %。
最终收敛算力提升到 0.81 EFLOPS(64 %),训练时间由 32 天压缩到 22 天,电费节省 31 万美元。
未来:从“协同”到“共生”
CXL 3.0 支持 switch 拓扑,GPU 可池化到 16 TB 统一内存,CPU/GPU/ASIC 共享 cache 一致性,编译器视角将变成“一颗大 CPU”。
硅光共封装(CPO)把交换芯片与光引擎合封,GPU 到 GPU 跳数减少 1 跳,延迟再降 30 %。
CPU 内置 AI 加速(x86 AMX、Arm SVE-512)将负责小模型推理,GPU 专注大模型训练,形成“CPU 做推理、GPU 做训练、网络做调度”的共生体。
总结
人工智能的终极瓶颈不是“谁有多少 TOPS”,而是“谁能把 CPU、GPU、互连、存储、软件栈拧成一股绳”。当 CPU 成为高效交通警察,当 GPU 组成舰队作战,当 CXL/RDMA/PCIe 6.0 把内存、网络、存储融为一条高速通道,大模型训练才会真正“线性扩展”。未来的 AI 系统工程师,必须同时懂算法、懂芯片、懂网络、懂散热,才能把 1 EFLOPS 的理论峰值变成 0.8 EFLOPS 的可用算力——剩下的 0.2 EFLOPS,就是协同的艺术。