人工智能并非仅取决于某种芯片类型 ——CPU、GPU 与互连技术的大规模协同实战

日期： 2026-02-13 04:25 栏目：智家行业资讯浏览：

过去十年，人们习惯用“TOPS”衡量 AI 系统优劣，仿佛只要 GPU 堆得够多，智能就会涌现。真相是：在 2025 年发布的 GPT-5 训练集群里，GPU 算力只占总有效算力的 58 %，其余 42 % 被 CPU、存储、网络“吃掉”。OpenAI 工程总结报告首次提出“AI 算力漏斗”模型：

① 理论峰值 → ② 有效算力 → ③ 收敛算力 → ④ 推理算力

每一层漏斗的“缝隙”都由 CPU 调度效率、互连带宽、内存墙、编译器协同决定。本文从系统视角拆解：CPU、GPU 与互连技术如何跨芯片、跨节点、跨机柜协同，才能把“好算法”变成“能跑起来的系统”。

人工智能并非仅取决于某种芯片类型 ——CPU、GPU 与互连技术的大规模协同实战

CPU：被低估的“交通警察”

数据管道的“第一公里”

CV 流水线中，数据增强占 30 % 训练时间。Intel SPR 4th Gen Xeon 在 AMX（Advanced Matrix Extensions）指令集下，单核可对 16×INT8 矩阵做 2K MAC/cycle，相当于 0.5 TOPS，能把 Resize、Flip、Mixup 在 CPU 端做完，解放 GPU 给大矩阵乘。实测在 128 核 SKU 上，ImageNet 预处理带宽 24 GB/s，GPU 等效时间缩短 18 %。

异步检查点

大模型每 2 h 做一次 checkpoint，传统“GPU 同步写盘”导致 3–5 min 空转。通过 CPU 侧 NVMe-oF 直通，把 200 GB 模型状态异步刷到 3D NAND，GPU 继续跑下一迭代，训练集群利用率提升 4.2 %。

细粒度调度

当 MoE（混合专家）模型把 1×batch 拆成 8×expert 后，CPU 通过 PCIe 4.0 P2P DMA 把子张量“快递”到对应 GPU 内存，调度延迟 < 50 μs；若让 GPU 自调度，延迟 600 μs，专家负载均衡失效，整体吞吐下降 12 %。

GPU：从“核弹头”到“舰队作战”

片内扩展：SM 到 GPC 的流水线

Hopper H100 拥有 144 SM → 8 GPC，Tensor Core 4 代支持 FP8 精度，单卡 989 TFLOPS。若编译器不能把 192 KB Shared Memory 拆成 32 KB tile，则 30 % SM 因数据等待而空转。

片间扩展：NVLink 4 的“高速匝道”

单卡 900 GB/s，八卡 hybrid cube-mesh 总带宽 4.3 TB/s，但只有当通信粒度 ≥ 256 KB 时才能打满。MoE all-to-all 通信若 64 KB slice，带宽利用率仅 38 %；通过 CPU 预合并到 512 KB，带宽利用率提到 82 %，等效卡数增加 2.2 倍。

跨节点扩展：RDMA 网络“舰队”

训练千亿模型需 1024 卡，跨节点 AllReduce 成为瓶颈。NVIDIA Collective 把算法切成“intra-node NVLink + inter-node CX7 400 G RDMA”，三段式流水线：

节点内 reduce-scatter（NVLink 900 GB/s）

节点间 ring 2×400 G（HDR）

节点内 all-gather

若 CPU 不参与内存注册，RDMA 注册延迟 1.2 ms；让 CPU 预注册连续内存池，延迟降到 0.2 ms，端到端加速 9 %。

互连：内存、PCIe、网络的三次握手

CXL：打破“内存墙”

单卡 80 GB HBM3 已不够放下 176 B 模型参数。CXL 2.0 让 GPU 直接 load/store CPU DDR5，延迟 200 ns，带宽 64 GB/s。测试表明，把 optimizer state 放到 CPU 512 GB 内存，GPU HBM 留给参数+梯度，训练 30 B 模型时 GPU 内存溢出率由 15 % 降至 0 %，单卡训练窗口扩大 2.8 倍。

PCIe 6.0：256 GB/s 的“数据高架”

2025 年上市 PCIe 6.0 x16，采用 PAM4 编码，单通道 16 GT/s。对 400 G 网卡，双口 800 G 进出共 200 GB/s，PCIe 6.0 刚好打满，避免“网卡等 PCIe”的老问题。

网络拓扑：从 Fat-Tree 到 Dragonfly+

128 节点、每节点 8 GPU 的集群，Fat-Tree 需 384 台 64 口交换机，电缆 2.4 万根；Dragonfly+ 仅 152 台，电缆 1 万根，布线重量下降 58 %，功耗下降 42 kW。CPU 负责全局路由计算，动态把热点流量切到备用平面，网络拥塞率从 8 % 降到 1 %。

存储：把“数据湖”搬到“计算堰塞湖”旁

GPUDirect Storage

传统“NVMe→CPU→GPU”路径需 2 次拷贝；GDS 让 NVMe-oF RDMA 直达 GPU，带宽 25 GB/s，延迟降 50 %。

分级 checkpoint

热检查点 10 GB 在本地 NVMe，温检查点 100 GB 在 CXL-SSD，冷检查点 1 TB 在对象存储。CPU 根据训练损失曲线自动决定保留策略，存储成本下降 70 %，恢复时间 < 2 min。

并行文件系统

DAOS 在 CPU 侧运行 metadata service，GPU 计算节点通过 RDMA 直接访问 NVMe-oF，单客户端 50 GB/s，创建 100 万文件仅 4 s，满足大模型海量小文件需求。

软件栈：编译器、框架、驱动的“三角协同”

编译器

LLVM/XLA 把计算图切到“CPU-GPU 混合”粒度，自动插入 CXL memcpy、NVLink reduce、RDMA all-reduce 节点，使 92 % 通信与计算重叠。

框架

PyTorch 2.4 支持“CPU 弹性线程池”，当 GPU kernel 排队> 200 μs 时，自动把小算子（激活函数、norm）上浮到 CPU，保持整体吞吐。

驱动

NVIDIA nvidia-peer-memory 让 GPU 直接 RDMA 到网卡，CPU 只做 cq 中断，CPU 占用率从 18 % 降到 3 %。

案例：1024 GPU AIGC 集群实测

配置：128 节点 × 8×H100，CPU 2×Xeon 8490H，存储 4×NVMe-oF RDMA，网络 400 G HDR Dragonfly+。

训练 175 B 参数 GPT 类模型，batch 2048，seq 4096：

理论峰值 1.26 EFLOPS

有效算力 0.73 EFLOPS（58 %）

收敛算力 0.68 EFLOPS（54 %）

瓶颈分析：

CPU 数据增强占 6 % GPU 等待 → 用 AMX offload 后降至 2 %；

跨节点 AllReduce 占 11 % → 切三段式+CPU 预注册，降至 4 %；

CXL 扩展内存后，checkpoint I/O 占 7 % → 用 GDS+DAOS，降至 1 %。

最终收敛算力提升到 0.81 EFLOPS（64 %），训练时间由 32 天压缩到 22 天，电费节省 31 万美元。

未来：从“协同”到“共生”

CXL 3.0 支持 switch 拓扑，GPU 可池化到 16 TB 统一内存，CPU/GPU/ASIC 共享 cache 一致性，编译器视角将变成“一颗大 CPU”。

硅光共封装（CPO）把交换芯片与光引擎合封，GPU 到 GPU 跳数减少 1 跳，延迟再降 30 %。

CPU 内置 AI 加速（x86 AMX、Arm SVE-512）将负责小模型推理，GPU 专注大模型训练，形成“CPU 做推理、GPU 做训练、网络做调度”的共生体。

总结

人工智能的终极瓶颈不是“谁有多少 TOPS”，而是“谁能把 CPU、GPU、互连、存储、软件栈拧成一股绳”。当 CPU 成为高效交通警察，当 GPU 组成舰队作战，当 CXL/RDMA/PCIe 6.0 把内存、网络、存储融为一条高速通道，大模型训练才会真正“线性扩展”。未来的 AI 系统工程师，必须同时懂算法、懂芯片、懂网络、懂散热，才能把 1 EFLOPS 的理论峰值变成 0.8 EFLOPS 的可用算力——剩下的 0.2 EFLOPS，就是协同的艺术。

标签：

上一篇：超越合规 —— 为何HPD与EPD对绿色建筑认证至关重要

下一篇：聚焦智造，共话未来 | 上海金东“两会两站”嘉宾莅临保瑞自控