下一站：NPU与TPU：从GPU的偶然称霸到NPU的必然崛起

关键词：AI Compute, GPU vs CPU, NVIDIA H100, Google TPU, NPU, Groq LPU, Artificial Intelligence Infrastructure, 专用集成电路, 算力能效比
摘要：在AI的大航海时代，CPU已沦为配角，GPU意外加冕为王。但这并非终局。随着模型参数突破万亿大关，通用GPU架构正面临能效与通信的双重物理墙。本文深入底层架构，解析为何并行计算是AI的唯一解，探讨Google TPU与Groq LPU如何通过“放弃通用性”来换取极致效率，并预言2026年后，光互连与专用架构（DSA）将如何重塑硅基智能的未来。

2023年，当Jensen Huang穿着标志性的皮衣在GTC大会上举起H100时，他举起的不仅仅是一块芯片，而是新时代的“石油钻井平台”。

三年后的今天，当我们站在2026年的节点回望，会发现那只是序幕。现在的科技圈流传着一句残酷的玩笑：“由于缺乏GPU，我的初创公司甚至无法训练一个像样的‘Hello World’。”

算力，已经从单纯的硬件指标，异化为一种地缘政治资源，甚至是一种货币。但作为一个长期观察硅谷底层的记者，我发现舆论往往被“显卡短缺”的恐慌所裹挟，却忽略了更深层的技术演进逻辑：为什么是GPU？为什么CPU在AI面前如此无力？以及更重要的——为什么GPU的王座正在摇摇欲坠？

这不仅是关于晶体管的故事，这是关于人类如何暴力破解智慧的故事。

一、错配的引擎：为什么CPU无法承载AI之重

要理解AI算力的困境，我们必须先看一眼被冷落的CPU。

即使是2026年最顶级的Intel Xeon或AMD EPYC，在面对大语言模型（LLM）训练时，也像是一个试图用勺子挖空大海的教授。这并非CPU太弱，而是它太“聪明”了。

冯·诺依曼的诅咒

CPU的设计初衷是通用性和逻辑处理。它的核心任务是执行操作系统、处理复杂的条件分支（如果A发生，则做B，否则做C）。为了做到这一点，CPU在这块仅有指甲盖大小的硅片上堆砌了极其复杂的控制单元：分支预测器、乱序执行引擎、巨大的缓存。

在CPU的晶体管预算中，真正用于“计算”（ALU，算术逻辑单元）的区域往往不到50%。剩下的大部分都在做“保姆”工作——确保数据按顺序到达，确保预测不出错。

然而，AI训练，特别是基于Transformer架构的深度学习，在本质上是愚蠢而暴力的。

训练一个GPT-5级别的模型，本质上是在进行亿万次的矩阵乘法（Matrix Multiplication）。不需要复杂的分支预测，不需要乱序执行，只需要对海量数据进行相同的加减乘除。

让CPU去跑AI，就像让一位量子物理学家去流水线上拧螺丝。他能做，但他会花大量时间思考“为什么要拧这个螺丝”，效率极低且极其昂贵。

二、暴力的美学：GPU的意外加冕

GPU（图形处理器）的上位，是科技史上最大的“意外”。

二十年前，NVIDIA设计GPU是为了让《雷神之锤》里的爆炸效果更逼真。图像渲染和AI训练有一个惊人的共性：它们都是大规模并行计算（Massively Parallel Computing）。屏幕上的两百万个像素点需要同时渲染，就像神经网络中的两百万个参数需要同时更新。

SIMD：单指令，多数据

GPU剥离了CPU那些复杂的控制单元，将腾出来的空间全部塞满了微小的计算核。如果说CPU是一个法拉利（跑得快，但只能坐两个人），那么GPU就是一辆满载的大巴车（单体速度慢，但一次能运50人）。

以NVIDIA的H100为例，它拥有超过16,000个CUDA核心。当一条指令下达时，这万余个核心同时对不同的数据执行相同的操作（SIMD）。这种架构在处理矩阵运算时，展现出了碾压级的效率。

内存带宽：被忽视的生命线

除了计算核心，真正的瓶颈往往在于存内计算（In-Memory Computing）。在2024-2025年间，我们目睹了HBM（高带宽内存）的彻底爆发。不管是H100使用的HBM3，还是后续Blackwell架构搭载的HBM3e，其带宽都达到了惊人的3.35 TB/s甚至更高。

这是什么概念？相当于在一秒钟内传输几千部高清电影。

在AI训练中，计算往往不是瓶颈，喂数据的速度才是。CPU被DDR5内存那几十GB/s的带宽卡住了喉咙，而GPU通过堆叠HBM，在芯片旁边直接盖起了“粮仓”，确保了计算单元永远不会因为“饥饿”而停工。

三、裂缝出现：GPU的局限与能效危机

虽然GPU赢得了上半场，但它并非完美的AI芯片。

如果你拆开一块H100或B200，你会发现它依然保留了大量为了“图形渲染”而存在的遗留架构（尽管NVIDIA一直在通过架构迭代剔除它们，但CUDA生态的兼容性要求使得彻底的革新变得困难）。

更致命的是能耗。

训练一个万亿参数的模型，需要数千张GPU持续运行数月。数据中心的电费账单不仅仅是成本问题，更是环保和基建问题。我们看到新加坡、爱尔兰等地的数据中心因为耗电过大而被当地政府限制扩容。

目前的GPU架构，本质上是在用暴力堆砌晶体管来换取性能。根据公开数据，在单纯的矩阵运算任务中，通用GPU的晶体管利用率（Utilization Rate）有时甚至低于50%。这意味着，你花大价钱买的电，有一半变成了废热，而不是智能。

这就是为什么我们需要下一代芯片：NPU与TPU。

四、专用的胜利：TPU与NPU的崛起

如果说GPU是把“画图”的芯片魔改成了“算AI”的芯片，那么TPU（Tensor Processing Unit）和NPU（Neural Processing Unit）则是从零开始，专为神经网络诞生的原生生物。

这属于**DSA（Domain Specific Architecture，专用领域架构）**的范畴。

Google TPU：脉动阵列的魔法

Google早在2015年就意识到了GPU的局限，并在内部秘密研发了TPU。到了2026年的今天，TPU v6 (Trillium) 已经成为了Google云端帝国的基石。

TPU的核心秘密在于脉动阵列（Systolic Array）。

想象一下数据在GPU中的流动：读取内存 -> 计算 -> 写回内存 -> 读取内存 -> 下一步计算。这种频繁的内存读写消耗了大量能量和时间。

而在TPU的脉动阵列中，数据像血液在心脏中泵动一样，从一个计算单元直接流向下一个计算单元，中间不需要写回内存。数据在芯片内部完成了一整套复杂的矩阵运算后，才会被输出。这种设计极大地减少了对内存带宽的依赖（Memory Wall），并大幅降低了功耗。

事实上，在相同的半导体工艺下，TPU的能效比（Perf/Watt）通常比同代GPU高出30%到80%。这在拥有百万片芯片的超大规模集群中，意味着每年数亿美元的电费节省。

Groq与LPU：极致的推理速度

除了Google这种巨头，像Groq这样的初创公司展示了另一种极端：LPU（Language Processing Unit）。

Groq的思路极其激进：抛弃HBM，抛弃缓存机制。他们采用了超大容量的SRAM（静态随机存取存储器）直接集成在芯片上。由于SRAM的速度远快于HBM，且没有缓存未命中的风险，LPU实现了确定性延迟。

在LLM推理（Inference）场景下，Groq能实现每秒生成500个Token以上的速度，而同期的GPU可能还在100-200之间徘徊。对于实时语音对话、高频交易等对延迟极其敏感的场景，这种专用架构对GPU构成了降维打击。

五、未来演进：2026年后的技术路线图

站在2026年，我们看到了几条清晰的技术演进路线，它们将决定谁能摘取AI皇冠上的明珠。

1. 从“训练为王”到“推理为王”

过去十年，算力主要消耗在Training（训练）上。但随着模型逐渐成熟，未来的算力消耗将主要集中在Inference（推理/使用）上。这意味着，昂贵、全能的NVIDIA H100/B200可能不再是所有场景的最优解。像Apple M系列芯片中的NPU，以及高通、联发科在手机端集成的AI引擎，正在将算力下沉到边缘（Edge）。端侧AI将分担云端的压力，专用的低功耗NPU将像摄像头一样普及。

2. 光互连（Optical Interconnects）

电信号在铜线中的传输损耗和延迟，已经成为芯片间通信的瓶颈。包括台积电（TSMC）的CoWoS封装技术和Broadcom的新一代交换芯片，都在尝试引入硅光子技术（Silicon Photonics）。未来的AI集群，芯片与芯片之间将通过光子直接通信。我们将不再是以“单卡算力”论英雄，而是以“集群算力”论成败。NVIDIA的NVLink和Google的ICI（Inter-Chip Interconnect）之争，本质上就是互连标准的争夺。

3. 软件定义的硬件

NVIDIA之所以强大，不仅因为硬件，更因为CUDA。CUDA构筑了一条深不见底的护城河。然而，随着PyTorch 3.0和JAX等框架的成熟，以及OpenAI Triton等中间层的出现，开发者对底层硬件的感知正在变弱。如果编译器足够智能，能够自动将Python代码编译成适应TPU或LPU的指令，那么CUDA的壁垒就会被打破。这将是专用AI芯片真正的爆发时刻。

结语：硅基智能的寒武纪大爆发

我们正在经历计算机架构的“寒武纪大爆发”。

过去几十年，CPU一统天下的局面彻底终结。未来不会有一种芯片统治所有场景。

CPU 将退居二线，成为管理员。
GPU 将继续作为高性能计算的通用王者，服务于最前沿的模型探索。
TPU/NPU 将接管大规模的生产环境和端侧推理，成为算力的基建。

对于开发者和企业而言，盲目迷信“显卡”的时代结束了。在2026年，选择算力不再是买哪张卡的问题，而是关于你的模型架构、你的业务场景以及你的能效预算的综合博弈。

这不仅仅是硬件的胜利，这是架构的胜利。

快速参考附录

特性	CPU (e.g., Xeon/EPYC)	GPU (e.g., H100/B200)	TPU (e.g., v5p/Trillium)	LPU (e.g., Groq)
核心设计	少核，复杂控制，低延迟	众核，SIMD，高吞吐	脉动阵列，矩阵优化	甚至无核概念，SRAM流式
擅长任务	逻辑判断，操作系统，串行任务	模型训练，通用并行计算	大规模矩阵运算，特定模型训练/推理	LLM高速推理 (Token生成)
内存架构	DDR (高延迟，低带宽)	HBM (高带宽，高成本)	HBM + 芯片间高速互连	SRAM (极速，容量受限，无HBM)
能效比	低	中 (暴力堆料)	高 (专用电路减少开销)	极高 (针对特定任务)
适用场景	数据预处理，控制流	基础模型训练，科研探索	生产环境训练，大规模部署	实时对话，低延迟API服务

参考文献

NVIDIA Corporation. (2025). NVIDIA Hopper Architecture Whitepaper. Retrieved from nvidia.com
Jouppi, N., et al. (2023). TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings. ISCA.
Groq Inc. (2024). The Architecture of the Tensor Streaming Processor. Retrieved from groq.com
Patterson, D., et al. (2021). Carbon Emissions and Large Neural Network Training. arXiv.
Google Cloud. (2026). Cloud TPU v5p: Performance and Scalability. Google Cloud Blog.

菜单

下一站：NPU与TPU：从GPU的偶然称霸到NPU的必然崛起

一、错配的引擎：为什么CPU无法承载AI之重

冯·诺依曼的诅咒

二、暴力的美学：GPU的意外加冕

SIMD：单指令，多数据

内存带宽：被忽视的生命线

三、裂缝出现：GPU的局限与能效危机

四、专用的胜利：TPU与NPU的崛起

Google TPU：脉动阵列的魔法

Groq与LPU：极致的推理速度

五、未来演进：2026年后的技术路线图

1. 从“训练为王”到“推理为王”

2. 光互连（Optical Interconnects）

3. 软件定义的硬件

结语：硅基智能的寒武纪大爆发

快速参考附录

参考文献

评论

NAS Docker 环境下 OpenClaw 一键自动化部署教程

OpenClaw部署教程：从零打造你的私人数字员工

Google Cloud 永久免费服务器搭建：解锁 200GB 流量

OpenClaw Mac mini本地化部署

谷歌Chrome浏览器强制开启Gemini AI侧边栏

利用Cloudflare Snippets部署无限流的高速节点

腾讯发布QClaw：OpenClaw微信、QQ双端直连一键部署

OpenWrt 插件 OpenClaw 发布，把AI大模型装进软路由！

OpenClaw 接入通义千问连接钉钉

AdGuard Home + OpenWrt 搭建“私人 DNS”去广告指南

下一站：NPU与TPU：从GPU的偶然称霸到NPU的必然崛起

一、 错配的引擎：为什么CPU无法承载AI之重

冯·诺依曼的诅咒

二、 暴力的美学：GPU的意外加冕

SIMD：单指令，多数据

内存带宽：被忽视的生命线

三、 裂缝出现：GPU的局限与能效危机

四、 专用的胜利：TPU与NPU的崛起

Google TPU：脉动阵列的魔法

Groq与LPU：极致的推理速度

五、 未来演进：2026年后的技术路线图

1. 从“训练为王”到“推理为王”

2. 光互连（Optical Interconnects）

3. 软件定义的硬件

结语：硅基智能的寒武纪大爆发

快速参考附录

参考文献

评论

一、错配的引擎：为什么CPU无法承载AI之重

二、暴力的美学：GPU的意外加冕

三、裂缝出现：GPU的局限与能效危机

四、专用的胜利：TPU与NPU的崛起

五、未来演进：2026年后的技术路线图