news 2026/6/26 3:01:07

深入理解计算机系统1.4:CPU、GPU、NPU 与异构计算的崛起

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
深入理解计算机系统1.4:CPU、GPU、NPU 与异构计算的崛起
核心背景:摩尔定律的终结与阿姆达尔定律的诅咒

在进入具体硬件之前,必须理解为什么我们需要这么多不同种类的处理器。

  • 通用计算的瓶颈:CPU 为了通用性(运行操作系统、浏览器、文字处理等),牺牲了大量的晶体管用于控制逻辑(Control Logic)缓存(Cache),真正的计算单元(ALU)在芯片面积中占比其实很小。

  • 数据并行的需求:现代负载(如深度学习、图形渲染)不再是复杂的逻辑判断,而是对海量数据进行相同的简单运算(矩阵乘法)。

  • 结论:我们不再需要一个“全能天才”(CPU),我们需要一个“天才指挥官”带着成千上万个“熟练工”(GPU/NPU)。

第一部分:三巨头的本质差异 (The Triad of Compute)

我们需要从架构图设计哲学两个层面来深度剖析。

1. CPU:低延迟的指挥官 (Latency Optimized)
  • 设计哲学:最小化指令的延迟。不管任务多复杂,我要最快时间给出一个结果。

  • 硬件特征:

    • 巨大的 ALU(算术逻辑单元):处理复杂的指令集(x86/ARM)。

    • 复杂的控制单元:拥有乱序执行(Out-of-Order Execution)和分支预测(Branch Prediction)。如果不这样做,CPU 大部分时间都在等内存数据,效率极低。

    • 大缓存(L1/L2/L3):掩盖内存访问的延迟。

  • 形象比喻:CPU 就像法拉利,用来送一个披萨(一个任务)极快,但一次只能送几个。

2. GPU:高吞吐的暴力美学 (Throughput Optimized)
  • 设计哲学:最大化吞吐量。不在乎单个任务多慢,只在乎一秒钟能处理多少万个任务。

  • 硬件特征:

    • SIMT (Single Instruction, Multiple Threads):一个指令同时指挥几千个线程干活。

    • 海量小核心:去掉了复杂的分支预测和乱序执行,腾出面积塞入成千上万个简单的 ALU。

    • 高带宽显存 (HBM/GDDR):相比于 CPU 的 DDR 内存,GPU 的显存带宽通常是其 10 倍以上,因为它是“喂不饱”的怪兽。

    • 延迟掩盖:GPU 即使内存读取慢也不怕,因为它会立刻切换到下一组线程继续算(Context Switch 成本极低)。

  • 形象比喻:GPU 就像一列运煤的火车,启动慢(高延迟),但一次能拉一万吨(高吞吐)。

3. NPU/TPU:为矩阵而生的特种兵 (Domain Specific Architecture - DSA)

这是本节必须强调的“现代”部分。

  • 设计哲学:数据流(Dataflow)架构。既然 AI 99% 的计算都是矩阵乘法(Matrix Multiplication),为什么还需要取指令、译码?

  • 核心技术:脉动阵列 (Systolic Array)

    • 在 CPU/GPU 中,每次运算都要从寄存器取数,算完放回去。

    • 在 NPU 中,数据像心脏泵血一样流过计算单元阵列。计算单元 A 算完的结果,直接传给旁边的计算单元 B,完全不经过存储器

  • 精度折衷:为了速度,NPU 往往抛弃高精度的 FP64/FP32,转向 FP16、BF16 甚至 INT8(因为神经网络对精度不敏感,但对速度极其敏感)。

  • 形象比喻:这是一个巨大的管道系统,原料(数据)进去,经过层层加工,直接流出成品,中间没有停顿。

第二部分:从“总线”到“互联” (The Interconnect Bottleneck)

在 1.3 节我们讲了传统的系统总线。在 1.4 节,必须更新这个认知:在现代 AI 算力中,计算往往不是瓶颈,数据的搬运才是瓶颈(Memory Wall)。

  1. PCIe 的局限:传统的 CPU 与 GPU 也是通过 PCIe 连接的,但这太慢了(就像用细吸管喝奶昔)。

  2. NVLink 与高互联:现代计算集群(如 NVIDIA HGX)使用 NVLink 这种超高速互联,让 8 个 GPU 看起来像 1 个巨大的 GPU。

  3. 统一内存架构 (Unified Memory):提到 Apple 的 M 系列芯片或 NVIDIA Grace Hopper。CPU 和 GPU 共享同一块内存,消除了“CPU 内存 -> PCIe 拷贝 -> GPU 显存”这种昂贵的过程。

第三部分:现代程序的执行流 (The New Execution Flow)

为了呼应 1.2 节的“程序生命周期”,我们在这里更新一个现代 AI 程序的生命周期(以 PyTorch 为例):

  1. CPU 阶段(Python/C++):

    • 解析代码,构建计算图(Computation Graph)。

    • CPU 负责数据预处理(读取图片、解压、Tokenization)。

    • CPU 像发令官一样,通过驱动程序(CUDA Driver)向 GPU 发送“核函数(Kernel)”启动指令。

  2. 总线/互联阶段:

    • 数据从主存(Host Memory)通过 PCIe 搬运到 显存(Device Memory)。

  3. GPU/NPU 阶段:

    • 成千上万个核心同时被唤醒。

    • 执行矩阵乘法、卷积运算。

    • 如果显存不够,触发“显存交换(Swapping)”,性能骤降。

  4. 回传阶段:

    • 计算结果(Logits/Probabilities)被搬回 CPU 内存。

    • CPU 进行最后的逻辑判断(比如:决定输出哪个汉字)。

总结

1.4 节不仅仅是介绍硬件,而是宣告通用计算时代的结束。现代计算机系统是一个异构的联盟,CPU 是管家,GPU 是苦力,NPU 是专家。理解它们的协作关系,是理解下一代高性能软件(High Performance Computing)的基石。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/21 19:26:18

看得见的效果!Glyph视觉推理案例展示

看得见的效果!Glyph视觉推理案例展示 1. 视觉也能“读”长文?Glyph的另类解法 你有没有遇到过这样的问题:一段上万字的技术文档、小说章节或者法律条文,想让AI理解并回答其中的问题,但模型直接告诉你“超出上下文长度…

作者头像 李华
网站建设 2026/6/21 19:26:37

解密Python字节码:pycdc工具让你的.pyc文件重见天日

解密Python字节码:pycdc工具让你的.pyc文件重见天日 【免费下载链接】pycdc C python bytecode disassembler and decompiler 项目地址: https://gitcode.com/GitHub_Trending/py/pycdc 你是否曾经面对一个只有.pyc文件的Python项目,却无法看到源…

作者头像 李华
网站建设 2026/6/26 17:25:31

Qwen3-Embedding-4B多语言测试:中英日韩文本嵌入对比案例

Qwen3-Embedding-4B多语言测试:中英日韩文本嵌入对比案例 1. Qwen3-Embedding-4B介绍 Qwen3 Embedding 模型系列是 Qwen 家族的最新专有模型,专为文本嵌入和排序任务打造。该系列基于 Qwen3 系列的密集基础模型,提供从 0.6B 到 8B 不同规模…

作者头像 李华
网站建设 2026/6/21 19:24:34

如何快速掌握Kronos金融AI:股票预测的完整实战指南

如何快速掌握Kronos金融AI:股票预测的完整实战指南 【免费下载链接】Kronos Kronos: A Foundation Model for the Language of Financial Markets 项目地址: https://gitcode.com/GitHub_Trending/kronos14/Kronos Kronos是首个面向金融K线序列的开源基础模型…

作者头像 李华
网站建设 2026/6/23 3:42:26

为什么Qwen3-0.6B调用失败?LangChain接入避坑指南

为什么Qwen3-0.6B调用失败?LangChain接入避坑指南 1. Qwen3-0.6B模型简介与常见使用场景 Qwen3(千问3)是阿里巴巴集团于2025年4月29日开源的新一代通义千问大语言模型系列,涵盖6款密集模型和2款混合专家(MoE&#xf…

作者头像 李华
网站建设 2026/6/21 19:24:32

告别命令行!用Z-Image-Turbo_UI界面轻松生成高清图

告别命令行!用Z-Image-Turbo_UI界面轻松生成高清图 1. 为什么你需要一个图形界面来生成图片? 你是不是也厌倦了每次生成一张图都要打开终端、敲一堆命令、记路径、查参数?尤其是当你只想快速表达一个创意时,命令行反而成了最大的…

作者头像 李华