AI Hardware in Action
- AI 技术发展趋势
- 国产化芯片的算力
计算领域芯片全家福:算 (中央处理器 CPU),存 (SSD 控制器芯片,属于 ASIC),传 (智能网卡芯片,属于 ASIC),管 (智能管理芯片,属于 ASIC),智 (神经网络处理器 NPU)。五大芯片群。
CPU + 内存 + 外存:三大件占服务器成本 80%
CPU 和 GPU 芯片对比
- CPU
- 低计算密度(整型标量计算为主)
- 复杂控制逻辑
- 大容量缓存(L1/L2/L3 缓存)
- 为串行操作优化
- 更少的执行单元(ALU: 算术逻辑单元)- 因为 CPU 的核数有限,过多的 ALU 也使用不了
- 更高的时钟速度(频率)
- 低时延访问
- 最新 CPU 引入更多的并行
- 组成
- Control: 控制器
- Cache: L1/L2/L3 缓存
- ALU: 算术逻辑单元
- GPU
- 高计算密度(浮点向量计算为主)
- 每次访问操作有较大计算量
- 为并行操作优化
- 更多的执行单元(ALU: 算术逻辑单元)
- 图形计算是数据并行的最典型案例
- 高吞吐,可容忍高访问延迟
- 最新 GPU 更好的控制逻辑,Scatter / Gather 内存访问
异构计算芯片架构演进:片间异构 -> 片内异构 -> 核间异构 -> 核内异构。目的:最大资源共享,最大互联带宽,最低通信延迟
算力墙,内存墙,互联墙日益影响计算架构持续演进,Fabless 和 DSA 带来计算系统架构创新的黄金时代。
算力墙:处理器算力增长的主要驱动力(工艺 + 多核)发展放缓,受限
内存墙:内存带宽的增长无法匹配算力增长
互联墙:PCIe 总线时延 / 带宽无法满足芯片间互联需求
DSA (Domain Specific Architecture) 逐渐成为主流
GPU,GPGPU,TPU / NPU 三种浮点加速器(异构计算)是目前产业界最成功的 DSA。
AI 场景追求算力和精度的平衡,GPU 适应 AI 算力特点不断创新浮点数格式,并推广成事实标准
Nvidia 利用工艺红利,2年一代,峰值浮点算力提升 2.5 - 3 倍。
- 2016 P100 全精度浮点向量(CUDA Core),FP64 : FP32 : FP16 算力配比 = 1 : 2 : 4(精度越低,算力越高)
- 2017 V100 引入 FP16 浮点矩阵计算单元(Tensor Core)
- 2020 A100 Tensor Core 支持全精度浮点 FP64 : FP32 : FP16 算力配比 = 1 : 8 : 16,引入 Bfloat16,TF32 精度
- 2022 H00 引入 FP8 浮点精度
- 2024 B200 引入 FP4 浮点精度,主打推理
- 2026 R200 引入浮点混精格式
先进工艺仍可持续演进,但新工艺节点的晶体管密度收益从每代 1.8 倍收窄到 1.2 倍。
浮点型计算不满足结合律和交换律。
厂商定制非 IEEE 754(通用计算和 HPC 标准)标准浮点精度格式,满足 AI 细分场景不同精度要求。FP8 有望成为 IEEE 754 之后专用于 AI 场景的浮点格式新标准(因为,大模型对精度不敏感)。
2025 年十大AI技术趋势
- AI4S (AI for Science):科学的未来:AI4S 驱动科学研究范式变革
- 具身智能 (Embodied AI):具身智能元年,具身大小脑和本体的协同进化
- 原生多模态达模型 (Native Multimodal Models):下一个 Token 预测,统一的多模态达模型实现更高效 AI
- Scaling Law 扩展:RL + LLMs,模型泛化从预训练向后训练,推理迁移
- 世界模型 (World Models):世界模型加速发布,有望成为多模态大模型的下一个阶段
- 合成数据 (Synthetic Data):合成数据将成为大模型迭代与应用落地的重要催化剂
- 推理优化 (Inference Optimization):推理优化迭代加速,成为 AI Native 应用落地的必要条件
- Agentic AI:重塑产品应用形态,Agentic AI 成为产品落地的重要模式
- AI 超级应用:AI 应用热度渐起,Super APP 花落谁家犹未可知
- AI 安全:模型能力提升与风险预防并重,AI 安全治理体系持续完善
总结:
- 不管是 LLM, MLM, 世界模型,原生多模态大模型,模型结构都是基于 Transformer 架构
- 世界模型,原生多模态,具身智能,实际上是一个多模态大模型分支,区别在于数据预处理,数据对齐
- 再好的 AI Agent 和 AI 应用,归根到底是模型能力足够强
- 所有的 AI 趋势背后,都需要庞大的算力支撑
具身智能
具身智能的核心技术聚焦于智能体与环境的实时交互闭环,通过多模态感知(视觉,触觉,听觉等传感器融合)自适应决策(强化学习,模仿学习与因果推理结合)和动态控制(仿生运动规划,灵巧操作)构建:感知-行动-学习的一体化能力。并依托世界模型(神经渲染,数字孪生)实现环境理解与预测,同时借助轻量化硬件与仿真迁移技术(Sim-to-Real)解决物理部署难题,最终推动智能体在开放动态场景(例如,服务机器人,自动驾驶)中自主完成复杂任务,其发展需突破数据效率,通用性及安全伦理等瓶颈,迈向更类人的具身认知与协作能力。
原生多模态
- 2024 年 OpenAI 发布的 GPT-4o 模型是首个端到端原生多模态模型。
- 支持实时处理文本,图像,音频的任意组合输入与输出,响应速度提升至人类对话级别(最快 232 毫秒),成本降低 50%,并显著增强多语言支持与非英语场景的准确性。
- 特点:作为 GPT-4 的升级版,GPT-4o 在写作,编程辅助,以及科学,技术,工程和数学(STEM)领域都取得了显著进步,其推理能力大幅提升,能够更精准地处理专业问题,进一步拓宽了应用场景。
- 原生多模态,最直接的实现方式是将视觉(或其他模态)token 和文本 token 一起输入 transformer 主干网络,输出端文本 token 和视觉 token 再单独解码。
世界模型
- 世界模型,是人工智能系统通过学习和推理构建的,能够模拟现实或虚拟环境动态规律与因果关系的核心框架,使AI能够预测未来状态并基于此做出类人决策。
例子:Nivdia Cosmos: A World Foundation Model Platform for Physical AI (基于 AI 做建模)
- https://www.nvidia.com/en-us/ai/cosmos
- https://www.youtube.com/watch?v=9Uch931cDx8
AI Agent
AI Agent (人工智能代理) 是具备环境感知,自主决策与行动执行能力的智能实体,能通过持续学习与交互实现特定目标 (如自动驾驶系统实时规划路径,或客服机器人动态响应用户需求)。
例子:Introducing Manus: The General AI Agent
- MCP 和 A2A 的推出为 AI Agent 的发展提供了重要的基础设施,它们的标准化和开放性将促进 AI Agent 的广泛应用和生态系统的繁荣。
芯片分类
- 集成电路 (
Integrated Circuit),俗称芯片。 - 按照不同的处理信号方式,可以分为:数字芯片和模拟芯片两大类。
- 按照功能分,主要有:存储器,CPU,GPU/NPU,FPGA,ASIC 等,大多数都是数字芯片,或者以数字电路为主。
数字芯片:传递,加工,处理数字信号的 IC,主要处理离散的电学 1 和 0 信号,处理的是非连续性信号,都是脉冲方波。
模拟芯片:处理连续的光,声音,速度,温度等自然模拟信号的 IC,处理的信号都具有连续性,可以转换为正弦波。
数字芯片分类
| 品种 | 主要厂家 | 特点 |
|---|---|---|
| 中央处理器 (CPU) | Intel / AMD /Huawei | 1. 小模块,小数据集 2. 标量计算为主 (整型 + 浮点) 3. 不同场景软件框架众多 |
| 图形处理器 (GPU / GPGPU) | Nvidia / AMD | 1. 中大模块,中大数据集 2. 向量计算 (浮点 + 整型,用于图形,视频处理) 为主 + 矩阵计算 3. 基于 CUDA 或者 OpenCL 框架的应用 |
| 神经网络处理器 (TPU / NPU) | Huawei / Google / Habana | 1. 矩阵计算为主 + 稠密向量计算 2. 基于 TensorFlow,Pytorch 框架 |
| 现场可编程门阵列 (FPGA) | Xilinx (AMD) / Altera (Intel) | 1. 中大模块,中大数据集 2. 计算密集应用 3. 高性能,高能效 4. 基础软件 (驱动,微码)适配 |
| 特定应用集成电路 (ASIC) | 众多厂商 | 1. 高度计算密集特定算法,算子 2. 性能和能效最高 3. 基础软件适配 |
- FPGA: Field Programmable Gate Array
- ASIC: Application Sepcific Integrated Circuit
CPU: 灵活性和易用性更好 GPU / NPU -> FPGA -> ASIC: 性能和功效更好
模拟芯片分类
模拟集成电路,是用来处理连续函数形式模拟信号(如声音,光线,温度)的集成电路,其处理所有数据的源头是模拟信号,而模拟芯片器件是处理外界数据的第一关,也是连接数字逻辑和物理电路的必要环节。
Refer
- 陈仲铭,华为昇腾技术专家,上海交通大学企业导师,深圳市创新人才,B站AI科普UP主 (ZOMI酱)