1. AI 技术发展趋势
  2. 国产化芯片的算力

计算领域芯片全家福: (中央处理器 CPU), (SSD 控制器芯片,属于 ASIC), (智能网卡芯片,属于 ASIC), (智能管理芯片,属于 ASIC), (神经网络处理器 NPU)。五大芯片群。

CPU + 内存 + 外存:三大件占服务器成本 80%

CPU 和 GPU 芯片对比

  • CPU
    • 低计算密度(整型标量计算为主)
    • 复杂控制逻辑
    • 大容量缓存(L1/L2/L3 缓存)
    • 为串行操作优化
      • 更少的执行单元(ALU: 算术逻辑单元)- 因为 CPU 的核数有限,过多的 ALU 也使用不了
      • 更高的时钟速度(频率)
    • 低时延访问
    • 最新 CPU 引入更多的并行
    • 组成
      • Control: 控制器
      • Cache: L1/L2/L3 缓存
      • ALU: 算术逻辑单元
  • GPU
    • 高计算密度(浮点向量计算为主)
    • 每次访问操作有较大计算量
    • 为并行操作优化
      • 更多的执行单元(ALU: 算术逻辑单元)
      • 图形计算是数据并行的最典型案例
    • 高吞吐,可容忍高访问延迟
    • 最新 GPU 更好的控制逻辑,Scatter / Gather 内存访问

异构计算芯片架构演进:片间异构 -> 片内异构 -> 核间异构 -> 核内异构。目的:最大资源共享,最大互联带宽,最低通信延迟

算力墙,内存墙,互联墙日益影响计算架构持续演进,Fabless 和 DSA 带来计算系统架构创新的黄金时代。

算力墙:处理器算力增长的主要驱动力(工艺 + 多核)发展放缓,受限

内存墙:内存带宽的增长无法匹配算力增长

互联墙:PCIe 总线时延 / 带宽无法满足芯片间互联需求

DSA (Domain Specific Architecture) 逐渐成为主流

GPU,GPGPU,TPU / NPU 三种浮点加速器(异构计算)是目前产业界最成功的 DSA。

AI 场景追求算力和精度的平衡,GPU 适应 AI 算力特点不断创新浮点数格式,并推广成事实标准

Nvidia 利用工艺红利,2年一代,峰值浮点算力提升 2.5 - 3 倍。

  • 2016 P100 全精度浮点向量(CUDA Core),FP64 : FP32 : FP16 算力配比 = 1 : 2 : 4(精度越低,算力越高)
  • 2017 V100 引入 FP16 浮点矩阵计算单元(Tensor Core)
  • 2020 A100 Tensor Core 支持全精度浮点 FP64 : FP32 : FP16 算力配比 = 1 : 8 : 16,引入 Bfloat16,TF32 精度
  • 2022 H00 引入 FP8 浮点精度
  • 2024 B200 引入 FP4 浮点精度,主打推理
  • 2026 R200 引入浮点混精格式

先进工艺仍可持续演进,但新工艺节点的晶体管密度收益从每代 1.8 倍收窄到 1.2 倍。

浮点型计算不满足结合律和交换律。

厂商定制非 IEEE 754(通用计算和 HPC 标准)标准浮点精度格式,满足 AI 细分场景不同精度要求。FP8 有望成为 IEEE 754 之后专用于 AI 场景的浮点格式新标准(因为,大模型对精度不敏感)

2025 年十大AI技术趋势

  1. AI4S (AI for Science):科学的未来:AI4S 驱动科学研究范式变革
  2. 具身智能 (Embodied AI):具身智能元年,具身大小脑和本体的协同进化
  3. 原生多模态达模型 (Native Multimodal Models):下一个 Token 预测,统一的多模态达模型实现更高效 AI
  4. Scaling Law 扩展:RL + LLMs,模型泛化从预训练向后训练,推理迁移
  5. 世界模型 (World Models):世界模型加速发布,有望成为多模态大模型的下一个阶段
  6. 合成数据 (Synthetic Data):合成数据将成为大模型迭代与应用落地的重要催化剂
  7. 推理优化 (Inference Optimization):推理优化迭代加速,成为 AI Native 应用落地的必要条件
  8. Agentic AI:重塑产品应用形态,Agentic AI 成为产品落地的重要模式
  9. AI 超级应用:AI 应用热度渐起,Super APP 花落谁家犹未可知
  10. AI 安全:模型能力提升与风险预防并重,AI 安全治理体系持续完善

总结:

  1. 不管是 LLM, MLM, 世界模型,原生多模态大模型,模型结构都是基于 Transformer 架构
  2. 世界模型,原生多模态,具身智能,实际上是一个多模态大模型分支,区别在于数据预处理,数据对齐
  3. 再好的 AI Agent 和 AI 应用,归根到底是模型能力足够强
  4. 所有的 AI 趋势背后,都需要庞大的算力支撑

具身智能

具身智能的核心技术聚焦于智能体与环境的实时交互闭环,通过多模态感知(视觉,触觉,听觉等传感器融合)自适应决策(强化学习,模仿学习与因果推理结合)和动态控制(仿生运动规划,灵巧操作)构建:感知-行动-学习的一体化能力。并依托世界模型(神经渲染,数字孪生)实现环境理解与预测,同时借助轻量化硬件与仿真迁移技术(Sim-to-Real)解决物理部署难题,最终推动智能体在开放动态场景(例如,服务机器人,自动驾驶)中自主完成复杂任务,其发展需突破数据效率,通用性及安全伦理等瓶颈,迈向更类人的具身认知与协作能力。

原生多模态

  • 2024 年 OpenAI 发布的 GPT-4o 模型是首个端到端原生多模态模型。
  • 支持实时处理文本,图像,音频的任意组合输入与输出,响应速度提升至人类对话级别(最快 232 毫秒),成本降低 50%,并显著增强多语言支持与非英语场景的准确性。
  • 特点:作为 GPT-4 的升级版,GPT-4o 在写作,编程辅助,以及科学,技术,工程和数学(STEM)领域都取得了显著进步,其推理能力大幅提升,能够更精准地处理专业问题,进一步拓宽了应用场景。
  • 原生多模态,最直接的实现方式是将视觉(或其他模态)token 和文本 token 一起输入 transformer 主干网络,输出端文本 token 和视觉 token 再单独解码。

世界模型

  • 世界模型,是人工智能系统通过学习和推理构建的,能够模拟现实或虚拟环境动态规律与因果关系的核心框架,使AI能够预测未来状态并基于此做出类人决策。

例子:Nivdia Cosmos: A World Foundation Model Platform for Physical AI (基于 AI 做建模)

  • https://www.nvidia.com/en-us/ai/cosmos
  • https://www.youtube.com/watch?v=9Uch931cDx8

AI Agent

AI Agent (人工智能代理) 是具备环境感知,自主决策与行动执行能力的智能实体,能通过持续学习与交互实现特定目标 (如自动驾驶系统实时规划路径,或客服机器人动态响应用户需求)。

例子:Introducing Manus: The General AI Agent

  • MCP 和 A2A 的推出为 AI Agent 的发展提供了重要的基础设施,它们的标准化和开放性将促进 AI Agent 的广泛应用和生态系统的繁荣。

芯片分类

  • 集成电路 (Integrated Circuit),俗称芯片
  • 按照不同的处理信号方式,可以分为:数字芯片模拟芯片两大类。
  • 按照功能分,主要有:存储器,CPU,GPU/NPU,FPGA,ASIC 等,大多数都是数字芯片,或者以数字电路为主。

数字芯片:传递,加工,处理数字信号的 IC,主要处理离散的电学 1 和 0 信号,处理的是非连续性信号,都是脉冲方波

模拟芯片:处理连续的光,声音,速度,温度等自然模拟信号的 IC,处理的信号都具有连续性,可以转换为正弦波

数字芯片分类

品种 主要厂家 特点
中央处理器 (CPU) Intel / AMD /Huawei 1. 小模块,小数据集 2. 标量计算为主 (整型 + 浮点) 3. 不同场景软件框架众多
图形处理器 (GPU / GPGPU) Nvidia / AMD 1. 中大模块,中大数据集 2. 向量计算 (浮点 + 整型,用于图形,视频处理) 为主 + 矩阵计算 3. 基于 CUDA 或者 OpenCL 框架的应用
神经网络处理器 (TPU / NPU) Huawei / Google / Habana 1. 矩阵计算为主 + 稠密向量计算 2. 基于 TensorFlow,Pytorch 框架
现场可编程门阵列 (FPGA) Xilinx (AMD) / Altera (Intel) 1. 中大模块,中大数据集 2. 计算密集应用 3. 高性能,高能效 4. 基础软件 (驱动,微码)适配
特定应用集成电路 (ASIC) 众多厂商 1. 高度计算密集特定算法,算子 2. 性能和能效最高 3. 基础软件适配
  • FPGA: Field Programmable Gate Array
  • ASIC: Application Sepcific Integrated Circuit

CPU: 灵活性和易用性更好 GPU / NPU -> FPGA -> ASIC: 性能和功效更好

模拟芯片分类

模拟集成电路,是用来处理连续函数形式模拟信号(如声音,光线,温度)的集成电路,其处理所有数据的源头是模拟信号,而模拟芯片器件是处理外界数据的第一关,也是连接数字逻辑和物理电路的必要环节。

Refer

  • 陈仲铭,华为昇腾技术专家,上海交通大学企业导师,深圳市创新人才,B站AI科普UP主 (ZOMI酱)