AI 技术发展趋势
国产化芯片的算力

计算领域芯片全家福：算 (中央处理器 CPU)，存 (SSD 控制器芯片，属于 ASIC)，传 (智能网卡芯片，属于 ASIC)，管 (智能管理芯片，属于 ASIC)，智 (神经网络处理器 NPU)。五大芯片群。

CPU + 内存 + 外存：三大件占服务器成本 80%

CPU 和 GPU 芯片对比

CPU
- 低计算密度（整型标量计算为主）
- 复杂控制逻辑
- 大容量缓存（L1/L2/L3 缓存）
- 为串行操作优化
  - 更少的执行单元（ALU: 算术逻辑单元）- 因为 CPU 的核数有限，过多的 ALU 也使用不了
  - 更高的时钟速度（频率）
- 低时延访问
- 最新 CPU 引入更多的并行
- 组成
  - Control: 控制器
  - Cache: L1/L2/L3 缓存
  - ALU: 算术逻辑单元
GPU
- 高计算密度（浮点向量计算为主）
- 每次访问操作有较大计算量
- 为并行操作优化
  - 更多的执行单元（ALU: 算术逻辑单元）
  - 图形计算是数据并行的最典型案例
- 高吞吐，可容忍高访问延迟
- 最新 GPU 更好的控制逻辑，Scatter / Gather 内存访问

异构计算芯片架构演进：片间异构 -> 片内异构 -> 核间异构 -> 核内异构。目的：最大资源共享，最大互联带宽，最低通信延迟

算力墙，内存墙，互联墙日益影响计算架构持续演进，Fabless 和 DSA 带来计算系统架构创新的黄金时代。

算力墙：处理器算力增长的主要驱动力（工艺 + 多核）发展放缓，受限

内存墙：内存带宽的增长无法匹配算力增长

互联墙：PCIe 总线时延 / 带宽无法满足芯片间互联需求

DSA (Domain Specific Architecture) 逐渐成为主流

GPU，GPGPU，TPU / NPU 三种浮点加速器（异构计算）是目前产业界最成功的 DSA。

AI 场景追求算力和精度的平衡，GPU 适应 AI 算力特点不断创新浮点数格式，并推广成事实标准

Nvidia 利用工艺红利，2年一代，峰值浮点算力提升 2.5 - 3 倍。

2016 P100 全精度浮点向量（CUDA Core），FP64 : FP32 : FP16 算力配比 = 1 : 2 : 4（精度越低，算力越高）
2017 V100 引入 FP16 浮点矩阵计算单元（Tensor Core）
2020 A100 Tensor Core 支持全精度浮点 FP64 : FP32 : FP16 算力配比 = 1 : 8 : 16，引入 Bfloat16，TF32 精度
2022 H00 引入 FP8 浮点精度
2024 B200 引入 FP4 浮点精度，主打推理
2026 R200 引入浮点混精格式

先进工艺仍可持续演进，但新工艺节点的晶体管密度收益从每代 1.8 倍收窄到 1.2 倍。

浮点型计算不满足结合律和交换律。

厂商定制非 IEEE 754（通用计算和 HPC 标准）标准浮点精度格式，满足 AI 细分场景不同精度要求。FP8 有望成为 IEEE 754 之后专用于 AI 场景的浮点格式新标准（因为，大模型对精度不敏感）。

2025 年十大AI技术趋势

AI4S (AI for Science)：科学的未来：AI4S 驱动科学研究范式变革
具身智能 (Embodied AI)：具身智能元年，具身大小脑和本体的协同进化
原生多模态达模型 (Native Multimodal Models)：下一个 Token 预测，统一的多模态达模型实现更高效 AI
Scaling Law 扩展：RL + LLMs，模型泛化从预训练向后训练，推理迁移
世界模型 (World Models)：世界模型加速发布，有望成为多模态大模型的下一个阶段
合成数据 (Synthetic Data)：合成数据将成为大模型迭代与应用落地的重要催化剂
推理优化 (Inference Optimization)：推理优化迭代加速，成为 AI Native 应用落地的必要条件
Agentic AI：重塑产品应用形态，Agentic AI 成为产品落地的重要模式
AI 超级应用：AI 应用热度渐起，Super APP 花落谁家犹未可知
AI 安全：模型能力提升与风险预防并重，AI 安全治理体系持续完善

总结：

不管是 LLM, MLM, 世界模型，原生多模态大模型，模型结构都是基于 Transformer 架构
世界模型，原生多模态，具身智能，实际上是一个多模态大模型分支，区别在于数据预处理，数据对齐
再好的 AI Agent 和 AI 应用，归根到底是模型能力足够强
所有的 AI 趋势背后，都需要庞大的算力支撑

具身智能

具身智能的核心技术聚焦于智能体与环境的实时交互闭环，通过多模态感知（视觉，触觉，听觉等传感器融合）自适应决策（强化学习，模仿学习与因果推理结合）和动态控制（仿生运动规划，灵巧操作）构建：感知-行动-学习的一体化能力。并依托世界模型（神经渲染，数字孪生）实现环境理解与预测，同时借助轻量化硬件与仿真迁移技术（Sim-to-Real）解决物理部署难题，最终推动智能体在开放动态场景（例如，服务机器人，自动驾驶）中自主完成复杂任务，其发展需突破数据效率，通用性及安全伦理等瓶颈，迈向更类人的具身认知与协作能力。

原生多模态

2024 年 OpenAI 发布的 GPT-4o 模型是首个端到端原生多模态模型。
支持实时处理文本，图像，音频的任意组合输入与输出，响应速度提升至人类对话级别（最快 232 毫秒），成本降低 50%，并显著增强多语言支持与非英语场景的准确性。
特点：作为 GPT-4 的升级版，GPT-4o 在写作，编程辅助，以及科学，技术，工程和数学（STEM）领域都取得了显著进步，其推理能力大幅提升，能够更精准地处理专业问题，进一步拓宽了应用场景。
原生多模态，最直接的实现方式是将视觉（或其他模态）token 和文本 token 一起输入 transformer 主干网络，输出端文本 token 和视觉 token 再单独解码。

世界模型

世界模型，是人工智能系统通过学习和推理构建的，能够模拟现实或虚拟环境动态规律与因果关系的核心框架，使AI能够预测未来状态并基于此做出类人决策。

例子：Nivdia Cosmos: A World Foundation Model Platform for Physical AI (基于 AI 做建模)

https://www.nvidia.com/en-us/ai/cosmos
https://www.youtube.com/watch?v=9Uch931cDx8

AI Agent

AI Agent (人工智能代理) 是具备环境感知，自主决策与行动执行能力的智能实体，能通过持续学习与交互实现特定目标 (如自动驾驶系统实时规划路径，或客服机器人动态响应用户需求)。

例子：Introducing Manus: The General AI Agent

MCP 和 A2A 的推出为 AI Agent 的发展提供了重要的基础设施，它们的标准化和开放性将促进 AI Agent 的广泛应用和生态系统的繁荣。

芯片分类

集成电路 (Integrated Circuit)，俗称芯片。
按照不同的处理信号方式，可以分为：数字芯片和模拟芯片两大类。
按照功能分，主要有：存储器，CPU，GPU/NPU，FPGA，ASIC 等，大多数都是数字芯片，或者以数字电路为主。

数字芯片：传递，加工，处理数字信号的 IC，主要处理离散的电学 1 和 0 信号，处理的是非连续性信号，都是脉冲方波。

模拟芯片：处理连续的光，声音，速度，温度等自然模拟信号的 IC，处理的信号都具有连续性，可以转换为正弦波。

数字芯片分类

品种	主要厂家	特点
中央处理器 (CPU)	Intel / AMD /Huawei	1. 小模块，小数据集 2. 标量计算为主 (整型 + 浮点) 3. 不同场景软件框架众多
图形处理器 (GPU / GPGPU)	Nvidia / AMD	1. 中大模块，中大数据集 2. 向量计算 (浮点 + 整型，用于图形，视频处理) 为主 + 矩阵计算 3. 基于 CUDA 或者 OpenCL 框架的应用
神经网络处理器 (TPU / NPU)	Huawei / Google / Habana	1. 矩阵计算为主 + 稠密向量计算 2. 基于 TensorFlow，Pytorch 框架
现场可编程门阵列 (FPGA)	Xilinx (AMD) / Altera (Intel)	1. 中大模块，中大数据集 2. 计算密集应用 3. 高性能，高能效 4. 基础软件 (驱动，微码)适配
特定应用集成电路 (ASIC)	众多厂商	1. 高度计算密集特定算法，算子 2. 性能和能效最高 3. 基础软件适配

FPGA: Field Programmable Gate Array
ASIC: Application Sepcific Integrated Circuit

CPU: 灵活性和易用性更好 GPU / NPU -> FPGA -> ASIC: 性能和功效更好

模拟芯片分类

模拟集成电路，是用来处理连续函数形式模拟信号（如声音，光线，温度）的集成电路，其处理所有数据的源头是模拟信号，而模拟芯片器件是处理外界数据的第一关，也是连接数字逻辑和物理电路的必要环节。

Refer

陈仲铭，华为昇腾技术专家，上海交通大学企业导师，深圳市创新人才，B站AI科普UP主 (ZOMI酱)