为何 NVIDIA 稳坐 AI 龙头?马斯克、微软、AMD 与亚马逊紧随其后,2025 与 2026 成市场分水岭

自从辉达 (Nvidia) 从游戏 GPU 供应商,转型成全球 AI 运算的核心技术供应商,已成功在全球 AI 产业上站稳脚跟。而全球各大科技巨头像是微软 (Microsoft)、亚马逊 (Amazon)、Google、Meta 以及马斯克 (Elon Musk) 也紧随其后,并加码投资 AI 基础设施。

同时斥资数十亿美元来打造「超大规模资料中心」,并采购数百万颗 AI 晶片来建置,以满足 AI 模型对算力的庞大需求。然而面对辉达的强势主导,AMD、英特尔 (Intel)、Google TPU 与亚马逊 (Tranium) 等对手是否有机会突围,未来 AI 发展是否会遇到算力瓶颈,这场 AI 大战究竟会如何发展。

「规模」成为关键,科技巨头继续打造 AI 基础设施

近年来 AI 模型的运算需求快速成长,科技巨头们相继斥资打造大型资料中心,以扩张 AI 运算能力,包括:

Meta 在美国路易斯安那州打造 20 亿瓦 (2GW) 超大资料中心。

亚马逊 AWS 与微软 Azure 也在全球扩建多座千兆瓦级 (Gigawatt) 资料中心。

Google 砸下数十亿美元购买光纤网路,加强全球资料中心连结。

马斯克的 xAI 计划部署 20 万颗 GPU,建立 AI 超级运算集群。

借由这些科技巨头的投资显示,「规模」仍是关键,再透过光纤网路将全球资料中心互相连结,进而提升 AI 训练与运算效能,直接反驳「AI 运算规模已达极限」的说法。

辉达仍独占鳌头,全球 AI 算力 70% 以上靠它

在 AI 晶片市场,辉达仍以市占率 70% 稳坐市场龙头,尤其是在 AI 训练领域,市占率更接近 98%。即便 Google 拥有自己的 TPU (Tensor Processing Unit) 晶片,但仍是辉达 GPU 的买家之一。

(注:TPU 是 Google 为加速机器学习和 AI 工作负载而设计的特殊应用晶片。)

为何辉达能够稳居霸主地位

软体优势: 除了硬体,辉达是少数真正擅长 AI 软体的半导体公司,尤其是自家的 CUDA 生态系难以取代。

先进制程: 总能比竞争对手更快导入新技术,确保晶片效能领先。

网路技术: 透过收购 Mellanox,加强 GPU 之间的高效互连技术 (NVLink)。

这些因素让 NVIDIA 成为 AI 晶片领头羊,即便 AMD、Google、亚马逊等对手积极投入 AI 晶片开发,辉达依旧稳居市场霸主地位。然而市场竞争仍然激烈,许多科技业者正在寻找替代方案,以降低对辉达依赖。

Google TPU、AMD MI300、亚马逊 Tranium 能否挑战辉达

尽管辉达仍然主导市场,但以下几家主要竞争对手像是 Google、AMD 与亚马逊仍试图抢占 AI 算力市场。Google 的 TPU 虽然主要用于内部服务,像是搜寻、广告、YouTube 影片处理,但在 AI 训练市场仍拥有大量市占率。

Google TPU 优劣势

与 Broadcom 合作,拥有强大互连技术。

整合至 Google 内部服务,优化搜寻、广告 AI 演算法。

在 AI 训练领域仅次于 NVIDIA。

TPU 劣势

Google 云端业务较弱,TPU 在外部市场竞争力不如辉达。

软体生态系封闭,外部开发者难以使用。

AMD MI300 为辉达最大竞争对手,但软体仍是短板

AMD 近年来积极布局 AI 晶片市场,MI300X GPU 受惠于美国对中国的出口管制,在中国市场相对吃香。此外微软与 Meta 也积极采用 AMD 晶片,以降低对辉达的依赖。

虽说 AMD 表现不错,但不会向市场预期般大爆发。因为 AMD 的 ROCm 平台在 AI 软体生态系统方面还不够成熟,跟辉达的 CUDA 相比,稳定性和易用性都还有进步空间。

举例来说,开发者在使用 ROCm 来训练 AI 模型时,经常会遇到除错 (debug) 困难等问题,甚至连基本的「开箱即用」体验都不太顺利。像是直接用 ROCm 跑 PyTorch 这类主流 AI 框架的模型,可能会遇到无法顺利运行的情况,还需要额外调整或修改,让开发者使用起来没那么方便。

Amazon Tranium 2 主打成本效益

亚马逊所推出的 Tranium 2 被外界戏称为亚马逊版 TPU,主要针对内部 AI 训练使用,强调低成本与高记忆体带宽。以下是 Amazon 针对成本效益的三个面向:

价格性能比提升:AWS 声称 Trn2 实例比当前一代基于 GPU 的 EC2 实例 (P5e、P5en 与使用辉达 H200) 提供 30-40% 的价格性能优势。

能源效率提升: Trainium 2 比第一代 Trainium (Trn1) 节能 3 倍,单位计算的耗能更低。

训练成本降低:Trainium 2 支援高效分布式训练,搭配 Elastic Fabric Adapter (EFA) 来提供高达 12.8 Tbps 的网路频宽,减少训练大型 AI 模型的时间。

对 AWS 客户来说,不仅降低租赁费用与电费,也透过生态整合减少间接成本,特别在 AI 晶片需求激增的背景下,此为挑战辉达的关键策略。

辉达仍然领先,但 AI 算力资本狂潮是否能持续

目前来看辉达依旧稳坐 AI 晶片霸主地位,但 2025、2026 年将是市场的分水岭。如果 AI 模型效能持续突破,算力需求将不断攀升,各大科技巨头也会继续投入资本来促进产业发展。

然而市场仍需关注 AI 商业模式能否真正带来稳定获利,否则 AI 市场可能会出现「泡沫化」,到时将迎来一波整并潮,只有真正具有技术优势的公司才能存活。

(64,000 颗辉达 AI 晶片准备入场!Stargate 专案砸数十亿镁,德州超级数据中心即将启动)

这篇文章 为何 NVIDIA 稳坐 AI 龙头?马斯克、微软、AMD 与亚马逊紧随其后,2025 与 2026 成市场分水岭 最早出现于 链新闻 ABMedia。

查看原文
本页面内容仅供参考,非招揽或要约,也不提供投资、税务或法律咨询。详见声明了解更多风险披露。
  • 赞赏
  • 评论
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate.io APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)