发布日期:2026-04-27 09:56 点击次数:84

当地时辰2026年4月22日,在拉斯维加斯举行的Google Cloud Next '26大会上,谷歌追究发布了第八代张量处理器(TPU)。这是谷歌史上初度将AI锻真金不怕火与推理任务拆分至两款孤独芯片——专为模子锻真金不怕火瞎想的TPU 8t与专为推理优化的TPU 8i,标记着其AI硬件政策的首要转向。
与此同期,谷歌秘书其第七代TPU Ironwood追究向云客户盛开,并预报了与英伟达的深度相助——将在2026年下半年景为首家提供NVIDIA Vera Rubin NVL72超等打算机的云作事商。
为何拆分锻真金不怕火与推理?
谷歌作念出这一政策周折的根底原因,是AI打算负载的日益分化。谷歌AI与基础设施高等副总裁兼首席本事官Amin Vahdat在官方博客中指出:“跟着AI智能体的兴起,咱们细目业界将受益于针对锻真金不怕火和推理需求折柳进行专门优化的芯片。”
具体而言,锻真金不怕火任务追求极致的浑沌量与畛域推广智力,需要芯片具备最高的打算密度和内存带宽,以在数周甚而数月内处理万亿级参数。而推理任务则对延伸和并发更为敏锐——当数百万个AI智能体同期运行时,反应速率至关蹙迫,而对峰值算力的条件相对较低。
Amin Vahdat在大会现场明确暗示:“这两款芯片皆是从新运转专门为锻真金不怕火和推理瞎想的,而非互相养殖居品。它们的规格、智力、互联相貌皆因各自需求而专门瞎想。
Alphabet首席实施官桑达尔·皮查伊则强调,这一新架构旨在以低资本提供大畛域浑沌量和低延伸,知够数百万个AI智能体同期运行的需求。
TPU 8t:大畛域预锻真金不怕火旗舰芯片
TPU 8t由谷歌和博通共同瞎想,是谷歌为超大畛域AI模子锻真金不怕火打造的旗舰芯片。单个超等打算节点最多可集成9,600块TPU 8t芯片,配备2 PB高带宽内存,每Pod打算性能达121 exaflops(FP4精度),较上一代Ironwood进步约3倍,同等价钱下性能进步2.8倍。通过JAX与Pathways框架,可将分散式锻真金不怕火推广至单一集群逾越100万块芯片。
在架构瞎想上,TPU 8t罗致双打算芯粒加单I/O芯粒的架构,配备8组12层堆叠的HBM3e高带宽内存。芯片搭载了SparseCore专用加快器,专门处理大谈话模子查找经过中常见的不法例内存造访问题;同期营救原生FP4浮点精度,矩阵运算单元算力浑沌平直翻倍,海量数据搬运功耗大幅下跌。
为匹配海量数据浑沌需求,谷歌全新研发了Virgo互联架构,锻真金不怕火场景数据中心收罗带宽最高进步至前代4倍。该架构罗致高基数交换机减少层级,扁平化两层无侵犯拓扑结构,单套收罗可互联13.4万颗TPU 8t芯片,无侵犯二分带宽高达47Pbps,芯片间互联带宽较上一代进步2倍。在存储造访方面,TPU 8t通过TPU直连RDMA和TPU直连存储两项本事,绕过CPU结束TPU与网卡、高速存储之间的平直内存造访,存储造访速率进步10倍。此外,芯片还领有一整套可靠性、可用性与可提神性智力,包括及时遥测监控、自动检测并绕过故障链路、以及无需东谈主工搅扰自动重构硬件拓扑的光路电路交换本事。
TPU 8i:高并发推理专属平台
TPU 8i初度由谷歌和联发科相助瞎想,专注于AI推理场景,旨在排斥“恭候室效应”——即用户恳求被故意列队或延伸以结束硬件运用率最大化的情况。单个Pod可推广至1,152块芯片,提供11.6 exaflops FP8打算性能,较Ironwood同等价钱下性能进步80%,每瓦性能较上一代进步117%。
TPU 8i最显赫的特征是搭载了384MB片上SRAM缓存,容量是上一代Ironwood的三倍。这一瞎想的中枢价值在于可将更大的KV Cache保留在芯片上,大幅减少长凹凸文解码时芯片中枢的空隙恭候时辰,结束更快的文本生成速率和更低的延伸。芯片还引入了全新的汇集通讯加快引擎(CAE),专门加快自回来解码与想维链推理所需的规约与同步运算,多中枢成果团聚险些零延伸,片上汇集通讯延伸较前代缩小5倍。单颗TPU 8i内置两颗张量中枢和一颗片上CAE,替代前代Ironwood的四颗寥落打算中枢。
TPU 8i最大的架构革命在于废弃了TPU传统的3D环形拓扑结构,转而罗致全新的Boardfly层级互联拓扑。在MoE(羼杂群众模子)与推理模子期间,随便芯片皆需要随时互通Token数据,跳转次数平直决定性能。关于8×8×16畛域(1024芯片)的3D环形收罗,最远芯片通讯需要16跳;而Boardfly拓扑在同等畛域下仅需7跳,收罗直径缩减56%。
Boardfly罗致分层瞎想:4颗芯片环形互联组成基础单元,8块板卡通过铜缆全互联构资腹地算力组,36个算力组通过光开关互联组成最高1024颗芯片的集群。
在这种结构下,随便两枚芯片之间的通讯最多只需经过7次跳转,全对全通讯延伸改善最高50%,这对羼杂群众模子和经常的跨芯片令牌路由极为有益。TPU 8i配备288GB HBM高带宽内存,湮灭384MB片上SRAM,确保模子的活跃使命集梗概绝对保留在芯片里面运行,从根底上科罚“内存墙”问题。
基于2nm制程,2027年底量产
两款第八代TPU芯片均搭载了谷歌自研的Arm架构Axion CPU当作主控,透澈科罚数据预处理延伸导致的主机算力瓶颈。芯片罗致台积电2nm制程工艺制造,成见在2027年底量产,并由公司第四代液冷本事营救散热。
在软件生态方面,第八代TPU营救JAX、PyTorch、Keras及vLLM等主流框架,原生PyTorch营救现已参预预览阶段,用户可平直迁徙模子而无需修改代码。
谷歌TPU的罗致率正在捏续攀升。Anthropic已本心罗致数GW品级的TPU算力,2027年上线畛域将推广至3.5吉瓦,成为第八代TPU的锚定客户。此外,Citadel Securities已运用TPU打造量化征询软件,好意思国动力部旗下17个国度实际室全面罗致基于TPU的AI协同科学家系统。
分析师无数以为,谷歌通过将TPU一拆为二,是对AI锻真金不怕火与推理需求加快分化的平直呈文,有助于大幅进步特定场景下的单元算力性价比,从而缩小云客户部署资本。
裁剪:芯智讯-浪客剑
Powered by 比SBObet好的APP @2013-2022 RSS地图 HTML地图
Copyright Powered by365站群 © 2013-2024