深度解讀:Google TPU如何沖擊“英偉達帝國”?
2025 年的AI 芯片市場正處于一個微妙的轉捩點。盡管英偉達憑借其Blackwell 架構仍維持著技術和市場占有率的絕對領先地位,但Google( GOOGL-US ) TPU 的全面商業化,正使英偉達看似牢不可破的定價權開始松動。
據半導體行業研究機構SemiAnalysis 的測算,英偉達過去的最大客戶Google,如今已成為其最大的對手。
?SemiAnalysis 指出,OpenAI 僅憑「揚言采購TPU」這一籌碼,就能迫使英偉達生態鏈做出實質讓步,使其計算集群的總擁有成本(TCO)下降了約30%。
隨著Anthropic 高達1GW 的TPU 采購細節曝光,Google 已正式脫離「云服務商」的標簽,轉型為一家直接向外部出售高性能芯片與系統的「商用芯片供應商」。
當頂級AI 實驗室能夠利用TPU 訓練出超越GPT-4 的模型,且Google 愿意開放軟體生態并提供金融杠桿時,英偉達高達75% 的毛利率神話便不再牢不可破。
Google「主動出擊」:Anthropic 成關鍵引爆點
長期以來,Google 的TPU 猶如其搜尋演算法,是深藏不露的內部核武器。然而,SemiAnalysis 獲取的供應鏈情報顯示,這一策略已發生根本性逆轉。
最直接的案例來自頂級大模型公司Anthropic。 Anthropic 已確認將部署超過100 萬顆TPU,這筆交易的結構極具破壞力,揭示了Google 「混合銷售」的新模式:
直接銷售: 首批約40 萬顆最新的TPUv7 ,將不再透過云端租賃,而是由長期合作伙伴博通( AVGO-US ) 直接出售給Anthropic,價值約100 億美元。博通在本次交易中從幕后走向臺前,成為算力轉移的隱形贏家。
云端租賃: 剩余的60 萬顆TPUv7 將透過Google 云進行租賃,涉及高達420 億美元的剩余履約義務(RPO),直接支撐了Google 云近期積壓訂單的暴漲。
這代表,Google 不再吝嗇于將最先進的算力外售。除了Anthropic,Meta( META-US ) 、SSI、xAI 等頂級AI 實驗室也出現在了潛在客戶名單中。
面對這一突如其來的攻勢,英偉達罕見地展現出防御姿態,不得不針對「循環經濟」(即投資初創公司購買自家芯片)的市場質疑發布長文辯解,凸顯英偉達確實受到威脅。
成本為王:TPU 的碾壓性TCO 優勢
客戶轉向Google 的理由很純粹:在AI 軍備競賽中,性能是入場券,但總擁有成本(TCO)決定生死。
SemiAnalysis 的模型數據顯示,Google TPUv7 在成本效率上對英偉達構成碾壓優勢。
從Google 內部視角看,TPUv7 伺服器的TCO 比英偉達GB200 伺服器低約44%。即便加上Google 和博通的利潤,Anthropic 透過GCP 使用TPU 的TCO,仍比購買GB200 低約30%。
這種成本優勢并非僅靠壓低芯片價格實現,更源于Google 獨特的金融工程創新:透過云端平臺提供財務保障。
在AI 基礎設施建設中,存在一個明顯的期限錯配:GPU 集群的經濟使用壽命通常只有4 到5 年,而數據中心場地的租賃合約則長達15 年以上。
這種時間上的不匹配,使得Fluidstack、TeraWulf 等新興算力服務商很難獲得融資。
針對這個問題,Google 利用一種「表外信貸支持」(IOU)機制來解決這一問題:如果中間商無法支付租金,Google 會介入提供財務擔保,確保算力資源得以穩定運作。
這項金融工具直接打通了加密貨幣礦工(擁有電力與場地)與AI 算力需求之間的堵點,建立了一個低成本、獨立于英偉達生態之外的基礎設施體系。
Google 殺手锏:系統工程與光互連技術
如果說價格戰是戰術層面的對壘,那么系統工程則是Google 戰略層面的護城河。
雖然單顆TPUv7 在理論峰值算力(FLOPs)上略遜于英偉達Blackwell,但Google 透過極致的系統設計抹平了差距。
TPUv7 在記憶體頻寬和容量上已大幅縮小與英偉達旗艦芯片的差距,采用了更務實的設計哲學:不追求不可持續的峰值頻率,而是透過更高的模型算力利用率(MFU)來提升實際產出。
更值得注意的是,Google 真正的殺手锏是其獨步天下的光互連(ICI)技術。不同于英偉達依賴昂貴的NVLink 和InfiniBand/Ethernet 交換機,Google 利用自研的光路交換機(OCS)和3D Torus 拓撲結構,建構了名為ICI 的片間互連網路。
這一架構允許單個TPUv7 集群(Pod)擴展至驚人的9,216 顆芯片,遠超英偉達常見的64 或72 卡集群。 OCS 允許透過軟體定義網路,動態重構拓撲結構。
這代表如果某部分芯片故障,網路可以在毫秒級繞過故障點,重新「切片」成完整的3D 環面,極大地提升了集群的可用性,且光訊號在OCS 中無需進行光電轉換,直接物理反射,大幅降低了功耗和延遲。
Gemini 3 和Claude 4.5 Opus 這兩大全球最強模型均完全在TPU 上完成預訓練,這本身就是對TPU 系統處理「尖端模型預訓練」這一最高難度任務能力的終極背書。
Google拆除最后的圍墻:軟體生態的改變
長期以來,TPU 在外部市場的普及一直受到軟體生態的限制。 Google 堅持使用自家JAX 語言,而大多數全球AI 開發者則習慣于PyTorch 與CUDA。
然而,隨著商業利益的擴大,Google 開始調整策略。
SemiAnalysis 指出,Google 軟體團隊的績效指標(KPI)已經從「服務內部需求」轉向「開放與兼容外部生態」。官方明確表示,將全面支持PyTorch Native 在TPU 上的運行。
原本依賴低效率的Lazy Tensor 轉換的方式,也被XLA 編譯器直接對接PyTorch Eager Execution 模式所取代。
這代表,像Meta 這類以PyTorch 為主的公司,可以幾乎無縫地將現有程式碼部署到TPU 上。
同時,Google 也積極向vLLM、SGLang 等開源推理框架貢獻程式碼,進一步打通TPU 在開源AI 生態中的兼容性。
這一策略轉變,正在逐步削弱英偉達原本牢不可破的「CUDA 護城河」。隨著軟體與硬體的雙重進攻,矽谷AI 算力霸主之爭才剛揭開序幕。