AMD叫板英偉達為何吃力不討好?國產GPU不能只看算力
近日,芯片巨頭AMD推出全新AI GPU MI300系列芯片,與英偉達在AI 算力市場展開競爭。
AMD首席執行官蘇姿豐介紹稱,MI300X提供的高帶寬內存(HBM)密度是英偉達H100的2.4倍,HBM帶寬是競品的1.6倍。華爾街分析師也普遍認為,AMD的這款芯片將對目前掌握AI芯片市場逾八成份額的英偉達構成有力挑戰,這款MI300X加速器,有望替代英偉達的同類產品。
然而,市場對本次新品的反響似乎并不熱烈。截至隔夜收盤,AMD股價下跌超3.6%,被挑戰的英偉達不跌反漲,股價單日大漲3.90%。
躥紅的英偉達
2022年ChatGPT橫空出世,把AI 行業的發展推向了一個新的高潮,生成式 AI 需要基于海量的數據進行推理訓練,高算力的 GPU 加速卡自然也成了市場的搶手貨。乘著AI的東風,英偉達坐上了“算力霸主”的寶座。
據悉,微軟用幾億美元,耗費上萬張英偉達A100芯片打造超算平臺,只為給ChatGPT和新版必應提供更好的算力。不僅如此,微軟還在Azure的60多個數據中心部署了幾十萬張GPU,用于ChatGPT的推理。特斯拉CEO馬斯克也購買了約1萬個GPU,用于公司的兩個數據中心之一。除此之外,像亞馬遜、阿里、百度等眾多科技公司都在競相部署AI芯片。
供需的極度不平衡讓英偉達的GPU一芯難求,開啟漲價。據市場消息人士透露,英偉達的A100和H100 AI GPU訂單還在不斷增加,A800和H800的售價已上漲40%,新訂單交期可能要延長到12月份。
在炙手可熱的AI浪潮下,英偉達賺得盆滿缽滿。英偉達表示,其截至 7 月的本季度銷售額預計將達 110 億美元,較華爾街之前的估計高出 50%以上。不過,作為AI的基礎設施,算力芯片環節的“一家獨大”顯然不是有利于行業長遠發展的生態,市場迫切需要引入新的競爭者,AMD的出現或許有望“分擔”AI市場的壓力。
AMD叫板英偉達
MI300是AMD發布的第一款數據中心、高性能計算機群(HPC)級的APU,采用與英偉達Grace Hopper相同的CPU+GPU架構,但是硬件參數更高。
MI300在CPU部分集成了24個ZEN4內核,GPU部分集成了6塊使用CDNA3架構的芯片,擁有1460億個晶體管,比英特爾GPU Ponte Vecchio多460億個晶體管,比英偉達H100多660億個晶體管,而且MI300的統一內存可降低不同內存間來回復制、同步和轉換數據所導致的編程復雜性。
封裝工藝方面,MI300使用最近爆火的3D Chiplet封裝技術,而GH200則使用CoWoS(2.5D)封裝,3D對比2.5D的優勢在于性能更高、延遲和功耗更低。
從硬件參數上來看,AMD MI300已經具備和英偉達叫板的能力,但顯卡領域完善軟件生態比堆硬件參數更難,AMD的軟件生態能否貼合人工智能行業的市場需求,是MI300能否搶走英偉達既有市場的重要影響因素。
英偉達壟斷人工智能訓練芯片市場的主要原因是其自研的CUDA生態。所以AMD MI300想要替代英偉達,首先需要兼容英偉達的CUDA生態,AMD為此推出ROCm生態圈,并實現通過HIP完全兼容CUDA。
作為AMD的GPU軟件開發框架,HIP對應的是CUDA API,其提供的HIPify-perl和HIPify-clang工具,可用于CUDA到HIP的代碼轉換,轉碼后可在AMD GPU上編譯運行,基于HIP開發的應用也可用于AMD和英偉達的GPU上。
在此背景下,同一個數據中心內,理論上可以同時使用AMD和英偉達的GPU,但不同公司的GPU產品對數據精度的標準和計算方法及順序配置不同,混合使用GPU難免會導致計算精度缺失等問題,直接影響模型訓練效果。
而且從技術層面來看,兼容意味著被動、落后,因為CUDA每一次升級,ROCm都需要做出對應升級,技術團隊無法將所有精力用于ROCm生態圈的迭代上,應用場景和使用體驗都會落后于英偉達。
回顧二者發展歷程,英偉達2007年發布CUDA,AMD2016年才發布ROCm,前者自問世起就支持Linux、Windows多平臺,后者則長期只能支持Linux系統,且不支持部分Linux的更新,并于今年4月才登錄Windows平臺。
同樣是今年4月,AMD剛解決消費級產品與ROCm的適配,此前僅支持AMD高端GPU,限制了市場份額的提升。最后就是由于切入時間更晚,AMD開發者數量遠低于英偉達的400萬。
對比CUDA和ROCm的開發活躍度,在全球最大的開發者社區之一StackOverflow中,“CUDA”的標簽下有超過14000個問題討論,而ROCm在“amd-rocm”的標簽下只有不到100個問題討論。在Github上,貢獻CUDA軟件包倉庫的開發者超過32600位,而ROCm只有不到600個。
為改變這種被動局面,AMD也在積極豐富其軟件生態。雖然目前僅有部分SKU支持Windows系統,但主流Radeon顯卡用戶可以開始試用過去僅專業顯卡才能使用的AMD ROCm(5.6.0Alpha)。
今年1季度,AMD宣布ROCm系統融入PyTorch2.0框架,目前TensorFlow和Caffe深度學習框架也已加入第五代ROCm。
故此,從軟件生態方面來看,現有的AMD MI300還不足以威脅英偉達的市場份額,想撼動英偉達在人工智能行業的地位,AMD還需時間。
國產GPU迎來發展黃金期
龐大的市場需求和歐美的芯片封鎖,迫使得國產GPU被推到了聚光燈下,迎來了絕佳的發展期。有業內人士稱:“國產GPU在信創方面已經實現逐步替代,AI&數據中心、智能汽車、游戲等應用領域的國產GPU需求量也有極大的提升,國產GPU迎來發展黃金期,我們看好國產GPU公司的發展與投資機遇。”
近日,國內多個GPU廠商,從老牌的景嘉微,到初創的沐曦,都順應市場需求,相繼推出了各自在GPU領域的最新拳頭產品。
中天恒星:6月15日在北京發布國產自主GPU架構“天狼星”,擁有完全自主知識產權,自研核心架構確保產品迭代自主可控,同時擁有完備的交付能力,并已實現量產。
景嘉微:成功研發JM54 系列、JM72 系列、JM92 系列三代 GPU 產品。應用于臺式機、筆記本、一體機、服務器、工控機、自助終端等設備。
天數智芯:6月10日發布天垓100加速卡的算力集群,已經具備支持百億級參數大模型訓練的能力。是國內第一款全自研、GPU 架構下的云端訓練芯片,實現了我國通用GPU從0到1的重大突破。
芯動科技:芯動發布的“風華 2 號”是一款集超低功耗、強渲染、4K 高清三屏顯示、4K 視頻解碼及智能 AI 計算于一體的桌面和筆記本 GPU,實現了多個自研技術的創新突破。
摩爾線程:基于MUSA架構打造了兩顆全功能GPU芯片“蘇堤”和“春曉”;面向信創市場推出了桌面級顯卡MTT S10、MTT S30和MTT S50。
沐曦:6 月 14 日宣布曦云系列的最新產品MXC500成功點亮,產品直接對標英偉達 A100,采用通用 GPU 架構,兼容 CUDA。
盡管國產GPU的推出步伐不斷加快,其中也不乏一些對標國際高端GPU的產品,但不得不承認,國產GPU要走向真正成熟可靠,實現完全國產替代還有很長的距離。
國產GPU整個商業生態尚未成熟
在芯片“斷供”之前,國內購買海外高端GPU芯片之路暢通,很少有客戶在重大項目采購時會考慮國產GPU,都普遍傾向海外最先進、最穩定的產品,以保證項目順利完成。究其原因有二,一是畢竟國產GPU的發展才剛剛起步,在性能和穩定性方面尚未取得長時間,多項目的驗證,不少國產GPU在實際應用中出現了工作負載低,芯片性能不穩定,兼容性差的情況。二是軟件生態不夠完善,如果一個芯片沒有與之配套的軟件生態,則很難真正形成大面積的應用。
在當下GPU應用最火的AI大模型訓練中,騰訊云新一代HCC(High-Performance Computing Cluster)高性能計算集群使用的是英偉達最新代次H800 GPU;阿里曾在 2018-2019 年采購了上萬塊英偉達的V100和T4 GPU用于近年來的云計算和大模型訓練,其他字節、百度、美團、B站等都清一色采購英偉達的A100、H100 GPU或是去年禁令后英偉達專門推出的減配版 A800、H800 GPU。
這使得國產GPU在國內鮮有大企業應用成功的案例,大部分還僅僅圍繞在PC、圖形渲染領域,或是應用在專門的軍事、政府等部門。商業市場的大門,只是開了一條縫。
另外,國產GPU廠商的硬件架構,軟件API接口不盡相同,客戶基本只能多選一,兼容和替換都不夠靈活,比較難實現技術生態的統一。
只靠算力,無法做英偉達的PlanB
英偉達的強不只是體現在硬件產品上,在軟件平臺中,英偉達也有自己的護城河。
CUDA就是英偉達推出的基于GPU的并行計算平臺和編程模型,可以用來加速大規模數據并行計算,使得GPU可以用于更加廣泛的科學計算和工程計算等領域。CUDA的良好生態系統吸引了眾多學術機構和高性能計算中心的關注和使用,也為英偉達提供了強有力的市場競爭優勢。現在AMD也在做同樣的事情,只是英偉達已經占了先發優勢,AMD搭建起來可能會更為艱難。
CUDA的重要性不言而喻,但是提供CUDA兼容層,需要廠商具備足夠的研發實力,上文提到的與CUDA兼容的有沐曦、海光、壁仞、天數智芯等公司,因此是否兼容CUDA也成為衡量AI芯片公司的標的之一。
至于是否一定要兼容CUDA,業界有著不同見解。專家稱,在小模型上CUDA仍然很重要,但在大模型上它的地位越來越輕了。如果未來中國市場以小模型為主,那CUDA還是有很大的影響力,而如果是以大模型為主,對于CUDA的依賴就越來越小了。
總而言之,重視軟件配適開發至關重要。
對于建立國產IT系統的行動建議包括:設置合理國產系統及芯片性能要求和驗證目的,從非關鍵應用開始嘗試導入部分國產芯片;加強軟件配適開發,確保軟件對不同系統的兼容性、穩定性和運營性能;建立加強對國內基礎IT軟硬件廠商的投資,確保廠商對產品開發計劃的影響力;優先考慮國內供應鏈和成熟平臺,積極采用半導體創新技術。
