英特爾推定制版AI芯片,中國客戶會買單嗎?
7月11日,英特爾召開芯片發布會,針對中國市場推出高端AI處理器Gaudi 2,一款支持加速AI訓練和推理任務的芯片。
自大模型和生成式AI興起后,尚未出現能與英偉達GPU一較高下的產品。今年6月,AMD推出了針對AI需求的Instinct MI300,但芯片發布后,AMD股價反而下跌。
Gaudi 2的推出意味著英特爾的新一輪進攻開始。發布會上,英特爾沒有介紹Gaudi 2的具體參數,但從訓練時間、性價比、可擴展性、易用性等多個角度,將Gaudi 2和英偉達的A100、H100一一作對比,只為凸顯一個主題——Gaudi 2可用,Gaudi 2具有性價比,Gaudi 2很強。
Gaudi 2出自以色列人工智能公司Habana Labs團隊,該公司在2019年被英特爾收購,之后獨立運營。
Habana Labs首席運營官Eitan Medina表示,在2023年6月的國際性AI芯片測試MLPerf上“Gaudi2是目前僅有的兩個提交GPT-3模型訓練結果的半導體解決方案之一,另一個是Nvidia H100。”
發布會上,英特爾還帶來了浪潮基于Gaudi2的新一代 AI 服務器 NF5698G7,并表示在未來,國內的新華三、超聚變等公司也會參與合作。
英特爾的產品性能具體如何,市場是否會買單,中國作為最大的人工智能芯片市場,對其接受度如何呢?
比H100有性價比,比A100性能強?
自AI大模型火熱以來,英偉達一家獨大。對于英特爾在人工智能領域的策略,市場期待已久。
2023年年初,英特爾中國區董事長王銳就在戰略媒體溝通會上回應,英特爾高層正認真對待人工智能浪潮,并適時推出產品。
本次發布Gaudi 2芯片是由Habana團隊制作的產品。事實上,該芯片曾于去年在海外發布,此次發布的是針對中國市場的定制版本。
Gaudi 2采用7nm制程,有24個張量處理器核心,集成了96GB的HBM高性能存儲和48MB的SRAM靜態隨機存儲器,是專門為訓練大語言模型而生的產品。

Gaudi 2產品性能
針對不同精度的峰值數據,英特爾并未做過多介紹。Eitan Medina告訴36氪,英特爾并不希望專門比算力或者數字,而是將重心放在應用上,“我們的產品和整體解決方案能為客戶提供很好的性能。”
在發布會上,Eitan Medina通過MLPerf基準測試結果來展現Gaudi 2的性能。MLPerf基準測試是一個專門針對AI芯片進行測評的國際測試,此前,壁仞科技就曾參與該測試,與英偉達一較高下。
MLPerf每年會進行兩次測評,在距離最近的2023年6月測評中,Gaudi 2是除了Nvidia H100以外,唯一提供了GPT-3模型訓練結果的半導體解決方案。

Gaudi2與H100對比
根據英特爾提供的信息,Gaudi2的性能低于H100,但高于A100。
Gaudi2在384個加速器上訓練GPT-3需要311分鐘,而英偉達用512個H100 GPU訓練GPT-3的時間只需要64分鐘,也就是說,H100的性能領先于Gaudi2 芯片3.6倍。
在8個加速器情況下,Gaudi2跑計算機視覺模型ResNet-50和Unet3D的效果不錯,和H100的差距會比運行GPT-3時小很多。
針對和H100的差距,英特爾認為,Gaudi2的優勢在于性價比。Gaudi2服務器的成本要比H100低得多。
相較A100,Eitan Medina表示,根據MLPerf的報告,Gaudi2在每個模型上的訓練效果都優于A100。且Gaudi2具有成本優勢,它運行 ResNet-50 的每瓦性能約是英偉達 A100 的 2 倍,運行 1760 億參數 BLOOMZ 模型的每瓦性能約達 A100 的 1.6 倍。

Gaudi2與A100性能對比
為了合規,Gaudi 2與國際版存在區別。但英特爾Habana Labs首席運營官Eltan Medina告訴36氪,相比于國際版 Gaudi2,中國版Gaudi 2推出的加速卡在性能上差別不會很大,只是以太網端口數量從24個改為21個,整體計算性能未有下降。未來,Gaudi2 及下一代 5nm的Gaudi3 都會在合法合規的情況下繼續支持中國客戶。
目前,英特爾內部有多款可用于人工智能市場的產品,如何看待不同產品的功能和市場?
英特爾公司執行副總裁 數據中心與人工智能事業部總經理Sandra Rivera認為,客戶有不同的產品需求,中小型模型客戶可以選擇至強作推理,生成一張圖片只需要5秒鐘;而客戶做千億級新模型的訓練需要更大算力,可以采用Gaudi芯片。
在發布會上,Sandra Rivera也對至強芯片做了介紹。在AI推理工作負載中,至強的推理性能與英偉達A100 GPU相比可超5倍,與AMD的64核EPYC CPU相比可超2倍。在執行訓練工作時,至強CPU的性能較英偉達A100 GPU有近3倍的性能提升,可以在幾秒鐘或幾分鐘內完成訓練,能降低客戶成本。
發布會上,英特爾還展示了至強芯片對于Stable Diffusion模型的生成效果。Stable Diffusion模型能夠文生圖和圖生圖,結果顯示基于至強芯片運轉后,該模型在5.34秒生成了一張圖像。
為更好抓住推理市場,英特爾正優化基于至強的推理平臺,以便在云、網絡或智能邊緣部署多樣化的AI應用程序。
英特爾Habana的 GPU,客戶會買單嗎?
沒有一家AI芯片公司,愿意錯過大模型和生成式AI帶來的巨大市場。
從大模型熱潮以來,國內的GPU公司紛紛加強在生成式AI相關能力上的投入和研發。然而,至今沒有出現一款能和A100、H100對打的產品。
英特爾內部有 GPU MAX產品,但英特爾選擇將Habana的產品作為王牌推向市場,希望以此逐鹿人工智能市場。
Habana可能更能給市場信心。2019年,英特爾以20億美元高價收購了以色列AI芯片制造商Habana Labs,Habana作為獨立業務部門運營,希望在數據中心AI領域挑戰英偉達。
Habana同時有面向數據中心的AI訓練芯片 Gaudi (高迪)和AI推理芯片Goya(戈雅),以及完整的SynapseAI軟件棧,且其第一代產品就體現出了能耗與時延的優勢。
它的創始人Avigdo是一個技術大牛,曾成立了交換機芯片公司Galileo,后來賣給了Marvel;2011,Avigdor又成立了網絡智能公司Annapurna Labs,2015年以3.7億美元的價格被亞馬遜收購。
這樣的基因,讓Habana的產品在性能上能有所保障。不過,Habana lab被收購后,需要融合進英特爾公司,在一段時間內后繼表現相對乏力。
除了硬件產品,另一個構成英偉達壁壘的,是其Cuda軟件生態。英特爾的產品如何應對Cuda生態?
Sandra Rivera認為,在數據中心的軟件生態中,一個是X86的軟件生態,一個是CUDA。在做人工智能或者是AI運算時,大部分的開發者不會做那么底層的開發,更多在PyTorch、TensorFlow上做創新。Gaudi2的軟件生態本身支持PyTorch、TensorFlow這兩個深度學習最常見的兩個框架,同時支持Megatron和DeepSpeed這兩個當今在大模型當中最主流的大模型訓練框架。
為適配更多大模型,英特爾與專門做大模型的開源社區叫Hugging Face達成合作,可以在幾十秒時間內調通現有模型。
浪潮信息AI&HPC產品線總經理劉軍也在發布會上表示,“按照我們算法工程師實際使用的體驗,使用Gaudi2和在GPU上使用基本上沒有太大區別,客戶可以非常絲滑地把自己的訓練負載運行在Gaudi2的訓練集群上。”
浪潮信息也在會上發布了支持8顆Gaudi2深度學習加速器進行高速互連的加速的基板,新一代AI服務器NF5698G7。

浪潮AI服務器NF5698G7
英特爾還透露,Gaudi2國內首批還將與百度智能云、紫光新華三、超聚變等公司合作。
中國有著龐大的AI計算市場,國內大模型公司是否愿意買單?
某AI模型層創企的CTO告訴36氪,目前存在顧慮。“在訓練100億參數規模模型10輪情況下,其他公司的芯片訓練速度,普遍比A100多出10幾天,寧愿多花錢買點A100或H100,也不想耽誤訓練的時間。而英特爾披露的信息主要宣傳在ResNet模型上的性能提高,但ResNet和Transformer類模型存在較大區別。且Gaudi2在2022年已經發布,市場的選擇已經說明問題。”
另一家大模型公司則表示,已與國內GPU產品達成合作,如果采用英特爾的產品,還需要重新測試,暫時無法確定是否會采購英特爾的產品。
在人工智能計算市場,英偉達獨占鰲頭,要么一卡難求,要么難以購買,無論是從產品供應角度,還是從能使用更優秀產品,縮減與國外大模型廠商的算力支持角度,市場期待第二款AI芯片。
英特爾、AMD躍躍欲試,國內的GPU公司也紛紛抓住訓練市場,或通過大型集群的方式希望支持國內公司發展。
Habana Gaudi 2是否會成為下一個A100,仍需市場的回應。
