GPU被炒上天價,國產能力缺乏是主因,而這即將被改變
如果要說當下在芯片領域誰最熱,GPU是第二,無人敢說第一。GPU是芯片領域里技術難度最高的主賽道的芯片之一,我國九成以上都是靠進口。以ChatGPT大模型應用的爆火把AI又炒上了一個新的高點,其背后的算力基礎GPU芯片也成為“香餑餑”。英偉達的兩款受限制的芯片被炒貨炒到八萬多、十萬多甚至幾十萬,這背后顯現的一方面是我國對GPU芯片大的市場需求,另一方面凸顯了我國尚沒有自主可控的GPU。
自主可控主要有兩個維度:一種是購買第三方IP架構來自研GPU的內核;另外一種就是在GPU的IP架構也是自研的,同時GPU的內核也是自研。目前國內的GPU芯片企業大多是第一種,而要想真正在底層GPU的知識產權和技術迭代環節有主動權,必須要同時掌握IP架構和內核兩個方面。
近日,國內企業中天恒星科技有限公司(Advanced Technology Stellar,簡稱中天恒星/ATS)第一款自研的GPU架構“天狼星”的推出,將為國產GPU芯片的發展邁出一個新的高度。中天恒星創始人黃永博士指出:“我們的架構全部是以恒星來命名的。Stellar是恒星、星宿、星座的意思,引申出來有超一流、卓越的含義。第二代架構命名為大角星;大角星是第二亮的恒星。只是因為距離地球更遠,所以看起來沒有天狼星亮;實際上,大角星比天狼星更亮,其亮度是太陽的110倍。”
一鳴驚人,中天恒星發布自研GPU架構“天狼星”
2023年6月15日,中天恒星以清華大學超過10年研究基礎為依托,發布了其第一款GPU產品——“天狼星”。該芯片從數學公式推導開始,架構設計、算法模型、原理驗證、硬件實現和驅動開發等環節全部正向設計。
據中天恒星創始人黃永博士介紹,“天狼星”GPU架構是多年長期耕耘的結果。2019年,第一代“天狼星”架構芯片設計驗證完成。2021年,第一代“天狼星”架構GPU誕生;2022年,定義第二代GPU架構“大角星”;2023年,第一代“天狼星”架構GPU實現量產。據悉,2024年,中天恒星會繼續優化基于“天狼星”架構的GPU。2025年,將量產第二代GPU架構“大角星”。
“天狼星”GPU架構有幾大亮點:
具有3D圖形引擎+2D圖形加速+視頻引擎。
自主可控/靈活優化的指令集和VLIW/SIMD機器指令集(ICCD’13);其中,自主可控/靈活優化的指令集,可保證GPU芯片迭代的軟件兼容。
SIMT計算框架,可以充分利用圖形應用的數據并行性( DATE’12.ICCD'13,TVLSI15)。
支持物理真實渲染(ACMComputingSurvey’14,SIGGRAPHASIA'14.15)。
Shader Core(Graphics Processing Cluster),包括SIMT獨立指令執行單元、以32位浮點ALU為基礎的統一圖形架構(ICCD13)以及集成寄存器堆、紋理/數據緩存。
延遲聚集式全局線程調度技術(ISCA20、TPDS21、TCAD'21)。
具有良好性能伸縮性的片上互聯架構(MICRO'20、TPDS’21)。
據中天恒星的介紹,其瞄準的是廣闊的圖形渲染市場,第一代“天狼星”架構GPU產品的目標市場是以括臺式機、一體機、筆記本電腦為核心目標,逐漸拓展到大屏電視、數據中心、云渲染以及車載市場。
GPU用于渲染仍是行業主流
為何中天恒星要選擇發力圖形渲染這個市場呢?
GPU從一開始就是為圖形渲染而生,其英文是Graphics Processing Unit,是一個可編程芯片,目的是把我們要呈現的場景,通過一系列計算之后投射在一個兩維計算機屏幕上,GPU力圖在屏幕上再現和真實世界完全一樣的渲染效果,這就是GPU的作用。
但由于GPU擁有強大的并行計算能力,后來我們就用它加速機器學習的訓練,就是所謂的算力的GPU。按照黃仁勛的說法,2023年算力GPU的產值會超過300億美元的規模,到2027年會達到1500億美元的量級。
但其實除了用于算力之外,用于渲染的GPU才是GPU市場的主流。2022年以獨立顯卡為代表的GPU大約占據80%以上的GPU市場,除了獨立顯卡,集成顯卡領域也大抵如此,比如很多汽車的面板用嵌入式GPU做渲染。
渲染GPU的重要性還可以通過另一個層面來直觀看出,比如說服務器的出貨量和PC出貨量,2021年全球服務器出貨量1300萬臺,PC出貨量3.5億臺左右。一般來說,潛在的每一臺PC都會搭載一塊圖形顯示的顯卡,所以從這個意義上來講,整個渲染GPU也是主流。
除此之外,大屏交互也是一個驚人的市場。在本次發布會上,國際信息顯示學會中國總裁、fellow、俄羅斯工程院外籍院士、國際信息顯示學會北京分會理事長嚴群博士指出:“現在所有顯示器都可以稱為被動式顯示技術,觀看的人對它的信息傳輸只有接收,沒有互動,一旦顯示屏加上很多GPU功能,有了沉浸式三維影像呈現、交互體驗,那就不是傳統的電視了,是一旦需要有交互體驗的時候,我們就會重新回到大屏,重新回到這些有渲染的、真實的、你可以融入其中的體驗,這種體驗非常不得了。”
至于為何會選擇圖形渲染賽道,黃永博士在采訪中解釋到,“顯示、圖形渲染是目前需求量最大的一塊市場,也是高度標準化的市場,唯一要做的就是提高性價比,這就是我們的商業邏輯的突破口,我們將從性價比著手,突破渲染、顯示這樣標準化的市場,進而再往定制、半定制、更高端的市場去突破。”
鄧仰東博士在會上介紹了關于GPU芯片和渲染內容高度標準化的內容。他指出,
鄧仰東博士也在會上介紹到:“GPU芯片是高度標準化的芯片,渲染的內容是高度標準化的。”他指出,GPU芯片的標準主要由三個圖形和計算標準界定。首先是OpenGL,它是國際標準化組織于1997年推出的,從2007年開始,OpenGL相繼發布了三個版本,基本上確定了整個圖形渲染所需完成的任務。與此同時,微軟推出了DirectX,這是微軟專門針對Windows平臺的圖形標準。OpenGL具有跨平臺兼容性,而DirectX只適用于Windows平臺。盡管DirectX具有更好的渲染效果,但它缺乏平臺的兼容性。另外一個標準是OpenCL,最初是為圖形純計算能力而設計,后來也擴展到通用計算領域。
這三個標準在2007年至2017年間經歷了黃金時代,并在2017年基本固化下來。換句話說,今天的圖形標準基本上仍然是2007年的主要圖形顯示內容,GPU需要完成的核心任務基本上沒有變化。這也意味著國內是有可能趕上NVIDIA在圖形渲染GPU設計方面的進展。
“此外,GPU市場很大,我們不是為了搶奪英偉達和AMD的市場蛋糕,而是滿足一部分沒有得到滿足的剛需市場。”黃永博士補充道。
全世界都在搶算力
對英偉達數據中心 GPU 的競賽也發生在全球范圍。不過海外巨頭大量購買 GPU 更早,采購量更大,近年的投資相對連續。
2022 年,Meta 和甲骨文就已有對 A100 的大投入。Meta 在去年 1 月與英偉達合作建成 RSC 超級計算集群,它包含 1.6 萬塊 A100。同年 11 月,甲骨文宣布購買數萬塊 A100 和 H100 搭建新計算中心。現在該計算中心已部署了超 3.27 萬塊 A100,并陸續上線新的 H100。
微軟自從 2019 年第一次投資 OpenAI 以來,已為 OpenAI 提供數萬塊 GPU。今年 3 月,微軟又宣布已幫助 OpenAI 建設了一個新計算中心,其中包括數萬塊 A100。Google 在今年 5 月推出了一個擁有 2.6 萬塊 H100 的計算集群 Compute Engine A3,服務想自己訓練大模型的公司。
中國大公司現在的動作和心態都比海外巨頭更急迫。以百度為例,它今年向英偉達新下的 GPU 訂單高達上萬塊。數量級與 Google 等公司相當,雖然百度的體量小得多,其去年營收為 1236 億元人民幣,只有 Google 的 6%。
據了解,字節、騰訊、阿里、百度這四家中國投入 AI 和云計算最多的科技公司,過去 A100 的積累都達到上萬塊。其中字節的 A100 絕對數最多。不算今年的新增訂單,字節 A100 和前代產品 V100 總數接近 10 萬塊。
成長期公司中,商湯今年也宣稱,其 “AI 大裝置” 計算集群中已總共部署了 2.7 萬塊 GPU,其中有 1 萬塊 A100。連看似和 AI 不搭邊的量化投資公司幻方之前也購買了 1 萬塊 A100。
僅看總數,這些 GPU 供各公司訓練大模型似乎綽綽有余——據英偉達官網案例,OpenAI 訓練 1750 億參數的 GPT-3 時用了 1 萬塊 V100 ,訓練時長未公開;英偉達測算,如果用 A100 來訓練 GPT-3 ,需要 1024 塊 A100 訓練 1 個月,A100 相比 V100 有 4.3 倍性能提升。但中國大公司過去采購的大量 GPU 要支撐現有業務,或放在云計算平臺上售賣,并不能自由地用于大模型開發和對外支持客戶的大模型需求。
這也解釋了中國 AI 從業者對算力資源估算的巨大差別。清華智能產業研究院院長張亞勤 4 月底參加清華論壇時說,“如果把中國的算力加一塊,相當于 50 萬塊 A100,訓練五個模型沒問題。”AI 公司曠視科技 CEO 印奇接受《財新》采訪時則說:中國目前可用作大模型訓練的 A100 總共只有約 4 萬塊。
主要反映對芯片、服務器和數據中心等固定資產投資的資本開支,可以直觀說明中外大公司計算資源的數量級差距。
最早開始測試類 ChatGPT 產品的百度,2020 年以來的年資本開支在 8 億到 20 億美元之間,阿里在 60-80 億美元之間,騰訊在 70-110 億美元之間。同期,亞馬遜、Meta、Google、微軟這四家自建數據中心的美國科技公司的年資本開支最少均超過 150 億美元。
疫情三年中,海外公司資本開支繼續上漲。亞馬遜去年的資本開支已來到 580 億美元,Meta、Google 均為 314 億美元,微軟接近 240 億美元。中國公司的投資在 2021 年之后則在收縮。騰訊、百度去年的資本開支均同比下滑超 25%。
訓練大模型的 GPU 已不算充足,各家中國公司如果真的要長期投入大模型,并賺到給其它模型需求 “賣鏟子” 的錢,未來還需要持續增加 GPU 資源。
算力租賃需求興起
AI大模型和行業應用等迅速增長推動算力需求,GPU已陷入供應短缺,多款GPU價格從3、4月至今漲幅接近50%,訂單排期至明年上半年。基于此算力租賃市場興起,需求和市場訂單量上升,未來增長空間較大。
隨著大模型以及相關應用的發展,算力需求呈現爆發式增長。但除了大型互聯網企業、AI龍頭企業具有較多的GPU算力芯片儲備外,中小企業在發展AI模型、應用過程中,遭遇算力瓶頸。華安證券尹沿技分析指出,算力租賃成為廣大中小企業解決算力需求的最優解。
上市公司中,首都在線率先建立大規模、高覆蓋的GPU算力資源池,在2022年已建設1萬片面向圖形處理的GPU資源池,其中包括A100、a5000等英偉達先進算力硬件。立昂技術在成都簡陽募投的立昂云數據(成都簡陽)一號基地一期項目未來將打造“算力+數據+算法”的超算創新應用生態體系,公司稱相關的服務器及加速卡等會根據業務實際情況采購國內外知名品牌供應商產品。
AI大模型和行業應用等迅速增長推動算力需求,機構指出,在未來算力/帶寬高增的背景下,以及CPO的新方案拉動下,MPO的用量有望大幅提升,在設備內部重要性也逐步提高。
CPO下每個光引擎到面板距離不同,布線復雜易損壞光纖影響整機。通過在光引擎和端口面板間增加板中連接器,將CPO的試錯成本轉移到板中連接器和端口的MPO上,MPO有望適配CPO,解決布線痛點。國盛證券指出,在未來算力/帶寬高增的背景下,以及CPO的新方案拉動下,MPO的用量有望大幅提升,在設備內部重要性也逐步提高。
國產顯卡的超車點就在眼前
一般來說,有市場的地方就一定會有中國品牌,但對國產GPU來說這種慣例似乎不復存在:根據某券商的報告,2022年全球獨立GPU市場規模約448.3億美元,盡管規模高達數百億,但其中屬于國產GPU品牌的份額卻寥寥無幾。再加上現階段國產GPU主要面向的都是工業應用市場,其中真正能用于游戲玩家的國產GPU市場更是微乎其微。
不過就近幾年國產GPU的市場的變化來看,國產GPU的曙光似乎馬上就要出現了。
2022年11月3日,GPU獨角獸公司摩爾線程召開秋季發布會,正式發布了基于MUSA架構的第二顆多功能GPU“春曉”以及相應的一系列硬件產品——其中既有利好開發者的MUSA開發套件,還有大眾消費者期待并即將上市的中國首張游戲顯卡。而這場發布會也象征著中國GPU企業在游戲市場邁出的第一步。
與此同時,以ChatGPT為首用的AI技術,為國產GPU品牌們帶來了新的機遇。
根據中信證券的報告,因AI、數據中心、智能汽車、游戲等行業對GPU的需求有望高增,在國產GPU加速追趕全球頭部企業的大背景下,國產GPU有望迎來“發展黃金期”。
首先,AI需求端是國產GPU獨立顯卡未來發展的重要機會之一。中國的AI市場正在快速發展,其中云端和終端市場都在迅速擴張。云端市場中,中國企業在機器學習、深度學習等領域有著不錯的表現,國產GPU獨立顯卡的需求也將不斷增加。而終端市場則包括智能手機、智能音箱、智能攝像頭、智能家居等領域,這些終端設備都需要計算能力強、功耗低、成本優化的GPU獨立顯卡來支持其AI功能。國產GPU獨立顯卡在這些終端設備中具有較大的應用潛力,因此未來發展機會廣闊。
汽車需求端也是國產GPU獨立顯卡未來發展的重要機會之一。隨著自動駕駛和智能座艙技術的不斷發展,GPU在這些領域中具有廣泛的應用。以國內常見的路網協同方案為例,一個優秀的路網協同系統需要海量高時效的道路信息,同時統一的遠端服務器也需要同時追蹤、管理海量的車輛。而高并發、高穩定性、低時延、低功耗這正是國產GPU品牌所擅長的領域。
此外,車輛自動駕駛和智能座艙的車機娛樂也對GPU提出了更高的要求。根據蓋世汽車預測,未來自動駕駛和智能座艙的市場規模將會快速擴張,為國產GPU獨立顯卡帶來廣闊的應用前景。
5-10年國產將追上國際主流水平
天數智芯的高管鄒翾日前在采訪中談到,國產GPU還在追趕AMD及英偉達,但隨著時間推移,國產GPU應用逐步開花,有望在5-10年內實現追趕。他認為,國內GPU廠商應該由小及大,從幾十上百個卡集群的推理任務開始,然后逐步擴展到上千或上萬個卡集群,以時間換空間。
上海天數智芯是中國領先的通用GPU高端芯片及超級算力系統提供商,致力于開發自主可控、國際領先的高性能通用GPU產品。該公司目前兩款重點產品分別是天垓100和智鎧100,其中天垓100已經實現了我國通用GPU從0到1的重大突破,智鎧100的性能也達到了國際主流產品的2倍以上。雖然國產GPU目前仍然與國外產品存在性能差距,但國內GPU廠商堅定不移地朝著這個方向努力發展,相信終將實現追趕。
