信息爆炸時代,CPU已經不夠用了,更多“PU”正在路上
隨著技術的發展,數據量的爆炸性增長,到2025年,全球生成和消耗的數據總量預計將超過180ZB。而計算機的核心部件——中央處理器(CPU)分析數據的能力卻有點力不從心,導致數據處理緩慢且低效。傳統的CPU為了滿足多任務處理、高效能和節能要求,變得越來越復雜。在這個高速發展的時代,我們不能再依賴單一的CPU來完成所有的工作。為此,各種特定的處理單元(PU)如雨后春筍般涌現,其目標就是“瓜分”CPU的任務,人多力量大,各司其職,優化計算效率。
GPU成就英偉達霸主之路
GPU成為AI計算的標配,其中最大的贏家非英偉達莫屬,在AI計算領域英偉達的GPU幾乎占到市場的絕大部分,英特爾和AMD等芯片巨頭也幾乎都錯過了這一波AI浪潮的紅利。
2006年英偉達推出CUDA,帶來了靈活便捷的GPU編程手段,這為使用GPU完成AI計算創造了良好的條件。2014年英偉達發布cuDNN V1.0深度神經網絡加速庫,并集成進了Caffe等AI框架中,進一步為基于英偉達GPU的AI計算提升性能和易用性等,使得AI開發和研究人員可以更加專注于神經網絡結構的設計等。2016年英偉達推出的Pascal架構GPU產品,已經開始專門為AI計算場景,特別是推理計算場景,做了許多的定制和優化,能更好的滿足AI計算的需求,此外推出NVlink單機多卡的互聯技術,增加了GPU之間通信的帶寬,也加速了多卡并行計算的效率。2017年英偉達在Volta架構系列GPU中引入TensorCore,使得英偉達GPU產品在AI計算的訓練場景的性能繼續提升。2020年英偉達又推出新一代Ampere架構的GPU產品,在算力和性能等又大幅提升。
目前在AI計算場景下,英偉達GPU已經成為最主流的選擇,從整個發展過程中可以看到英偉達在軟硬件方面的所做的努力也密不可分,并且從2014年開始英偉達在AI方面每一次布局都剛好恰到好處。CUDA的推出可能為2011年前后發現GPU在AI計算中10-60倍的加速效果創造有利條件;2014年推出的cuDNN,并集成進Caffe等AI框架,在軟件層面進一步增加了英偉達GPU的易用性等;2016年開始直接在芯片層面全面支持AI計算場景需求,后續的產品在算力和性能等方面的提升正好又迎合了AI技術和產業發展的大趨勢。
再看另外兩家芯片巨頭英特爾和AMD,這兩家都有非常強大的實力,按理說應該也能在這一波AI浪潮取得巨大紅利,但事實上卻并沒有。當然因為AI的發展帶動CPU采購肯定也給英特爾和AMD帶來了不少收益。過去10年中,英特爾并沒有專門針對AI計算推出相應的產品,不論學界還是業界有AI方面新的研究成果,英特爾可能都會跟進在CPU上進行一些優化,聲稱在GPU上的性能只比在CPU上快2-3倍左右,并沒有像其他地方所說的幾十倍上百倍的效果。在AI計算效率等方面,英特爾在CPU上優化后確實能夠縮小與GPU的差距,但這種優化的思路在業界并沒有太多的跟隨者,主要是優化工作本身的門檻相對較高。
AMD在過去十多年中CPU一直被英特爾壓著,無暇顧及GPU市場的更多需求,雖然AMD的GPU在游戲市場也不錯,但在AI計算方面始終沒有形成氣候。當然2018年前后AMD新架構的CPU產品面世之后,最近幾年大有反超英特爾的架勢,不久前AMD推出的Instinct MI100的GPU產品不知道是否會在AI計算領域挑戰英偉達的地位,讓我們拭目以待。
AI成就GPU,但GPU還不是AI的完美答案?
實際上,GPU并不是為AI所生的,它只是解決AI算力需求的一種方案,有沒有更好的?答案是肯定的,只是還不知道究竟誰是顛覆GPU的下一個芯片主角。
一位國產GPU廠商的GPU產品設計負責人告訴《中國經濟周刊》 ,芯片是算力的基本構成,核心的計算都運行在芯片上。整個硬件的邏輯是芯片以板卡或者其他算力卡的形態,部署在服務器中,服務器安置在機柜中,大量機柜組成數據中心。大模型的崛起,毫無疑問給芯片產業帶來了一個巨大的潛在市場,也帶來了很多技術要求,特別是對于芯片的單卡算力性能、互連能力等關鍵性能指標都提出更高的要求,因此需要市場開發更強的芯片產品。
這位負責人認為,GPU成為主流是因為AI發展的初期,能夠獲取的最適合的芯片架構就是GPU,因此有先發優勢。但GPU的核心痛點在于芯片制造技術追不上算力需求的增加,也就是常說的摩爾定律走到了盡頭。目前GPU芯片所用的最先進制程是4nm~5nm制程,已經非常逼近摩爾定律的物理極限了,未來幾乎無法再通過制程的升級來提升芯片性能。
此外,該負責人表示,傳統的GPU還保留了不少不需要的圖形運算功能,使得整個芯片的計算效率并不是最高,這也是GPU的劣勢。其他主流的AI芯片解決方案,也都還不完美,比如針對AI運算開發的專用芯片(ASIC)方案,雖然計算效率更高,但通用性較差。
“未來最有希望實現突破的還在于更新的封裝技術 (比如3D封裝)、更新的材料等方式,嘗試突破摩爾定律。”該負責人說。
汪波從芯片架構原理的角度,做了進一步的解釋。他表示,受制于其架構本身,用GPU解決AI算力并不完美,畢竟GPU最初并不是因AI而生的。此外,GPU的計算和存儲是分開的,需要在計算和存儲之間來來回回地調用數據,這種搬運數據消耗的能量是計算的10倍。而且GPU很多時候是在等待數據過來再進行計算,因此,GPU的計算效率并不高,而且功耗非常大,GPU的強大算力是要付出巨大成本的。
“在芯片設計中,一直在尋求PPA折中,即性能(Performance)、功耗(Power) 和面積 (Area)的平衡點,因為三者不能同時達到最優。性能和功耗一直是一對矛盾,而面積越大,芯片成本越高。”汪波說。
汪波還表示,實際上,學術界和科技公司的研究者們都在研究更適配人工智能的芯片,采用新的原理和新的材料。比如做存算一體的芯片,在存儲器內部去完成計算,不用再搬運數據,這樣就能實現功耗更低但算力更大。“目前,雖然還在探索階段,但好消息是在這個領域,中國和世界同步的。”他說。
還有一個思路就是改變芯片的馮諾依曼式架構,模擬人腦數據處理方式的神經形態芯片。“神經形態芯片已經發展了幾十年,雖然目前算力還沒有辦法跟GPU去PK,但如果其算力能達到GPU的一半,就可能憑借能耗和成本優勢異軍突起。”汪波說。
彭虎也分析稱,GPU具有強大的并行計算能力和高效的浮點運算能力,且屬于通用芯片,能夠較好地滿足各類AI算法要求,但也存在較高功耗和較低算力利用率的短板。除了GPU,AI芯片還包括FPGA和各類ASIC方案。FPGA屬于具備可編程硬件結構的集成電路,其可編程性和靈活性可快速適應不同AI算法要求,但也存在高功耗的問題。ASIC屬于專用芯片,通過算法固化實現更高的算法利用率和能耗比,但開發周期較長、靈活性較弱。
“我們認為,目前GPU仍是較好滿足AI大模型、支持多模態的成熟的一站式解決方案,ASIC以其高性價比、高能耗比等優勢將在未來AI市場中占據一席之地。”彭虎說。
實際上,能耗問題已經是算力發展乃至AI發展的重要瓶頸。北京智源人工智能研究院副院長兼總工程師林詠華告訴《中國經濟周刊》 記者,一個百億級別大模型僅僅訓練消耗的電費每天都要在10萬元以上。
“超過千億級別的大模型,訓練需要1000~2000張A100的卡,硬件成本約5000萬美金,還需要投入人力、電力、網絡支出等,一年至少5000萬美金到1億美金成本。”昆侖萬維CEO方漢曾表示。
一家國內頭部AI算力供應商的負責人告訴 《中國經濟周刊》 記者,一個傳統數據中心,電費要占運維總成本60%~70%。而每耗費一度電,卻只有一半用在了正事 (計算)上,其他則浪費在散熱上。因此,新型數據中心一般會采用液冷技術,這樣可以比采用風冷節省30%以上的電費。
全球大型互聯網公司都在想盡各種辦法解決散熱難題,為了降低能耗,他們把數據中心埋在山里(騰訊)、泡在湖里 (阿里)、扔進大海(微軟)、拉到北極(Meta)……
為數據處理而生的DPU
有了專門處理圖形的GPU之后,還不夠。在數字化時代,需要有針對數據處理而生的處理器,于是數據處理單元(DPU)應運而生,DPU也被稱為是數據中心的第三大計算支柱。DPU 與 CPU 和 GPU 配合使用,可增強計算能力并處理日益復雜的現代數據工作負載。
DPU是專門設計用來處理大量的數據和信息。它可以有效地處理和分析數據,提高數據中心和云計算平臺的性能。根據英偉達的說法,DPU應該能完成以下三大項任務:
卸載:從服務器CPU接管基礎設施任務,以便更多的CPU能力可用于運行應用程序。
加速:使用DPU芯片中的硬件加速,比CPU更快地運行基礎設施功能。
隔離:將關鍵數據平面和控制平面功能移至DPU上的單獨域,既可以減輕服務器CPU 的工作,又可以在CPU或其軟件受到損害時保護功能。
迄今為止,許多 DPU 開發都是針對超大規模的。展望未來,DPU 在數據中心和企業網絡其他地方的使用預計將會增長。一種可能實現的方式是將 DPU 技術與網絡交換機相融合——AMD Pensando 將這種技術組合稱為“智能交換機”。“我們認為智能交換機是企業吸收 DPU 技術的最簡單方法,因為它可以讓他們淘汰舊設備,并為他們的網絡帶來重要的技術和規模,” AMD Pensando 網絡技術和解決方案小組首席商務官 Soni Jiangdani 表示。
由于人工智能、機器學習、深度學習、物聯網、5G 和復雜云架構需求的增長,DPU市場穩步增長。隨著對數據密集型應用程序的需求不斷增加,計算架構將不斷發展,從而需要更快、更高效、更安全的數據處理。DPU市場市場上涌現了不少芯片玩家,主要供應商包括國外的英偉達、Marvell、Fungible(被微軟收購)、Broadcom、Intel、Resnics和AMD Pensando,國內還有中科馭數、芯啟源云豹智能、云脈芯連等等。
根據Allied Market Research 的一份報告,預計到 2031 年,全球數據處理單元市場將達到 55 億美元,2022 年至 2031 年的復合年增長率為 26.9%。因此,DPU 可能會從今天的可選組件轉變為下一代計算的必要行業標準。
爆炸性增長的視頻,需要VPU
隨著視頻內容的普及和人工智能技術的飛速發展,視頻處理單元(VPU,Video Processing Unit)成為了當前科技領域的一顆新星。多年來,英特爾的CPU+軟件的視頻解碼/編碼方案一直主導著流媒體市場,但是隨著視頻流媒體對高質量視頻的需求不斷增長,CPU將不再具有經濟價值,而且會消耗太多的能耗和空間。于是,VPU這種專門用來處理視頻的芯片開始興起,他們旨在釋放CPU的龐大勞動力。
VPU(視頻處理單元)是專門設計用來處理視頻任務的,它可以高效地處理視頻編碼和解碼、圖像處理和機器視覺等任務。通過將這些任務從CPU或GPU上卸載,VPU可以提高系統的總體效率和性能,同時也減輕了CPU或GPU的負擔,使它們可以專注于其他任務。而且這樣的VPU通常還具有高性能、低功耗和低延時等多個優勢,據SemiAnalysis對VPU芯片廠商镕銘微電子(NETINT)的分析,相比于CPU和GPU,VPU的密度和功耗是CPU和GPU無法比擬的,VPU的出現可以說是為視頻行業應用帶來了前所未有的加速計算能力。
當下4K、8K等高清視頻技術的廣泛應用,使得視頻處理的計算負擔持續上升,這使得高效能的VPU成為行業發展的必備工具。目前包括谷歌、Meta、字節跳動和騰訊等互聯網巨頭均已經瞄上這顆芯片。與此同時,AMD在今年4月,發布了一款用于數據中心的新型專用媒體加速器和視頻編碼卡——Alveo MA35D,英特爾則是將VPU集成到其14代酷睿Meteor lake處理器中。除了云和數據中心之外,終端也已成為視頻及游戲的主要載體,手機廠商愈發追求視頻或影像質量。對此,vivo/小米以視頻芯片為自研切入點,如Pixelworks/逐點半導體這樣的第三方視頻芯片供應商也開始迎來發展契機。
未來,視頻處理芯片市場預計將繼續增長,特別是在邊緣計算、物聯網 (IoT) 和5G通信領域。高效和低功耗的視頻處理芯片將成為這些應用領域的關鍵組件。
更多新的“PU”正在路上
一家成立于2018年的以色列的初創芯片企業NeuroBlade,開發了一種專用處理器架構,他們將之稱為是SPU(SQL處理單元)。該公司的目標是成為“數據分析領域的 Nvidia”。SPU主要是用來加速SQL指令處理,該公司CEO表示,通過使用專門設計的處理器加速SQL處理,可以實現端到端SQL分析加速。在部署方面,該芯片通過主機服務器的PCIe總線插入,能夠透明地接管SQL相關處理,而無需修改主機應用程序軟件。
SPU支持常見的列式文件格式。當一個查詢請求從查詢引擎發送時(也就是從數據庫管理系統中發出查詢請求),SPU可以直接訪問和處理存儲在本地存儲設備上的數據文件。在處理完數據文件后,SPU會將處理結果以原生查詢引擎布局的形式發送回查詢引擎。
NeuroBlade公司正在與多個大型超大規模提供商進行談判,并已與一家公司贏得了數千張SPU卡的合同。如NeuroBlade還與戴爾公司合作,在PowerEdge服務器中分銷SPU卡產品。據他們稱,超大規模企業使用這一SQL處理單元 (SPU) 來卸載運行分析工作負載的x86 CPU,可以獲得100倍或更多的工作加速,每年可以節省數百萬美元。在NeuroBlade的客戶中,還有存儲類客戶,鎧俠已經在其CM7系列企業NVMe SSD中成功配置了其 NeuroBlade硬件增強型查詢系統 (HEQS),據他們稱,可以使客戶能夠充分發揮高性能 SSD 吞吐量的潛力,從而將查詢性能提高高達100倍。
