一個AI大模型至少需要上萬張GPU,蛋糕之大誰都想要分一塊
ChatGPT的火爆掀起了從巨頭到初創的科技業AI競賽。在這場AI淘金大戰中,提供一流AI芯片的英偉達成為大贏家,華爾街高呼“英偉達是AI大戰唯一的軍火商” 。
而過去一個月,英文達又在AI風投圈殺瘋了,看來正在趁其GPU處于領先地位的時間窗口,鞏固建立的最強AI產業聯盟。
英偉達打造最強AI芯片聯盟
今年6月,英偉達就參與了三家高調宣布獲得新一輪融資的AI獨角獸融資。其中6月9日,做類ChatGPT聊天機器人的加拿大AI公司Cohere宣布完成2.7億美元C輪融資,英偉達、甲骨文、Salesforce等參與。Cohere的估值由此達到約22億美元。
另外兩家在上周四一天內不約而同公布大規模融資的初創分別是:推出AI聊天機器人Pi的Inflection AI和AI文生視頻創企Runway。
其中,由DeepMind聯合創始人Mustafa Suleyman去年聯合創辦并擔任CEO的Inflection AI獲得13億美元新融資,據Crunchbase統計,這是目前排在第四高位的AI融資輪規模。
Inflection AI新一輪融資的領投方是微軟、領英聯合創始人Reid Hoffman、比爾?蓋茨、谷歌董事長埃里克?施密特,英偉達是投資者中唯一的新面孔。
完成融資后,Inflection AI的估值升至約40億美元,成為估值僅次于OpenAI和Anthropic的全球第三大生成式AI獨角獸。
Runway完成了1.41億美元新融資,新加入的投資者包括谷歌、英偉達和Salesforce,通過這輪,Runway的估值升至約15億美元,不到半年翻了三倍。
Inflection AI最近推出了其首個專有語言模型Inflection-1,稱該模型是在非常大的數據集上使用數千個英偉達H100訓練的,是其計算類別中最好的模型,在通常用于比較大語言模型(LLM)的各種基準測試中,性能優于GPT-3.5、LLaMA、Chinchilla 和 PaLM-540B。
上周四,Inflection AI還宣布,在與英偉達合作打造全球最大的AI集群之一,其超級計算機將擴展至包含2.2萬個英偉達H100芯片,支持新一代AI大模型的訓練和部署。集成AI芯片的數量直接碾壓了Meta今年5月公布的1.6萬個A100打造的超算集群。
除了英偉達,Inflection AI上述超級GPU集群的另一合作方是云服務供應商CoreWeave。它號稱可提供“比傳統云提供商便宜80%”的算力。英偉達之前曾對CoreWeave投資1億美元。6月有媒體稱,微軟同意未來數年內向CoreWeave投資數十億美元,用于云計算基礎設施建設。
在最新發布的權威AI性能基準測試MLPerf中,英偉達和CoreWeave合作構建的擁有3584個H100的集群,僅用不到11分鐘就訓練完GPT-3大型語言模型。
競爭對手不少
除了谷歌,其他的互聯網巨頭也紛紛加入了自研AI芯片的行列。
例如,亞馬遜在2018年推出了自己的AI芯片Inferentia,用于加速云端的AI推理任務,如語音識別、自然語言處理、圖像分析等。亞馬遜將Inferentia部署在自己的云服務和數據中心中,為自己的AI產品和服務提供了更高效和更低成本的解決方案,如亞馬遜Alexa、亞馬遜Echo、亞馬遜Rekognition等。亞馬遜也將Inferentia開放給了第三方開發者,讓他們可以通過亞馬遜云平臺使用Inferentia來加速自己的AI模型。
類似的,Facebook、微軟、阿里巴巴、騰訊等公司也都在研發自己的AI芯片,用于支持自己的AI業務和云服務,同時也為第三方開發者提供了更多的選擇和便利。這些公司都是英偉達的重要客戶,如果他們轉向自己的AI芯片,英偉達將面臨巨大的市場損失和競爭壓力。
除了互聯網巨頭,其他的半導體公司也在加緊研發AI芯片,試圖分食英偉達的市場份額。例如,英特爾在2016年收購了AI芯片公司Nervana,推出了自己的AI芯片Nervana Neural Network Processor(NNP),用于加速神經網絡的訓練和推理。英特爾還收購了AI芯片公司Movidius和Habana Labs,推出了自己的AI芯片Movidius Vision Processing Unit(VPU)和Habana Gaudi/Goya,用于加速視覺處理和機器學習任務。英特爾將這些AI芯片集成到自己的CPU、FPGA、云服務等產品中,為各種場景提供了多樣化的AI解決方案。
類似的,AMD、ARM、高通、華為、三星等公司也都在研發自己的AI芯片,用于加速各種設備和平臺上的AI任務,如手機、平板、筆記本、服務器、汽車等。這些公司都是英偉達的潛在競爭對手,如果他們能夠提供更好或更便宜的AI芯片,英偉達將面臨更多的挑戰和威脅。
總之,隨著AI技術的發展和普及,越來越多的公司開始自研AI芯片,以降低對英偉達的依賴,提高自己的核心競爭力。這對英偉達來說是一個潛在的威脅,它需要不斷創新和優化自己的AI芯片,以保持自己在AI領域的領先地位。
微軟與華盛頓大學合作研究全新GPU
從生成式人工智能爆發之初我們就一直在說,如果推理需要與訓練相同的硬件來運行,那么它就無法產品化。沒有人能夠負擔得起,即使是財力雄厚的超大規模提供商和云構建商。
這就是為什么微軟與華盛頓大學的研究人員合作,炮制了一個名為 Chiplet Cloud 的小東西,從理論上講,它至少看起來在推理方面可以擊敗 Nvidia“Ampere”A100 GPU(而且對于較小的用戶來說),甚至還可以擊敗包括“Hopper”H100 GPU和運行 Microsoft GPT-3 175B 和 Google PaLM 540B 模型的 Google TPUv4 加速器。
Chiplet Cloud 架構剛剛在一篇基于 Shuaiwen Leon Song 牽頭的研究的論文中披露,Shuaiwen Leon Song 是太平洋西北國家實驗室的高級科學家和技術主管,也是悉尼大學和悉尼大學未來系統架構研究人員的記憶庫。華盛頓大學博士后,于今年 1 月加入微軟,擔任高級首席科學家,共同管理其Brainwave FPGA 深度學習團隊,并針對 PyTorch 框架運行其DeepSpeed 深度學習優化,這兩者都是微軟研究院 AI at Scale 系列的一部分項目。
這些研究并非毫無意義——正如您將看到的,我們真正的意思是——這些項目被 GPT 擊敗,迫使微軟在 Leon Song 加入微軟的同時向 OpenAI 投資 100 億美元。迄今為止,微軟已向 OpenAI 提供了 130 億美元的投資,其中大部分將用于在微軟 Azure 云上訓練和運行 GPT 模型。
如果我們必須用一句話來概括 Chiplet Cloud 架構(我們必須這樣做),那就是:采用晶圓級、大規模并行、充滿 SRAM 的矩陣數學引擎,就像 Cerebras Systems 設計的那樣,握住它在空中完美水平,讓它落在你面前的地板上,然后拾起完美的小矩形并將它們全部縫合在一起形成一個系統。或者更準確地說,不是用 SRAM 做晶圓級矩陣數學單元,而是制作大量單獨成本非常低且產量非常高(這也降低了成本)的小單元,然后使用非常快的互連。
這種方法類似于 IBM 對其 BlueGene 系列大規模并行系統(例如安裝在勞倫斯利弗莫爾國家實驗室的 BlueGene/Q)所做的事情與 IBM 在“Summit”超級計算機中對 GPU 重鐵所做的事情之間的區別。BlueGene 與日本 RIKEN 實驗室的“K”和“Fugaku”系統非常相似,從長遠來看可能一直是正確的方法,只是我們需要針對 AI 訓練、HPC 計算以及 AI 推理進行調整的不同處理器。
最近幾周,我們一直在討論構建運行基于 Transformer 的生成 AI 模型的系統的巨大成本,Chiplet Cloud 論文很好地闡述了為什么 Amazon Web Services、Meta Platforms 和 Google 一直在努力尋找制造自己的芯片以使人工智能推理更便宜的方法。
華盛頓大學的邁克爾·泰勒 (Michael Taylor)、胡萬·彭 (Huwan Peng)、斯科特·戴維森 (Scott Davidson) 和理查德·施 (Richard Shi) 等研究人員寫道:“在 GPU 等商用硬件上提供基于生成式Transformer的大型語言模型,已經遇到了可擴展性障礙。” “GPU 上最先進的 GPT-3 吞吐量為每 A100 18 個token/秒。ChatGPT 以及將大型語言模型集成到各種現有技術(例如網絡搜索)中的承諾使人們對大型語言模型的可擴展性和盈利能力產生了疑問。例如,Google 搜索每秒處理超過 99,000 個查詢。如果 GPT-3 嵌入到每個查詢中,并假設每個查詢生成 500 個token,則 Google 需要 340,750 臺 Nvidia DGX 服務器(2,726,000 個 A100 GPU)才能跟上。僅這些 GPU 的資本支出就超過 400 億美元。能源消耗也將是巨大的。假設利用率為 50%,平均功率將超過 1 吉瓦,足以為 750,000 個家庭供電。”
國內大模型應用有了GPU的新選擇
近日,國內GPU芯片企業天數智芯卻為一眾國產大模型應用的探索企業帶來了好消息。
在6月10日召開的第五屆智源大會AI系統分論壇上,天數智芯宣布,在天垓100加速卡的算力集群,基于北京智源人工智能研究院(以下簡稱“智源研究院”)70億參數的Aquila語言基礎模型,使用代碼數據進行繼續訓練,穩定運行19天,模型收斂效果符合預期,證明天數智芯有支持百億級參數大模型訓練的能力。
天垓100是天數智芯的第一代GPU產品,它從2018年開始規劃布局,而ChatGPT爆火不足1年。為何大模型應用爆發之后,天數智芯能夠很快有方案來適配?“這是因為我們做的產品和技術路線對于這些不斷變化和不確定的應用來說,它是確定的。雖然各種應用和算法都在快速發展,但是對于通用計算并行化、大規模性能提升是不變的。”天數智芯產品線總裁鄒翾告訴筆者。
據悉,天數智芯的天垓、智鎧系列通用GPU產品具有高性能、廣通用、開發成本低的特點,廣泛支持DeepSpeed、Colossal、BM Train等各種大模型框架,基于天垓、智鎧加速卡的算力集群方案不僅能夠有效支持LLaMa、GPT-2、CPM、GLM等主流AIGC大模型的Pretrain和Finetune,還適配了清華、智源、復旦等在內的國內多個研究機構的開源項目,為行業伙伴提供一站式的大模型算力及賦能服務。
天垓100芯片的成功訓練百億級參數大模型,顯示了國內芯片企業在技術研發上的實力和進步。這為國內的大型模型應用提供了新的選擇,并為相關領域的創新發展帶來了推動力。雖然目前國內GPU芯片企業與NVIDIA相比仍然處于起步階段,但天數智芯的進展表明國內也在逐漸迎頭趕上,并且在未來有望取得更多突破。
大模型應用需要多少算力?
那么,對于當下的大模型應用究竟需要多少算力?鄒翾表示,短期來看,根據公開數據顯示,ChatGPT 3大約需要1萬張GPU卡來做訓練,根據馬斯克的預測,最新的ChatGPT 4所需要的可能是3-5倍,這還只是頭部企業的情況,而放眼全球,至少還有10家真正有實力的企業也想做大模型應用。在這些“百模”甚至是“千模”的應用下,算力是基礎的保障,而現在的問題是算力還遠遠不夠,黃仁勛此前表示,GPU卡比“毒品”還難買到。因此,當務之急是首先要有能用的算力產品。
長期來看,大模型算力的參數還在不斷提升,一個主要的原因是我們還沒有把大模型應用的所有性能挖掘出來。頭部企業都想抓住那些沒有被發現的能力的制高點。百家爭鳴,群雄逐鹿,事情發展到最后,最終會收斂到一個相對較穩定的狀態,屆時算力基礎設施將會比較明確。
而對于天數智芯這樣的底層芯片企業而言,要做的就是不斷升級算力解決方案,適配支持更高效、更復雜算法的大模型,為我國大模型創新發展、應用落地提供更加堅實的算力支撐。
在未來的產品規劃方面,因應大模型這一特定應用的發展需求,天數智芯也在有針對性的對未來的產品進行設計調優。具體據鄒翾的介紹,主要包括散熱供電、多塊卡之間的通訊連接,以及在計算、存儲和通訊之間找到一個平衡的關系等,再就是對Transformer結構進行進一步的加速化。
