壁仞科技聯合三方發布“國內首個光互連光交換GPU超節點方案”引領技術革新
關鍵詞: 光躍LightSphere X 分布式OCS全光互連芯片 自主可控智算集群 SAIL獎 AI算力基礎設施
7月26日,2025世界人工智能大會暨人工智能全球治理高級別會議(WAIC 2025)主論壇上,備受矚目的人工智能界“奧斯卡”正式揭曉。由曦智科技、壁仞科技、中興通訊聯合打造的“分布式OCS全光互連芯片及超節點應用創新方案”,榮膺2025世界人工智能大會最高獎“SAIL獎”(Super Al Leader,卓越人工智能引領者獎)。這也是壁仞科技繼2022年斬獲SAIL獎之后,再度獲此殊榮!
作為人工智能領域國內最高規格的官方獎項,SAIL獎由人工智能領域學術界和產業界權威專家組成的專業評委會綜合評選產生。SAIL獎以其“超越”、“賦能”、“創新”、“引領”為主要價值理念,從全球范圍發掘在人工智能技術或應用上提出重大發現、方向突破、原始創新,正在或將要改變未來生活的優秀項目。
該獎自2018年創辦以來每年評選一次,本屆共收到參評項目超240個,經初評、復評等多輪角逐,最終,光躍LightSphere X——全球首個分布式光互連光交換GPU超節點解決方案,憑借其突破性原始創新榮膺該獎項,并作為本年度最具代表性的創新項目,成為SAIL四大評價維度(Superior, Application, Innovation, Leading)中“Innovation”(創新)維度的標桿案例。
國內首個光互連光交換GPU超節點 光躍LightSphere X正式發布
7月28日,在2025世界人工智能大會(WAIC)“智算云啟,共繪生態”論壇上,上海儀電聯合曦智科技、壁仞科技、中興通訊,正式發布國內首個光互連光交換GPU超節點——光躍LightSphere X。該超節點基于曦智科技全球首創的分布式光交換技術,采用硅光技術的光互連光交換芯片和壁仞科技自主原創架構的大算力通用GPU液冷模組與全新載板互連,并搭載中興通訊高性能AI國產服務器及儀電智算云平臺軟件,構建起高帶寬、低延遲、靈活可擴展的自主可控智算集群新范式,即將于上海儀電智算中心落地。
壁仞科技聯合創始人兼COO張凌嵐參與光躍 LightSphere X聯合發布儀式
創新技術直擊算力與網絡核心痛點
萬億參數大模型與多模態訓練的崛起,正推動算力集群邁入“萬卡協同”時代。超節點架構通過深度整合GPU資源,在超節點內構建起低延遲、高帶寬的統一算力實體,已成為支撐這一演進的關鍵技術路徑。
當前業界一種常見方案是通過提升單機柜功耗來部署更多GPU,但受限于數據中心單機柜的功耗天花板,單機柜GPU密度提升存在瓶頸。對此,光躍LightSphere X采用光互連技術,通過增加機柜數量構建超節點,突破傳統互連方式下超節點的物理限制。相比銅纜,光纜的遠距離傳輸優勢可實現交付與機柜解耦,其核心價值在于:突破單機柜功耗束縛,支持萬卡級彈性擴展,兼容現有機房設施降低部署成本,并可按算力需求動態調整超節點規模,實現分階段建設。
同時,光躍LightSphere X全球首創的分布式光交換(dOCS,distributed Optical Circuit Switch)技術則進一步提升了超節點的靈活度和系統可擴展性,從而達到提升系統性價比的目的。不同于傳統的集中式交換,其通過在每個GPU上集成光交換功能,較靈活切換GPU間互連拓撲結構。這不僅可實現故障場景下的拓撲實時重構,提高大模型訓推性能,降低GPU冗余成本,還能按模型算力需求動態調整超節點規模,切換拓撲網絡。此外,分布式設計支持GPU高帶寬通訊域彈性擴展。光躍LightSphere X將實現2千卡規模部署。
得益于多計算芯粒(Chiplet)與CoWoS 2.5D封裝協同設計的GPU模組,光躍LightSphere X擁有強大算力。該模組基于自主原創架構大算力(單卡1P級)通用GPU液冷模組,極大地增強了集群訓推性能。通過自主研發智算云平臺軟件靈活配置超節點網絡拓撲,支持密集通信和更大TP&EP,高效適應各種大模型需求,大幅提高節點的可擴展性。OCS UBB采用獨創的革新載板設計,超低損板材多層架構,互聯拓撲豐富靈活。該訓推一體架構可動態分配計算資源,既滿足千億參數大模型訓練的高吞吐需求,又保障推理任務的低時延響應。
光躍LightSphere X的上層軟件平臺同樣值得關注。其智算集群統一管理平臺通過深度融合調度引擎與訓推框架,實現了對超節點全生命周期的智能管控。智算平臺能夠依據不同模型特征,進行超節點拓撲智能配置,顯著提升訓練性能;基于全局資源可觀測體系,實現故障節點秒級替換與分鐘級斷點續訓,保障模型長穩運行。此外,通過軟硬協同的系統級工程優化,進一步釋放了超節點在性能和效率等方面的綜合潛能。
開放、自主可控生態打造中國智算基礎設施新基座
除了單點技術創新,光躍LightSphere X還進一步聚焦構建全棧自主的智算生態,為中國算力基礎設施筑牢根基,為中國人工智能發展提供強勁動力。
硬件層開放兼容:光交換技術不依賴于特定的數據傳輸協議,可無縫兼容不同廠商使用的互連協議,消除生態鎖閉風險;
突破核心器件與供應鏈瓶頸:分布式光交換芯片基于硅光技術,其設計與制造不依賴于先進半導體工藝節點;
全棧軟件自主:自研統一管理平臺實現從調度、容災到優化的全鏈路管控。
這套“開放協議+自主技術+自研軟件”的協同體系,真正實現了從技術到生態的自主可控閉環。
上海儀電表示,光躍LightSphere X依托上海儀電算力底座,集合國內智算領域頭部企業,共建了“光芯片—GPU—服務器—算力集群-智算云平臺”閉環,打造了開放共享的光電融合算力生態體系。未來,光躍LightSphere X將作為新一代智算集群核心架構,支撐全棧自主可控的國產算力池建設,助力中國AI算力基礎設施實現跨代發展。
