国产动作大片中文字幕-久久成人a毛片免费观看网站-日韩亚洲欧美中文高清-亚洲黑人巨大videos-亚洲国产欧美在线观看的

歡迎訪問深圳市中小企業公共服務平臺電子信息窗口

都說機器人時代要來了,但缺數據的問題仍然很大...

2025-06-30 來源:電子工程專輯
379

關鍵詞: 機器人 Physical AI 具身智能 Omniverse Cosmos

機器人、Physical AI是現在科技領域的大熱點,但它的落地似乎始終缺塊拼圖…

這個時代,每個人都在說“機器人”是未來,是潛在機會市場。但實際上,機器人本身不是個新東西——比如它在工業自動化領域早就應用了。只不過傳統機器人開發范式,是從感知到驅動執行,對每個問題建模并尋求合適的數學求解方法。

而這波“機器人”熱潮的關鍵是“具身智能”,或者說是由“Physical AI”所驅動。相較過去傳統機器人的主要差異,就在于AI:藉由LLM大語言模型、LVM視覺大模型,乃至VLAM視覺語言動作大模型,來解決問題。

在我們看來,除了智能程度更高,具身智能更多著眼于對機器人能力的泛化及普適。為什么人形機器人現在那么火?并不在于人們希望機器人長得和人類相似,而在于從商業邏輯角度來看,人形機器人是為數不多能夠以一種形態,覆蓋海量的、多樣化場景的機器人類型。

今年Computex主題演講中,黃仁勛(NVIDIA CEO)說過這樣一段話:“人形機器人令人驚嘆之處,并不僅在于它能做什么,而更在于它相當通用(versatile)。”“技術需要規模化(scale)。絕大部分已有的機器人系統,到目前為止,量都還太少。量少的系統很難做到技術的規模化,并最終走得夠遠、夠快。”所以“人形機器人,很可能會成為下一代萬億美金規模的行業”。

實際上,我們認為并不單純是人形機器人,現在常談論的“具身智能”都著眼于讓機器人具備規模化效應,以期讓機器人在高速發展的基礎上,同時實現成本的降低,適配到更多行業和市場。不過即便是有AI助力,具身智能要達到這種程度的發展也并不是那么簡單——比如過去一年,我們在諸多行業會議、廠商采訪中聽到最多的:機器人訓練模型“缺數據”...

這也成為具身智能機器人市場化程度較低的原因之一。或許在機器人、具身智能的發展之路上,還需要一些別的東西。

 

3臺計算機中的第二臺,究竟是做什么用的?

對NVIDIA打造機器人生態熟悉的讀者,過去1-2年應該能在各種場合聽到NVIDIA有關“3臺計算機”的闡釋。電子工程專輯在過去1年多的文章里也已經有過反復提及。

簡單來說,一臺計算機用于AI學習——尤其包括前不久我們針對Computex報道中提到的“老黃的AI電腦帝國”;一臺計算機則作為模擬引擎存在——AI能夠在虛擬環境中學習,如何成為合格的機器人;還有一臺就是機器人本體了,或者相關于已有模型的部署。

在NVIDIA的定義中,physical AI的構建就需要這樣3臺計算機:當然physical AI不僅是機器人,汽車、醫療設備等也都可以是基于physical AI技術的。如果具體到NVIDIA的產品,那么第一臺計算機顯然以DGX為代表,用于AI模型的預訓練或后訓練;

第二臺計算機則負責去跑Omniverse + Cosmos,用于對physical AI模型做訓練、測試、驗證的模擬仿真;第三臺計算機,可以是Jetson——比如前不久我們才剛剛試用過作為機器人大腦的Jetson Orin Nano,這一步是將蒸餾之后的模型部署到現實世界的機器人體內。

這是個聽起來還挺符合直覺的解決方案,不過這里有個問題:為什么我們需要第二臺計算機,而不是像常見的數字AI那樣,就是AI模型的開發與訓練+部署與推理。去年的ROSCon上,我們和NVIDIA的工程師簡單對談,對方告訴我們第二臺計算機能有效降低開發成本,且強調這是“3臺計算機”的一大價值。

我們過去對于這一問題的解釋是:對于機器人這種高成本,操作失誤甚至可能具備危險性的設備而言,如果是在現實中直接訓練、試錯,則成本會變得不可控;所以轉而借助Omniverse這樣的虛擬世界去做訓練,顯得更加實際和有效。不過這番解釋可能還是低估了第二臺計算機的價值的。

今年GTC期間的預溝通會上,NVIDIA Omniverse與模擬技術副總裁Rev Lebaredian說了這樣一番話,讓我們加深了對于NVIDIA提出3臺計算機解決方案的理解:

他特別提到,現在很多我們在短視頻里頭看到的機器人那么厲害,實際當應用于生產時,真正的問題往往在于能力的“泛化(或通用化,generalizing)”,即從原本機器人只能以某種設定做某個特定的工作,走向它也能夠在不同環境下、做其他相似的工作負載。

“但因為(傳統)機器人智能是有限的,它們通常基于傳統規則技術做編程,并非魯棒的系統。”“所以此間缺失的一塊拼圖,就是能夠給予它們通用智能的技術。它們因此能夠在不同的情況下實現通用化。這原本就是Transformer、LLM(大語言模型)所能達成的。”

在Rev看來,生成式AI是實現機器人智能泛化、通用智能的基礎技術,“現在最大的挑戰也就變成了,這樣的技術需要海量的數據示例”——機器人大腦的訓練需要喂進大量的數據。那么“為此,我們認為唯一的解決方案就是模擬出足夠準確的現實世界,我們也就有了無窮的數據源,用以構建這樣的機器人大腦”。

所以當代構建機器人的最大挑戰,逐漸轉向了“模擬仿真”技術,也就是3臺計算機中第二臺計算機在嘗試解決的問題。

 

Omniverse與Cosmos的互補

這是個相當符合現代敘事的邏輯解釋:就像航天領域,為什么人們常說SpaceX星艦相較同類航天產品,在技術上的絕對領先,就在于其打破了火箭研發傳統流程,據說在10年前就已經開始把主要注意力放在仿真技術上,實現了火箭迭代速度的大幅加速,同時還降低了火箭研發的成本。

這也更像是曾經的熱門詞匯“元宇宙”雖然媒體熱度已大不如前,但它似乎正以另外一種更為腳踏實地、服務于行業市場的方式大步向前。所以ROSCon上,NVIDIA的工程師才說,“藉由仿真技術,只需要一臺工作站,用我們的GPU和軟件,很快就有相應的數據,能夠快速驗證算法。這就是NVIDIA AI + Omniverse解決問題的價值了。”

Omniverse前兩年還被我們描述為英偉達的元宇宙。現在雖然在市場宣傳上不大提“元宇宙”了,但它依然是那個構建現實世界數字孿生(digital twin)的虛擬實現——且在諸多尚存的元宇宙里,是對現實世界模擬仿真做得最好的那波。除了已知在協同設計、工業數字孿生等領域發光發熱,它的下個殺手級應用顯然是機器人。

不過在Omniverse之外,從去年下半年到今年上半年,NVIDIA在主推的是一個叫Cosmos的東西。今年GTC的主題演講中,黃仁勛說Omniverse是physical AI的操作系統,而Cosmos則是理解物理世界的生成式AI模型。“用Omniverse來訓練(condition)Cosmos,用Cosmos生成不計其數的(虛擬)環境,構建的數據是基于現實、受控的(grounded)。”

簡單來說,Omniverse是物理級精準的虛擬環境,而Cosmos是基于此的模型。NVIDIA宣傳說這是全球首個“世界基礎模型(world foundation model)”,或者世界基礎模型開發平臺。今年CES的報道中,我們已經詳細介紹過Cosmos。GTC上又發布了幾個新的Cosmos模型,分別是Cosmos Predict、Cosmos Transfer、Cosmos Reason。

Cosmos Predict模型能夠基于多模態輸入來“生成未來”:比如說給它起始幀和結束幀,Cosmos Predict就能生成此間視頻序列的所有幀——這就是個填補Physical AI所需數據空缺的典型示例。而Cosmos Reason“深度理解物理交互”,開發者可以將這些模型用于數據標注和創建,或者可以對Cosmos Reason模型做后訓練,將其蒸餾為VLAM模型或規劃模型(Planner model)。

還有個Cosmos Transfer更具代表性,它能夠基于視頻輸入來進行“世界轉換”——Rev解釋說,Omniverse作為基礎,基于經典模擬仿真算法為Cosmos Transfer提供生成真實環境的支持;通常“最后一公里的模擬仿真(last mile of simulation)”成本高昂、難度巨大,而Cosmos Transfer能夠以低成本做到這一點,基于用戶輸入來生成多樣化的合成數據。

這里我們嘗試對Omniverse與Cosmos的關系,以及Cosmos究竟是什么的問題再做個注解。Rev在媒體問答環節給出的解釋更加全面:傳統的模擬仿真算法,基于人類對物理定律的理解,將其做成算法。“過去這些年,我們開始用AI來做模擬仿真。我們基于現實世界發生的事、觀察到的例子來訓練AI,讓AI基于這些觀察來抽象出物理定律。”“Cosmos則是做成這件事的一大步。”

“(AI技術)發展到一定階段,我們就會得到對應的世界基礎模型——可從不同角度,去完整地理解物理定律,包括牛頓力學、流體力學、電磁學等等各種模態,最終合為一個大模型。”Rev表示,“只不過我們還沒發展到那個程度,還沒有一個模型能理解這一切的。”“我們本身已經知道了不少物理學的相關等式,但做計算相當難;在某些場景下可能更難——創建這樣的世界,初始條件就去做這樣的模擬,將輸入喂給模擬器,得到真實的(realistic)輸出。”

所以“我們將Omniverse和Cosmos做了結合,利用Cosmos的能力,借助世界基礎模型,把它疊加在Omniverse已有的傳統模擬仿真技術之上(layering it on top of the classical simulation techniques that we already have available in Omniverse),或者說將其與Omniverse框架內的其他模擬器做結合。”

“Omniverse里面已經做了不少基礎級別的模擬,比如在城市環境里模擬汽車行駛。我們從中能獲得不少信息,有關于模擬當下的世界狀態。將其輸入到Cosmos里面,做最后一公里的模擬工作(last mile of simulation),令其做到photoreal,看起來更加的物理級精準。”

“因為如果要完全在傳統模擬環境下做成這件事,需要海量的投入——可能構建物理環境、感覺就5%-10%的東西,卻要人類投入100倍的工作。所以,我們選擇用Cosmos接過基礎級別的模擬。而且還能通過快速更改一些提示詞,將一種模擬轉為不同的變體(variation),轉為上萬、百萬量級的數據。”

“可變的包括材料、光照、時間、天氣等等,只需要改一改提示詞就行,而不需要在傳統模擬器里頭做大量工作。”

 

圍繞3臺計算機生態的添磚加瓦

我們常規認知中,現在的機器人開發很流行運動模仿學習,也就是通過遙操作——比如VR眼鏡、手柄等,由人去做動作,讓機器人去模仿學習。這的確是具身智能開發的重要構成環節。但它仍然很難解決“缺數據”的問題。

黃仁勛在Computex主題演講中的解釋相當明了:“人類的演示很難做到規模化(scalable),提供的數據有限。開發者可以用Cosmos世界基礎模型來放大(amplify)數據。”“放大數據”在我們看來就是在缺數據時代,第二臺計算機嘗試針對最大痛點之一的解決方案。

這里藉由Computex上發布的Isaac GR00T-Dreams再強化一下,流程中模擬仿真技術的重要性。關注NVIDIA機器人生態的讀者應該知道,Isaac GR00T是NVIDIA的人形機器人開發平臺;今年GTC上,NVIDIA還發布了開源的Isaac GR00T N1,這是個通用基礎模型,就是基于合成數據,來生成、學習與模擬仿真。

后續更新的Isaac GR00T N1.5據說在6月份Computex期間就已經達到了6000次的下載量——具體的模型也可以認為是NVIDIA對于上述流程的身體力行了。

而Computex上發布的Isaac GR00T-Dreams是個Blueprint(Blueprint在NVIDIA的定義中是參考工作流,即開發者可參考的定制化參考應用,用于加速生成式AI應用開發)。GR00T-Dreams是建基于Cosmos的一個Blueprint,用于大規模合成軌跡數據生成。

其大致流程是這樣的:首先有了遙操作記錄人的演示,開發者基于此做Cosmos模型的fine-tune。開發者給模型輸入圖像或者新的指令,來生成未來世界狀態的所謂Dreams(夢境)——此過程不再需要通過遙操作抓取新的數據。在生成大量Dreams之后,Cosmos對每個Dream做質量的推理(reason)和評估,選擇其中最好的用于訓練。

不過由于Dreams本質上還只是2D像素,而機器人學習的應該是動作。所以GR00T-Dreams Blueprint會把2D的Dream視頻,生成為3D動作軌跡,也就能用來訓練機器人模型了。

只需要最少的手動遙操作捕捉,就能讓機器人去學習不同的新動作。換句話說Cosmos和對應的Blueprint旨在借助模擬仿真和AI技術,來解決機器人開發“缺數據”的挑戰。如此,我們對Cosmos、NVIDIA為什么要做Cosmos,以及Omniverse和第二臺計算機在這其中扮演何種角色,也有了更為具象的理解。

當然依托“缺數據”來理解第二臺計算機,也只是一個角度。在NVIDIA機器人開發、相關第二臺計算機的生態,除了模擬仿真框架、AI模型、Blueprint還有其他不少關鍵組成部分和持續不斷的技術迭代。

比如說數據:GTC上NVIDIA發布了開源的Physical AI數據集,其中包括有300小時的室內多攝像頭追蹤數據、2000小時的自動駕駛數據、1250份OpenUSD資產,以及320K的人形機器人與機械臂動作軌跡數據——這些數據也相繼發布在了Hugging Face平臺上,據說NVIDIA后續還準備為該生態提供更多的數據。

NVIDIA本身就在用Isaac GR00T用于合成動作生成的Blueprint生成數據,Rev說GR00T N1研究團隊用該Bluerpint,150張L40 GPU,11個小時,就生成了780k合成軌跡數據...相當于人類遙操作演示6500個小時的數據,即100個人每天操作12小時持續一周——這對“缺數據”痛點的解決還是相當具象化的吧。

另外近期,生態內還有個熱點開源技術值得一提:Newton——也是NVIDIA在GTC上發布的開源物理引擎,由NVIDIA Warp加速。Computex上的演示視頻,是個小機器人走在沙地里,機器人的每走一步都帶動了地面上大量沙粒的自然運動。黃仁勛說,Newton未來會成為機器人學習的關鍵。

因為機器人學習所在的虛擬世界本身需要遵守物理定律,“大部分物理引擎并不具備以高準確度,處理剛體和柔體的能力。”所以NVIDIA在7月份開源了Newton。Newton是由Disney Research、NVIDIA和谷歌DeepMind合作打造的。Rev說,DeepMind將Newton融入到下一個版本的MuJoCo中,性能提升了70倍;而Disney Research則是該項目的首個采用者和貢獻者。

 

走向生產的擴展與未來

最后再談個和機器人相關的Blueprint發布,也能體現NVIDIA在機器人領域的布局還是更前瞻的。GTC期間NVIDIA宣布了針對工業機器人集群模擬的Mega Omniverse Blueprint。Mega是以工業數字孿生的方式測試機器人集群的Blueprint,目前已經進入到早期預覽階段。

面向機器人應用時,Mega主要相關于機器人集群大規模模擬。Rev舉例說“我們期望確保工廠或倉庫中的機器人在OTA升級的時候,不會停止工作,或者做出什么不正確的行為”,“唯一避免停機風險的合理測試方案,就是做模擬。”

所以很顯然Mega也是基于Omniverse的,“可以模擬每個單獨的機器人,或者機器人之間的交互、所有機器人的感知等,是大規模模擬,規模化協作;是機器人在這個世界里,大腦感知、控制與制動的緊密閉環(tight loop)。”

前期已經開始采用該方案的企業諸如KION集團的Dematic,用于其倉庫管理;Accenture、梅賽德斯奔馳、Schaeffler、Agility Robotics、現代汽車(Hyundai Motor Group)等也都開始用Mega做機器人部署的準備工作。

過去一年當NVIDIA更頻繁地宣稱AI是未來基礎設施——地位等同第二次科技革命的電和第三次科技革命的互聯網與信息,而NVIDIA自己則是提供AI基礎設施的工廠之時,當老黃說NVIDIA不僅是一家科技企業,還是一家關鍵基礎設施企業之時,大部分人對這話的理解應該還是在于AI服務器或數據中心,作為token生成的基礎設施;

顯然NVIDIA于AI基礎設施的布局是包含了機器人的,畢竟AI的發展路徑正從Generative AI/Agentic AI走向Physical AI。“我們構建起了三大類AI基礎設施。”黃仁勛在主題演講總結中說,“針對云的AI基礎設施、針對企業的AI基礎設施,和針對機器人的AI基礎設施。”

NVIDIA不想錯過任何一個AI技術突破或階段。就像黃仁勛在財報中說的,機器人即將迎來下一個ChatGPT時刻。而在該時刻到來之前,NVIDIA已經做好了大量準備工作,而且仍然是以構建完整閉環生態的方式。




主站蜘蛛池模板: 嫩草院一区二区乱码| 无码人妻av免费一区二区三区 | 十八岁以下禁止观看黄下载链接| 久久久久国产精品嫩草影院| 免费三级现频在线观看免费| 久久综合给合久久狠狠狠97色69 | 亚洲视频高清不卡在线观看| 无码乱码天天更新| 精品推荐国产麻豆剧传媒| 丝袜美腿精品国产一区| 无遮挡啪啪摇乳动态图| 久久天天躁夜夜躁狠狠2018 | 亚洲情综合五月天| 2021无码最新国产在线观看 | 人人妻人人澡人人爽人人精品av| 久久综合久久美利坚合众国| 日韩中文字幕区一区有砖一区| 国精无码欧精品亚洲一区| 亚洲欧洲精品成人久久曰| 老熟妇仑乱视频一区二区| 国产激情久久久久影院老熟女免费| 无码av中文一区二区三区桃花岛| 窝窝午夜看片成人精品| 999zyz玖玖资源站在线观看| 天天躁狠狠躁狠狠躁性色av| 精品综合久久久久久88| 精品第一国产综合精品蜜芽| 中文字幕无码久久精品| 国产亚洲精品久久久久妲己| 韩国无码色视频在线观看| 久久久久亚洲AV成人无码电影| 国产啪精品视频网站丝袜| 男女做爰猛烈啪啪吃奶图片| 久久亚洲精品成人av| 给我免费的视频在线观看| 亚洲乱码精品久久久久..| 波多野结衣50连登视频| 国产精品人成视频免费软件| 国产欧美va天堂在线观看视频 | 天天躁夜夜躁狠狠喷水 | 欧美巨大巨粗黑人性aaaaaa|