NVIDIA Spatial Intelligence Lab 發布 Lyra 2.0，這套框架能從單張圖片出 […] 〈Nvidia 發布 Lyra 2.0：一張圖生成可探索 3D 世界，破解空間失憶與時序漂移訓練世界模型〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。NVIDIA Spatial Intelligence Lab 發布 Lyra 2.0，這套框架能從單張圖片出 […] 〈Nvidia 發布 Lyra 2.0：一張圖生成可探索 3D 世界，破解空間失憶與時序漂移訓練世界模型〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

Nvidia 發布 Lyra 2.0：一張圖生成可探索 3D 世界，破解空間失憶與時序漂移訓練世界模型

來源：Blocktempo ZH

2026/04/16 12:36

閱讀時長 8 分鐘

LAB$0,47902+%10,06

如需對本內容提供反饋或相關疑問，請通過郵箱 [email protected] 聯絡我們。

NVIDIA Spatial Intelligence Lab 發布 Lyra 2.0，這套框架能從單張圖片出發，沿使用者自訂的鏡頭軌跡，持續生成可探索的大型 3D 世界，並輸出 3D Gaussian Splatting 或三角網格，直接匯入 Isaac Sim 供機器人訓練使用。（前情提要：Nvidia 輝達發表開源量子 AI 模型「Ising」，黃仁勳：AI 將成量子作業系統）（背景補充：Nvidia黃仁勳：Claude Mythos突破顯示美中須展開AI安全對話、中國算力難被出口管制封鎖）想像你站在一張照片前，按下一個按鈕，鏡頭開始向前推進：走廊、轉角、大廳，逐一浮現，每一幀都與前一幀在幾何上精準咬合，最終整座建築以可即時渲染的 3D 模型的形式落地。這是 NVIDIA Spatial Intelligence Lab 最新發布的開源 Lyra 2.0 已能交付的成果。長程生成的兩大死穴現有影片生成模型能做出視覺精緻的短片段，但一旦試圖延伸到「繞著整棟樓走一圈」這種規模，品質便急速崩解。NVIDIA 研究團隊將根本原因歸結為兩種截然不同的衰退機制。第一種是「空間失憶」（spatial forgetting）：模型的上下文視窗有限，當鏡頭走遠之後，早先掃過的區域就從記憶中滑落；等到鏡頭回頭時，模型只能憑空幻覺出一個新的版本，走廊的燈換了位置，門框的比例不對了。第二種是「時序漂移」（temporal drifting）：自回歸生成的每一幀都以前一幀為基礎，細微的合成誤差逐步疊加，幾十幀之後場景的色調、材質已面目全非。這兩個問題疊加在一起，使得「先生成影片、再重建 3D」的路徑在長程場景上幾乎失效。 Lyra 2.0 的兩支解法針對空間失憶，Lyra 2.0 引入了一套「空間記憶」機制：系統對每一幀維護逐幀的 3D 幾何資訊，當新的目標視角出現時，系統從歷史幀中檢索與目標視角重疊度最高的那幾幀，將其正則座標投影對齊，建立稠密的 3D 對應關係，再透過注意力機制注入 DiT（Diffusion Transformer）。關鍵在於，幾何資訊只用來「定位」，外觀合成仍完全交由生成先驗處理，這讓模型得以保有視覺豐富度，又不會對著空氣憑空發明新結構。針對時序漂移，Lyra 2.0 採用「自增強訓練」（self-augmented training）：訓練時刻意餵入模型自己生成的帶噪歷史幀，強迫模型學會「看到漂移就修正」而非「跟著漂移繼續走」。這個做法的直覺類似課堂上讓學生批改自己的考卷 — 只有親眼見過自己的錯誤，才能培養出糾錯反射。互動式探索與 3D 匯出 Lyra 2.0 配備了互動式 GUI，讓使用者可以即時檢視累積的 point cloud，並在場景中手動規劃下一段鏡頭軌跡：包括重返已探索區域或朝未知方向推進。場景生成採漸進式架構：使用者走到哪，模型就生成到哪，不需要在啟動前指定完整路徑。生成完成後，影片幀會透過前饋重建模型轉換為 3D Gaussian Splatting（3DGS）或三角網格，兩種格式均可直接匯入物理引擎。NVIDIA 特別示範了將場景輸出至 Isaac Sim，供機器人執行有物理基礎的導航與互動任務。論文編號 arXiv:2604.13036，程式碼以 Apache 2.0 開源於 GitHub 模型權重發布於 HuggingFace（nvidia/Lyra-2.0）。為何這一步值得關注 3D 世界生成在過去兩年已成為具身 AI（embodied AI）與機器人訓練的核心基礎設施需求。問題不在於生不生得出 3D，而在於生出來的 3D 夠不夠「大」、夠不夠「穩定」、能不能讓機器人在裡面反覆走動而不撞見自相矛盾的幾何結構。 Lyra 2.0 的兩支解法：幾何索引記憶 + 漂移糾錯訓練，直接攻克的正是這個瓶頸。更重要的是，這套方法以開源形式發布，意味著機器人新創、遊戲引擎開發者、虛擬環境平台都可以直接在此基礎上疊加自己的應用層。相關報導馬斯克秀出 AI5 晶片設計完成、Dojo3 重啟回魂，特斯拉 AI6 研發中算力缺到哭！WSJ：Blackwell租金兩月漲 48%、Anthropic慢到企業跳船 Adobe Firefly AI 亮相：一句話打通全套 CC 可跨 Photoshop、Premiere..自動完稿，支援 Claude、ChatGPT等第三方模型 Nvidia 輝達發表開源量子 AI 模型「Ising」，黃仁勳：AI 將成量子作業系統加密市場Q2展望：看漲比特幣，重點關注再質押、AI 與模組化賽道〈Nvidia 發布 Lyra 2.0：一張圖生成可探索 3D 世界，破解空間失憶與時序漂移訓練世界模型〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

市場機遇

LAB實時價格 (LAB)

$0,47902

$0,47902$0,47902

+%6,80

USD

LAB (LAB) 實時價格圖表

只要一分鐘，20 USDT 免費拿！

充值 $100，多拿 $300 GOLD 倉位！

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。