谷歌早前曾介紹了一個可以通過文本生成3D圖像的AI模型Dreamfusion。其中,只需輸入簡單的文本提示,這個利用2D數據訓練出來的模型可以為你生成相應的3D圖像。
但英偉達的研究人員認為,盡管谷歌DreamFusion展示了預訓練的文本到圖像擴散模型在優化神經輻射場(NeRF)方面的實用性,并取得了顯著的文本到3D合成結果,但所述方法存在兩個固有的局限性:
NeRF的優化極其緩慢;
NeRF的低分辨率圖像空間監控導致處理時間長,并且只能生成低質量的3D模型。
所以,英偉達提出了一個全新的解決方案Magic3D,利用兩階段優化框架來解決相關限制。最終,團隊希望這可以幫助實現3D合成的普及。
與Dreamfusion一樣,Magic3D的核心依賴于一種根據文本從不同角度創建圖像的圖像生成模型。英偉達的研究團隊使用的是圖像模型eDiffi,而谷歌則依賴Imagen。
對于團隊提出的兩階段優化框架,他們首先使用低分辨率擴散先驗獲得粗略模型,并使用稀疏的3D hash grid structure進行加速。使用粗糙表示作為初始化,研究人員進一步通過與高分辨率latent擴散模型交互的高效可微渲染器來優化紋理化的3D網格模型。
這種方法的優勢在于,生成型AI模型不必使用稀缺的3D模型進行訓練。與Nvidia免費提供的文本到3D模型Get3D不同,Magic3D同時可以從不同類別生成眾多3D模型,無需額外訓練。
英偉達表示,實驗結果表明,Magic3D可以在40分鐘內創建高質量的3D網格模型,這比DreamFusion快2倍,同時分辨率更高。這家公司進一步指出:“用戶研究則顯示,61.7%的評分者更喜歡我們的方法而不是DreamFusion。”
另外,Magic3D可以執行基于提示的3D網格編輯。給定低分辨率3D模型和基本提示,研究人員可以更改文本以更改生成的模型。同時,團隊演示了在數個迭代中保持相同的主題(通常稱為連貫性),并將2D圖像的風格(如立體派繪畫)應用于3D模型。
英偉達的研究人員評價道:“結合圖像條件生成功能,我們為用戶提供了控制3D合成的新方法,并為各種創意應用開辟了新途徑。”
從文本生成3D的能力感覺像是當今擴散模型的一種自然進化。在對大量數據進行密集訓練后,相關模型可以使用神經網絡合成新內容。僅在2022年,我們就已經看到了DALL-E和Stable Diffusion等功能強大的文本到圖像模型,以及谷歌的文本到3D模型DreamFusion等等。
對于Magic3D,它將允許任何人在不需要特殊訓練的情況下創建3D模型。盡管團隊目前依然在優化改善模型,但隨著技術的發展和成熟,相信這將能加快普及3D合成,并促進游戲和VR行業的發展。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。