深度攝像頭和激光雷達掃描儀能夠捕獲到空間中各種對象的三維幾何結構。但當在現實世界中使用時,各種因素可能會極大地限制僅從數據中捕獲和重建對象完整3D幾何形狀的能力。
具體來說,諸如自遮擋或傳感器分辨率限制等因素可能導致掃描儀捕獲不完整或部分采樣的3D對象。為了充分理解三維世界,必須解決數據不全和缺失的對象部分。目前的點云補全方法在處理域內(in-domain)形狀方面表現出令人印象深刻的結果。
然而,由于缺乏具有各種形狀的大規模數據集,相關方法在處理其域外(out-of-domain/OOD)形狀類時經常面臨困難。對廣泛3D數據收集的需求向開發一個能夠有效完成需要深度感知的現實場景中遇到的各種對象類別的模型提出了重大挑戰。
在名為《Point-Cloud Completion with Pretrained Text-to-image Diffusion Models》的論文中,英偉達和巴伊蘭大學的研究人員利用預訓練的文本到圖像擴散模型來解決OOD對象的這一挑戰。
實驗證明,即便從未就3D數據訓練過,相關模型都可以用于文本引導的3D形狀生成。這是通過SDS loss來完成,由SDS loss測量3D形狀渲染圖像與先前模型的一致性。團隊研究的關鍵思想是,由于文本到圖像的擴散模型是圍繞大量不同的對象訓練,它們包含了關于對象形狀和紋理的強先驗,而所述先驗可以用于補全缺失的部分。
例如,給定一個局部點云,知道它對應于一把椅子可以指導補全過程,因為這個類的對象預計會表現出特定類型的對稱性和部分。所述方法的關鍵挑戰是將擴散模型的先驗信息與觀測到的局部點云相結合,以生成忠實于局部觀測的完整形狀。

研究人員介紹了一種利用SDS-loss在文本和點云輸入約束的引導下精確補全對象表面的點云補全方法SDS-Complete。為了與輸入點保持一致,他們使用Signed Distance Function(SDF)表面表示,并約束SDF的零水平集通過輸入點。SDS-Complete能夠克服使用OOD對象的限制,因為它帶來了預訓練的文本到圖像擴散模型的語義。這使得團隊能夠從部分觀測中生成準確而逼真的3D形狀。
實驗證明了SDS-Complete可以從兩個真實世界的數據集生成具有不同形狀類型的一系列對象的補全:含有各種不完整真實世界深度攝像頭掃描的Redwood數據集;以及激光雷達掃描的KITTI數據集。對于所述兩種情況,團隊提出的解決方案都優于最先進的方法。

團隊的總體方案如上圖所示,而它解決了在給定深度傳感器捕獲的不完整點云測量值的情況下補全表面的問題。輸入測量(右上)包括一組3D輸入點P = {p1, p2,…, pN}和嵌入不完整對象y的文本描述。
假設P是由深度傳感器(如深度攝像頭或激光雷達傳感器)捕獲,并且傳感器的內部參數已知。研究人員進一步假設點云從原始的掃描分割,即P中所有的點都屬于由y描述的一個對象。
傳感器射線i與二進制值掩模Mi∈{0,1}相關,表明這種射線是否在屬于P的點處與表面相交。如果Mi=1,則射線i同時與從傳感器到表面Di∈R的射線距離相關聯。
最后,對于攝像頭采樣過程,假設原始的非分段掃描包含來自世界地平面的點,并用于估計平面的參數l∈P3。
團隊的方法對由神經符號距離函數fθ: R3→R和神經顏色函數cφ: R3→R3表示的完整對象表面進行優化,其中θ和φ表示神經函數的學習參數。
這兩個函數形成一個神經輻射場,可以使用3D體三維函數的渲染圖像進行優化。另外,目標表面直接由fθ定義,并作為其零水平集。為了約束曲面通過輸入點,研究人員使用以下點云損失來鼓勵所述點的帶符號距離為零:

在每次迭代中,從傳感器角度渲染亮度場。每個渲染像素i與其期望的渲染不透明度和到表面的距離相關聯。研究人員使用輸入的不透明度和距離來約束優化的表面,以匹配掩模和深度傳感器的觀測結果:

其中K是傳感器射線的數量。為了約束fθ形成有效的SDF,他們應用了Eikonal損失正則:

其中Peik既包含p點,又包含感興趣區域的均勻采樣點。盡管Lm、Ld、Lp和Leikonal會約束優化表面以匹配傳感器捕獲的信息,但損失不會為深度傳感器無法捕獲的被遮擋缺失內容提供任何信號。
為了補全表面的未觀察部分,需要語義先驗。為此,團隊利用輸入文本嵌入y和預訓練的文本到圖像擴散模型Φ。目標是使用Φ為未觀察到的部分提供語義先驗,這樣對象的任何渲染圖像都將與y兼容。
所以,研究人員使用輻射場渲染隨機物體視圖,并將SDS loss與嵌入y的輸入文本應用于優化fθ和cφ。最后,使用已知的世界平面來進一步正則化表明:

其中Puniform是感興趣區域內平面下均勻采樣的3D點的集合。總損失為:

另外,為了使生成內容與已有的部分觀測對象保持一致,需要對攝像頭采樣進行謹慎處理。與使用SDS loss“從零開始”生成3D對象不同,團隊開發了一個采樣攝像頭姿勢的“curriculum”。設C0 = (R0, t0)為深度傳感器的原始攝像頭對世界姿態。
為了保持C0相對于對象的滾轉角度,并防止渲染翻轉或不真實的旋轉圖像,定義相對于分割的世界平面C0的方位角和仰角偏差。具體來說,設nl∈S2為平面l的法線,定義方位角旋轉更新為Razimuth = R(nl, γazimuth)。
同樣,設a0為C0的歸一化主軸方向,用Relevation = R(nl×a0, γelevation)定義高程旋轉更新。假設原點位于對象的中心,則γazimuth和 γelevation度給出更新后的攝像頭:

在訓練過程中,首先對從C0位姿開始的渲染圖像應用SDS loss,然后逐漸增加偏差角度的采樣范圍,直到覆蓋整個對象。通過在深度傳感器角度渲染的圖像初始應用SDS loss,首先優化被觀察對象部分的顏色,使其與y一致。然后當采樣范圍增大時,相應完成對象其余部分的顏色和幾何形狀。
實驗證明了SDS-Complete可以從兩個真實世界的數據集生成具有不同形狀類型的一系列對象的補全:含有各種不完整真實世界深度攝像頭掃描的Redwood數據集;以及激光雷達掃描的KITTI數據集。對于所述兩種情況,團隊提出的解決方案都優于最先進的方法。

Redwood數據集域內比較

Redwood數據集域外比較

KITTI數據集
可以觀察到,團隊提出的方法有能力在域內和域外對象保持一致的性能,而其他方法對OOD對象生成的補全表現出不可預測性,并且偏離預期的形狀,導致性能較差。

為了證明方法中每個組成部分的重要性,上圖展示了消融研究?梢钥闯,如果沒有SDS loss,模型就無法理解對象的特征,比如椅子有四條腿和一個筆直的背面。如果沒有SDF表示,就不可能直接在表面上應用點云約束,這導致追蹤部分輸入的能力較差。最后可以看到,與隨機攝像頭采樣相比,團隊的攝像頭采樣““curriculum”能夠保持生成內容與現有傳感器測量值的一致性,從而提高了補全度。
當然,團隊指出,限制所述方法的主要因素是由于GPU內存限制而造成低分辨率圖像的SDS loss的應用,而這需要大量的采樣視圖。另外,SDF模型初始化為球體,所以無法很好地處理具有其他形狀對象。
總的來說,英偉達和巴伊蘭大學的研究人員提出了利用文本到2D預訓練模型來重建各種對象的3D點云補全方法SDS-Complete。為了適應點云使用的SDS loss,他們合并了一個SDF表示,并將表面約束在輸入點上。他們成功地將SDS-loss應用于從新視圖呈現的圖像上,并通過將圖像與輸入的文本描述對齊來補全對象的缺失部分。
通過仔細處理攝像頭采樣,團隊保持了補全部分與輸入捕獲部分的一致性。這使得系統即使在以前未考慮的對象上都能產生更好的結果。在未來,他們希望利用文本到3D的進步來實現更高質量的補全。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。