APE 是一種全開源的多模態分割模型,其獨特之處在于采用了獨立建模每個類別名實例的方法。以往的方法通常將多個類別名聯結成一個單獨的 Prompt,但 APE 通過對每個類別名或描述短語進行獨立建模,可以學習到不同實例之間的差異。此外,APE 還通過壓縮 Word-Level Embeddings 為 Sentence-Level Embeddings 來減少計算復雜度和內存消耗,從而有效地表達語義信息。
APE 采用了不同的特征融合方式來處理不同類型的 Prompt。對于純類別名的文本特征,采用一種 “zero” 文本 token 作為替代,以避免過擬合問題。而對于語言描述的文本特征,采用特定的融合方式將其與視覺特征進行語義級的理解。此外,APE 還通過矩陣乘法計算 Object Embeddings 和 Prompt Embeddings 之間的相似度,從而實現一次性檢測和分割。
APE 還通過統一前景和背景粒度來提高分割效果。在分割任務中,前景和背景的粒度是不同的,但傳統方法往往面臨前背景沖突的問題。為此,APE 提出統一前景和背景的粒度,將背景的不同塊視為獨立的標簽,從而使模型可以采用統一的架構訓練前景和背景數據,并方便地融入大規模的 Class-Agnostic 數據。
APE 在各個檢測、分割和指向性檢測數據集上都取得了強力結果。特別是在 D3數據集上,APE 的表現顯著優于其他方法。在開集檢測任務中,APE 在常見數據集上的效果也明顯優于其他方法。此外,APE 還在開集分割任務和視覺定位任務上取得了競爭性的結果,在 RoboFlow100和 ODinW 評測基準上取得了新的 SOTA。
APE 是一種非常有潛力的多模態分割模型,具有廣泛的應用前景。通過獨立建模每個類別名實例、壓縮 Word-Level Embeddings 為 Sentence-Level Embeddings、采用不同的特征融合方式、通過矩陣乘法進行 Object Embeddings 和 Prompt Embeddings 之間的相似度計算以及統一前景和背景粒度,APE 在多個常見數據集上取得了強力的分割效果,并展現出競爭力的結果。未來的研究可以進一步探索 APE 在其他視覺任務中的應用,以及對其方法進行優化和改進。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。