近日,香港大學與英偉達共同研發了一種新的視覺注意力機制,名為廣義空間傳播網絡(GSPN),該機制在高分辨率圖像生成方面取得了顯著的突破。
傳統的自注意力機制雖然在自然語言處理和計算機視覺領域取得了不錯的效果,但在處理高分辨率圖像時卻面臨計算量巨大和空間結構損失的雙重挑戰。傳統的自注意力機制的計算復雜度為 O (N²),這使得處理長上下文時非常耗時,并且將二維圖像轉化為一維序列會導致空間關系的丟失。

為了解決這些問題,GSPN 采用了創新的二維線性傳播方法,并結合 “穩定性–上下文條件” 理論,將計算復雜度降低到√N 級別,同時保留了圖像的空間連貫性。這種新的機制大幅提升了計算效率,并在多個視覺任務上刷新了性能紀錄。
GSPN 的核心技術包括兩大部分:二維線性傳播和穩定性 - 上下文條件。通過逐行或逐列的線掃描,GSPN 能夠實現對二維圖像的高效處理。與傳統的注意力機制相比,GSPN 不僅減少了參數量,還保持了信息的完整傳播。此外,研究人員還提出了穩定性 - 上下文條件,確保在長距離傳播時系統的穩定性與可靠性。
在實驗中,GSPN 展現出了卓越的性能。在圖像分類任務中,GSPN 在5.3GFLOPs 的計算量下,實現了82.2% 的 Top-1準確率,超越了多種現有模型。在圖像生成方面,GSPN 在處理256×256的任務時,生成速度提升了1.5倍。尤其在文本到圖像生成任務中,GSPN 能夠在16K×8K 分辨率下進行快速生成,推理時間加速超過84倍,展示了其在實際應用中的巨大潛力。
綜上所述,GSPN 通過獨特的設計理念和結構,使得視覺注意力機制在保持空間連貫性的同時,實現了計算效率的顯著提升,為未來的多模態模型和實時視覺應用開辟了新的可能。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。