近年來人工智能領域發生了翻天覆地的變化,尤其是大型語言模型(LLMs)在多模態任務上取得了顯著進展。這些模型在理解和生成語言的能力上展現出了強大的潛力,但目前大多數多模態模型依然采用自回歸(AR)架構,推理過程較為單一、缺乏靈活性。為此,香港大學和華為諾亞方舟實驗室的研究團隊提出了一種全新的模型 ——FUDOKI,旨在打破這一局限。
FUDOKI 的核心創新在于其全新的非掩碼離散流匹配(Discrete Flow Matching)架構。與傳統的自回歸模型不同,FUDOKI 通過并行去噪機制,能夠實現雙向信息整合,從而顯著提升模型在復雜推理和生成任務中的表現。該模型不僅在圖像生成與文本理解之間架起了橋梁,還實現了兩者的統一建模。
這一模型的優勢在于其去掩碼的設計,使得生成過程更加靈活。FUDOKI 在推理過程中允許動態調整生成結果,仿佛讓機器學習到了人類的思維方式。此外,FUDOKI 在生成圖像方面的表現尤為出色,在 GenEval 基準上取得了0.76的成績,超越了同尺寸的自回歸模型,展現出高質量的生成效果和語義準確性。
FUDOKI 的構建依賴于度量誘導的概率路徑和動力學最優速度。這些技術使得模型能夠在生成過程中綜合考慮每個 token 的語義相似性,從而實現更加自然的文本和圖像生成。同時,在模型訓練上,FUDOKI 利用預訓練的自回歸模型進行初始化,降低了訓練成本,提升了效率。
FUDOKI 的推出不僅為多模態生成和理解提供了新的視角,還為通用人工智能的發展奠定了更為堅實的基礎。未來,我們期待 FUDOKI 能夠帶來更多的探索與突破,推動人工智能技術的進一步發展。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。