近年來,字節跳動在技術創新方面表現活躍,其與曠視科技的合作成果——HiDiffusion技術,近日引起業界廣泛關注。這一新技術只需一行代碼,便能顯著提升SD(擴散模型)生成圖像的分辨率和生成速度,允許圖像生成的分辨率高達4096×4096,同時將圖像生成速度提高1.5至6倍。值得一提的是,HiDiffusion不僅支持所有SD模型,也兼容SD模型的下游模型,如Playground。
在詳細介紹中,我們了解到,當直接使用已訓練好的圖像擴散模型嘗試生成更高分辨率的圖像時,常會遇到圖像中對象不合理重復的問題,且圖像生成時間會大幅增加。研究發現,這種對象重復問題主要由U-Net模型深層中的特征重復導致,而圖像生成時間增長則主要是由于U-Net中一個自機制注意力的動畫操作所致。
為了解決這些問題,字節跳動和曠視推出了新的高分辨率生成框架——HiDiffusion。該框架包含一個稱為認知分辨率U-Net(RAU-Net)的模塊,能夠動態調整特征圖尺寸,有效避免了圖像中的對象重復現象。此外,HiDiffusion還采用了一種優化后的窗口注意力機制,稱為修改版本升降窗多頭自注意力(MSW-MSA),顯著減少了計算量。
通過將HiDiffusion應用于各種預訓練的擴散模型,不僅可以將圖像生成的分辨率提高至4096×4096,而且能將圖像生成速度提升1.5至6倍。廣泛的實驗驗證表明,這一方法不僅解決了對象重復和高計算負擔的問題,而且在生成高分辨率圖像的任務上取得了卓越的效果。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。