近日,阿里語音AI團隊宣布開源全球首個支持鏈式推理的音頻生成模型ThinkSound,該模型通過引入思維鏈(Chain-of-Thought)技術,突破傳統視頻轉音頻技術對畫面動態捕捉的局限,實現高保真、強同步的空間音頻生成。這一突破標志著AI音頻技術從“看圖配音”向“結構化理解畫面”的跨越式發展。
傳統端到端視頻轉音頻技術常因忽視畫面細節與聲音的時空關聯,導致生成音頻與視覺事件錯位。ThinkSound首次將多模態大語言模型與統一音頻生成架構結合,通過三階段推理機制實現精準音頻合成:系統首先解析畫面整體運動與場景語義,生成結構化推理鏈;隨后聚焦具體物體聲源區域,結合語義描述細化聲音特征;最終支持用戶通過自然語言指令實時交互編輯,例如“在鳥鳴后添加樹葉沙沙聲”或“移除背景噪聲”。
為支撐模型的結構化推理能力,研究團隊構建了包含2531.8小時高質量樣本的AudioCoT多模態數據集,整合VGGSound、AudioSet等來源的動物鳴叫、機械運轉等真實場景音頻。數據集通過多階段自動化過濾與人工抽樣校驗確保質量,并特別設計對象級和指令級樣本,使模型可處理“提取貓頭鷹鳴叫時避免風聲干擾”等復雜指令。
實驗數據顯示,ThinkSound在VGGSound測試集的核心指標上較主流方法提升超15%,在MovieGen Audio Bench測試集中表現大幅領先Meta同類模型。目前,該模型的代碼與預訓練權重已在GitHub、HuggingFace及魔搭社區開源,開發者可免費獲取。
阿里語音AI團隊透露,未來將重點提升模型對復雜聲學環境的理解能力,并拓展至游戲開發、虛擬現實等沉浸式場景。這項技術不僅為影視音效制作、音頻后期處理提供新工具,更可能重新定義人機交互中的聲音體驗邊界。業內專家指出,ThinkSound的開源將加速音頻生成領域的技術普惠,推動創作者經濟向更智能的方向演進。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。