阿里巴巴達摩院近日推出了一款名為Valley2的多模態大型語言模型,該模型基于電商場景設計,旨在通過可擴展的視覺-語言架構,提升各領域性能并拓展電商與短視頻場景的應用邊界。Valley2采用了Qwen2.5作為LLM主干,搭配SigLIP-384視覺編碼器,結合MLP層和卷積進行高效特征轉換。其創新之處在于引入了大視覺詞匯、卷積適配器(ConvAdapter)和Eagle模塊,增強了處理多樣化真實世界輸入的靈活性及訓練推理效率。

Valley2的數據由OneVision風格數據、針對電商和短視頻領域的數據以及用于復雜問題解決的鏈式思維(CoT)數據組成。訓練過程分為文本-視覺對齊、高質量知識學習、指令微調和鏈式思維后訓練四個階段。在實驗中,Valley2于多個公開基準測試中表現卓越,尤其在MMBench、MMStar、MathVista等基準上得分頗高,在Ecom-VQA基準測試中也超越了其他同規模模型。
未來,阿里巴巴達摩院計劃發布包含文本、圖像、視頻和音頻模態的全能模型,并引入基于Valley的多模態嵌入訓練方法,以支持下游檢索和探測應用。
Valley2的推出標志著多模態大型語言模型領域的重要進展,展現了通過結構改進、數據集構建及訓練策略優化來提升模型性能的可能性。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。