科技媒體Marktechpost報道,英偉達近日推出Describe Anything 3B(DAM-3B)AI模型,旨在解決圖像和視頻中特定區域的詳細描述難題。
傳統視覺-語言模型(VLMs)在整體描述上表現優異,但對局部細節的捕捉常顯不足。DAM-3B通過點選、框選或涂鴉等方式指定目標區域,生成精準且上下文相關的描述文本,其衍生版本DAM-3B-Video還支持動態視頻分析。
該模型采用“焦點提示”和“局部視覺骨干網絡”架構,兼顧高分辨率細節與全局背景,并通過門控交叉注意力機制融合特征。為彌補數據不足,英偉達開發了半自動標注策略,構建含150萬樣本的訓練庫。
在多項基準測試中,DAM-3B以67.3%的平均準確率超越GPT-4o等模型,為無障礙工具、機器人及視頻分析提供了新可能。模型已在Hugging Face平臺開源。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。