国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

遇見·新視界”:LG UltraGear電競顯示器全景式體驗,多款新品陸續登場把舞臺拍成電影——佳能“佳直播PRO”助力譚維維《聲聲世世》音樂會幕后2025世界頂尖科學家論壇青年科學家大會在滬舉辦,深度對話頂尖大師總裁敲門,福利到家!京東11.11總裁送貨直播豪送E卡與免單大獎熱賣榜單已出爐 京東攜手11.11驚喜大使劉宇寧陪你逛3C數碼AI發電日Fender攜2025新品亮相上海國際樂器展 多元活動深度聯結本土音樂生態openvela首屆全球開發者大會圓滿落幕,NuttX創始人Greg親臨現場10月24日程序員節 京東11.11時尚辦公文具爆款直降 低至五折宇樹發布H2,優必選斬單,人形機器人走向實用主義長城汽車:2025 年第三季度營收 612.47 億元,同比增長 20.51%北汽藍谷:2025 年第三季度營收 58.67 億元,同比下降 3.45%九號公司:2025 年第三季度凈利潤 5.46 億元,同比增長 45.86%廣汽集團:2025 年第三季度營收 241.06 億元,同比下降 14.62%福特暫停F-150 Lightning生產,優先保障燃油混動車型OPPO與螞蟻集團簽署戰略合作:10月底推出“支付寶碰一下發紅包”功能秋冬室內空氣擔憂多?TCL小藍翼C7新風空調柜機保障室內呼吸健康TP-Link 聯洲推出入門級 Wi-Fi 7 電競無線路由器 GE400,雙頻 BE6500FM Agent登頂OpenAI MLE-Bench,由百度智能云研發星塵智能升級平臺亮相機器人頂會IROS 技術與商業化雙線突破解碼IROS 2025:中國機器人產業正在形成的六大確定性趨勢
  • 首頁 > 云計算頻道 > 大模型

    一塊顯卡理解一部電影,最新超長視頻理解大模型出爐!“大海撈針”準確率近95%,代碼已開源

    2024年10月28日 17:13:12 來源:量子位公眾號

      量子位 | 公眾號 QbitAI

      僅需1塊80G顯卡,大模型理解小時級超長視頻。

      智源研究院聯合上海交通大學、中國人民大學、北京大學和北京郵電大學等多所高校帶來最新成果超長視頻理解大模型Video-XL。

      它借助語言模型(LLM)的原生能力對長視覺序列進行壓縮,不僅保留了短視頻理解的能力,而且在長視頻理解上展現了出色的泛化能力。

      相較于同等參數規模的模型,Video-XL在多個主流長視頻理解基準評測的多項任務中排名第一。

      而且在效率與性能之間實現了良好的平衡,僅需一塊80G顯存的顯卡即可處理2048幀輸入(對小時級長度視頻采樣),并在視頻“海中撈針”任務中取得了接近95%的準確率。

      △圖一:不同長視頻模型在單塊80G顯卡上支持的最大幀數及在Video-MME上的表現

      要知道,長視頻理解是多模態大模型的核心能力之一,也是邁向通用人工智能(AGI)的關鍵一步。

      然而,現有的多模態大模型在處理10分鐘以上的超長視頻時,仍然面臨性能差和效率低的雙重挑戰。

      Video-XL正是為此而來,模型代碼均已開源。

      僅需幾秒鐘,VideoXL便可以準確檢索長視頻中植入的廣告內容(https://github.com/VectorSpaceLab/Video-XL/tree/main/examples),也可以像人類一樣準確理解電影中發生的主要事件。本視頻僅用于學術研究,如有問題,請隨時聯系。

      未來,它有望在電影摘要、視頻異常檢測、廣告植入檢測等應用場景中展現出廣泛的應用價值,成為得力的長視頻理解助手。

      超長視頻理解難平衡性能和效率

      使用MLLM進行長視頻理解具有極大的研究和應用前景。然而,當前的視頻理解模型往往只能處理較短的視頻,無法處理十分鐘以上的視頻。

      盡管最近研究社區出現了一些長視頻理解模型,但這些工作主要存在以下問題:

      壓縮視覺token帶來的信息損失:為了使語言模型的固定窗口長度適應長視頻帶來的大量視覺token,眾多方法嘗試設計機制對視覺token進行壓縮,例如LLaMA-VID主要降低token的數量,而MovieChat, MALMM則設計memory模塊對幀信息進行壓縮。然而,壓縮視覺信息不可避免帶來信息的損失和性能降低。

      性能和效率的不平衡:相關工作LongVA嘗試finetune語言模型擴大其上下文窗口,并成功將短視頻理解能力泛化到了長視頻上。LongVila優化了長視頻訓練的開銷,提出了高效訓練長視頻訓練的范式。然而,這些工作并未考慮推理時視頻幀數增加帶來的計算開銷。

      建立統一視覺編碼機制 模型結構

      △圖二:Video-XL模型結構圖

      如圖二所示,Video-XL的整體模型結構和主流的MLLMs結構相似,由視覺編碼器(CLIP), 視覺-語言映射器(2-layer MLP)以及語言模型(Qwen-7B)構成。

      特別之處在于,為了處理各種格式的多模態數據(單圖,多圖和視頻),Video-XL建立了一個統一的視覺編碼機制。

      針對多圖和視頻數據,將每幀分別輸入CLIP;針對單圖,將其劃分為多個圖像塊,并將圖像塊輸入CLIP進行編碼。因此,一個N幀的視頻或者一個N圖像塊的圖片都將統一標記成 N × M 視覺tokens。

      視覺上下文隱空間壓縮

      相比于以往長視頻模型直接對視覺token壓縮,Video-XL嘗試利用語言模型對上下文的建模能力對長視覺序列進行無損壓縮。對于視覺語言連接器輸出的視覺信號序列:

      其中n為視覺token的數量。Video-XL的目標在于將X壓縮成更為緊湊的視覺表示C (|C| < |X|)。在下文中將詳細介紹視覺上下文隱空間壓縮的原理。

      受到Activation Beacon的啟發,Video-XL引入了一種新的特殊標記,稱為視覺摘要標記(VST),記為 ;诖丝梢詫⒁曈X信號的隱層特征壓縮到VST在LLM中的激活表示中(每層的Key和Value值)。具體而言,首先將視覺信號序列X分成大小為w的窗口(默認每個窗口長度為1440):

      接著,對每個窗口首先確定壓縮比,并插入一組VST標記,以交替的方式在視覺標記序列中插入。在該過程中,視覺token表示的變化可以由以下公式表達:

      LLM將逐個處理每個窗口進行編碼,并使用額外的投影矩陣在每層自注意力模塊中處理VST的隱藏值。編碼完成后,普通視覺標記的激活值被丟棄,而VST的激活值被保留并累積,作為處理后續窗口時的視覺信號代理。

      模型訓練方式 Video-XL通過優化在壓縮視覺信號下的生成質量來進行訓練。下一個Token的預測通過以下公式進行計算:

      其中,θ代表模型所有優化的參數,包含語言模型,視覺編碼器、視覺語言連接器、VST的投影矩陣,以及VST的token embedding。模型通過最小化標準的自回歸損失進行訓練,訓練過程中不計算VST標記的損失(其標簽設為-100),因為它們僅用于壓縮。同時,為了靈活支持不同的壓縮粒度,訓練時每個窗口的壓縮比會從{2,4,8,12,16}中隨機抽取。在推理時,可以根據具體的效率需求選擇一個壓縮比并應用于所有窗口。

      模型訓練數據

      在預訓練階段,Video-XL使用Laion-2M數據集優化視覺語言連接器。在微調階段,Video-XL充分利用了MLLM在各種多模態數據集上的能力。對于單圖像數據,使用了Bunny 695k和Sharegpt-4o的57k張圖片。對于多圖像數據,使用了從MMDU提取的5k個數據。對于視頻數據,收集了不同時長的視頻樣本,包括來自NExT-QA的32k樣本,Sharegpt-4o的2k視頻樣本,CinePile的10k樣本以及11k個帶有GPT-4V視頻字幕注釋的私有數據。

      為了增強長視頻理解能力并釋放視覺壓縮機制的潛力,本工作開發了一個自動化的長視頻數據生產流程,并創建了一個高質量數據集——視覺線索順序數據(VICO)。該流程首先從CinePile數據或YouTube等視頻平臺獲取長視頻,涵蓋電影、紀錄片、游戲、體育等開放領域的內容。每個長視頻被分割成14秒的片段。對于每個片段,本工作使用VILA-1.5 40B模型生成詳細描述。這些描述包括動作序列和關鍵事件,基于這些字幕,本工作利用ChatGPT將線索按時間順序排列。VICO數據集通過要求模型檢索關鍵幀并檢測時間變化,提升其長視頻理解能力。

      單項任務超越GPT-4o (一)評測基準

      Video-XL選用多個主流視頻理解評測基準,對于長視頻理解任務,評測了VNBench, LongVideoBench, MLVU和Video-MME;對于短視頻理解任務,評測了MVBench和Next-QA。

      (二)評測結果

      1、長視頻理解:

      △表一 Video-XL在MLVU和VideoMME的性能

      △表二 Video-XL在VNBench和LongVideoBench上的性能

      如表一,表二所示Video-XL在多個主流的長視頻評測基準上展現了卓越性能。其中在VNBench上準確率超過了目前最好的長視頻模型大約10%。

      在MLVU的驗證集上,僅僅具有7B參數的Video-XL甚至在單項選擇任務上超越了GPT-4o模型。而在Video-MME和LongVideoBench等數據集上,Video-XL也在同等量級規模的長視頻理解模型中排名第一。

      2、超長視頻理解:

      Video-XL通過進行了視頻“大海撈針”測試來評估其處理超長上下文的能力。LLaVA-NexT-Video和LongLLaVA都采用了簡單的位置信息外推算法,但在輸入更多上下文時,仍然難以理解關鍵信息。

      雖然LongVA通過微調LLM來處理更長的輸入,但高昂的計算成本限制了其在單塊80G GPU上處理約400幀的能力。相比之下,Video-XL在相同硬件條件下,以16倍壓縮比和2048幀輸入,達到了近95%的準確率。這表明,Video-XL在準確性和計算效率之間實現了最佳平衡。

      3、短視頻理解:

      盡管Video-XL的設計主要面向長視頻,但它保留了短視頻理解的能力。在MVBench和Next-QA任務評測中,Video-XL取得了和目前SOTA模型相當的效果。

      (三)消融實驗

      △表三 Video-XL的消融實驗

      Video-XL對所提出的視覺壓縮機制和VICO數據集進行了消融實驗,如表三所示

      1、視覺壓縮的有效性:

      Video-XL使用Bunny 695k數據集訓練了兩個模型:一個不使用壓縮,另一個使用隨機壓縮比(從{2, 8, 16}中選取)。對于壓縮模型,在視頻基準MLVU和圖像基準MME、MMBench上測試時應用了不同的壓縮比。值得注意的是,即使使用16的壓縮比,壓縮模型在仍表現出較好的效果,接近甚至超越了基線模型。

      2、VICO數據集的有效性:

      Video-XL使用不同數據集訓練了四個模型:(a) 僅使用Bunny 695k;(b) Bunny 695k結合NeXTQA 32k;(c) Bunny 695k結合CinePile 10k;(d) Bunny 695k結合長視頻字幕5k;(e) Bunny 695k結合VICO 5k。值得注意的是,即使僅使用5k的VICO數據,Video-XL也超過了使用NeXTQA 32k訓練的模型。此外,主要事件/動作排序任務比字幕生成任務帶來了更顯著的提升,因為它促使模型從長序列中提取關鍵片段并進行理解。

      (四)可視化結果

      △圖三 Video-XL 在長視頻理解任務上的可視化結果

      目前。Video-XL的模型代碼均已開源,以促進全球多模態視頻理解研究社區的合作和技術共享。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    国产成人精品免费在线| 亚洲东热激情| 国产女人18水真多18精品一级做| 国产日韩欧美在线| 午夜精品视频一区二区三区在线看| 日韩中文字幕免费视频| 国产精品久久九九| 亚洲人午夜精品天堂一二香蕉| 欧美日韩在线精品一区二区三区激情综合| 久久视频在线播放| 野花国产精品入口| 麻豆视频一区| 视频一区在线视频| 性欧美视频videos6一9| 成人精品一区二区三区校园激情| 偷拍一区二区| 国产精选一区二区| 国产精品美女久久久久aⅴ国产馆| 国产精品久久久久永久免费观看| 婷婷精品在线观看| 成人免费av资源| 青青草国产一区二区三区| 国产精品丝袜久久久久久app| 久久精品亚洲精品国产欧美kt∨| 亚洲缚视频在线观看| 成人免费电影网址| 精品久久久久久中文字幕动漫| 久久久夜夜夜| 香蕉视频国产精品| 亚洲男人天堂2019| 久久99国产精品成人| 专区另类欧美日韩| 国产亚洲欧美日韩精品| 久久一区二区三区四区五区| 亚洲人成在线播放网站岛国| 色综合天天综合网天天狠天天| 激情黄产视频在线免费观看| 欧美日韩中文字幕一区二区| 精品国产乱码久久久久久1区2匹| 日韩啊v在线| 欧美黄色一级视频| 青娱乐极品盛宴一区二区| 在线视频欧美日韩| 欧美一级免费大片| 久久er99热精品一区二区| 成人1区2区| 偷拍自拍亚洲色图| 精品国精品国产自在久国产应用| 免费一级欧美片在线播放| 亚洲一区二区三区四区五区中文| 国产精品久久久久aaaa九色| 俺去亚洲欧洲欧美日韩| 制服丝袜激情欧洲亚洲| 国产在线观看a| 精品久久久久久亚洲综合网| 欧洲不卡av| 久久精品免费观看| 国产精品入口免费视| 亚洲同志男男gay1069网站| 7777kkkk成人观看| 美女尤物在线视频| 一区二区三区日韩欧美| 丝袜连裤袜欧美激情日韩| 蜜桃在线一区二区三区| 一区二区三区四区不卡视频| a√在线中文网新版址在线| 99精品国产91久久久久久| 欧美激情免费视频| 国内精品久久久久久久久电影网| 久久久久久久久久久黄色| 亚洲一区二区欧美日韩| 亚洲免费综合| 粉嫩久久久久久久极品| 国产视频一区二区| 成人午夜在线观看视频| 欧美成人午夜剧场免费观看| 久久久久久久| 久久本道综合色狠狠五月| 国产精品极品美女在线观看免费| 亚洲第一页中文字幕| 欧美日韩成人精品| 黄色影院在线看| 制服丝袜亚洲色图| 久久视频在线免费观看| 91麻豆精品秘密| 视频在线日韩| 久久99热精品| 日韩免费三级| 亚洲精品美女在线观看| 97se狠狠狠综合亚洲狠狠| 国产一区中文字幕| 亚洲国产日韩综合久久精品| 成人激情校园春色| 亚洲国产片色| 久久综合九色综合欧美狠狠| 亚洲欧美另类人妖| 欧美天堂影院| 97国产真实伦对白精彩视频8| 亚洲一级免费视频| 91ph在线| 日韩免费看片| 动漫3d精品一区二区三区乱码| 国产乱码一区| 亚洲国产日韩在线一区模特| 欧美中文字幕| 欧美日韩在线综合| 日本电影一区二区三区| 瑟瑟视频在线| 国产婷婷色综合av蜜臀av| 久久婷婷亚洲| 欧美日韩综合久久| 欧美xingq一区二区| 亚洲精品视频中文字幕| 欧美在线视频免费播放| 成人高清免费在线| 精品一区二区三区视频在线观看| 国产成人激情视频| 国产91精品一区二区绿帽| 日本在线一区二区三区| 国产素人视频在线观看| 亚洲精品永久免费| 免费看黄色91| 国产在线观看免费麻豆| 国产偷v国产偷v亚洲高清| 欧美福利视频网站| 欧美—级a级欧美特级ar全黄| 在线观看亚洲成人| 日日嗨av一区二区三区四区| 亚洲婷婷伊人| 91久久精品日日躁夜夜躁国产| 97成人在线视频| 波多野结衣一区二区三区| 久久久久久久亚洲精品| 青青久久av北条麻妃海外网| 亚洲欧美国产视频| 91视频91自| 亚洲黄色毛片| 国产精品美女久久久久久2018| 精品高清视频| 久久躁狠狠躁夜夜爽| 成人婷婷网色偷偷亚洲男人的天堂| 欧美日韩国产精选| 日韩高清一级| 国产精品亲子伦av一区二区三区| 国产成人亚洲综合色影视| 国产精品186在线观看在线播放| 久久久久www| 大陆成人av片| 清纯唯美亚洲激情| 日本精品600av| 欧美日韩午夜视频在线观看| 91在线国内视频| 日本亚洲免费观看| 一区二区三区四区视频免费观看| 亚洲福利视频网站| 久久人人爽爽人人爽人人片av| 欧美精品少妇一区二区三区| 91久久综合| 国产亚洲精品久久久久久牛牛| 亚洲色无码播放| 视频一区视频二区视频三区视频四区国产| 欧美中文字幕一二三区视频| а√天堂中文资源在线bt| 在线精品一区|