繼去年發布并開源VisualGLM-6B和CogVLM之后,智譜AI宣布近期將推出新一代多模態大模型CogVLM2。這款模型以其19B的參數量,在性能上接近或超越了GPT-4V。
據悉,CogVLM2系列模型在多個關鍵指標上實現了顯著提升,如在 OCRbench 基準上性能提升32%,在TextVQA基準上性能提升21.9%,且模型具備了較強的文檔圖像理解能力(DocVQA)等。此外,CogVLM2支持8K文本長度和高達1344*1344的圖像分辨率,同時提供中英文雙語的開源模型版本。

CogVLM2 繼承并優化了上一代模型的經典架構,采用了一個擁有50億參數的強大視覺編碼器,并創新性地在大語言模型中整合了一個70億參數的視覺專家模塊。這一模塊通過獨特的參數設置,精細地建模了視覺與語言序列的交互,確保了在增強視覺理解能力的同時,不會削弱模型在語言處理上的原有優勢。這種深度融合的策略,使得視覺模態與語言模態能夠更加緊密地結合。
值得注意的是,盡管CogVLM2的總參數量為190億,但實際激活的參數量僅約120億,這得益于精心設計的多專家模塊結構,顯著提高了推理效率。此外,CogVLM2能夠支持高達1344分辨率的圖像輸入,并引入了專門的降采樣模塊,以提高處理高分辨率圖像的效率。
在多模態基準測試中,CogVLM2的兩個模型,盡管具有較小的模型尺寸,但在多個基準中取得 SOTA性能;而在其他性能上,也能達到與閉源模型(例如GPT-4V、Gemini Pro等)接近的水平。

開發者可以通過GitHub、Huggingface、魔搭社區和始智社區下載CogVLM2的模型,團隊還透露,GLM新版本會內嵌CogVLM2能力,在智譜清言App和智譜AI大模型MaaS開放平臺上線。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。