殺瘋了!一夜之間,全球最強端側多模態模型再次刷新,僅用8B參數,擊敗了多模態巨無霸Gemini Pro、GPT-4V。而且,其OCR長難圖識別刷新SOTA,圖像編碼速度暴漲150倍。這是國產頭部大模型公司獻給開發者們最浪漫的520禮物。
拳打GPT-4V,腳踢Gemini Pro,僅僅8B參數就能擊敗多模態大模型王者。
今天,這個全球最強端側多模態模型徹底「殺瘋了」!
眾所周知,端側模型是AI發展的大趨勢——從微軟、谷歌再到蘋果和英特爾,全球科技巨頭都在爭搶在PC和手機等端側場景的AI落地。
但萬萬沒想到的是,端側模型的性能竟然可以這么猛,進化速度竟然可以這么快!
更令人驚喜的是,它不是來自國外大廠,而是出自國內大模型研發實力最頭部的公司面壁智能——他們最新打造了面壁小鋼炮MiniCPM-Llama3-V 2.5。
而且,選擇在今天520這個特殊的日子推出,據說是送給開源社區的情人節禮物,簡直浪漫的不像個科技公司~

MiniCPM-Llama3-V 2.5開源地址:
https://github.com/OpenBMB/MiniCPM-V
MiniCPM系列開源地址:
https://github.com/OpenBMB/MiniCPM
Hugging Face下載地址:
https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5
那么這個小鋼炮究竟有多強?何以能擔當得起全球最強端側多模態模型的稱號?
總結來講,MiniCPM-Llama3-V 2.5不僅支持30+多種語言,而且還具備:
最強端側多模態綜合性能:超越多模態巨無霸Gemini Pro、GPT-4V;
OCR能力SOTA!9倍像素更清晰,難圖長圖長文本精準識別;
圖像編碼快150倍!首次端側系統級多模態加速。
下面這張圖反映了在全球范圍內,小參數、高性能的多模態大模型已經成為趨勢;
而其中最亮眼的一顆星正是面壁小鋼炮MiniCPM-Llama3-V 2.5。
MiniCPM-Llama3-V 2.5用實力證明了——模型不是只有「參數越大才能性能越好」,而是可以用最小參數撬動最強性能!

另外隨著大模型參數愈益降低、端側算力愈益增強,高性能端側模型勢頭強勁。
而手機、PC等智能終端設備因其高頻的影像視覺處理需求,對在端側部署AI模型提出了更高的多模態識別與推理能力要求。
從面壁「小鋼炮」三月三級跳的迅猛進化來看,推動推理成本大幅降低、大模型高效落地,勝利在望。
OCR能力SOTA+最強端側多模態
8B端側模型,超越GPT-4V、Gemini Pro
這一次,MiniCPM-Llama3-V 2.5以8B端側模型參數量級,貢獻了驚艷的 OCR(光學字符識別)SOTA成績,以及端側模型中的最佳多模態綜合成績與幻覺能力水平。

模型雷達圖,MiniCPM-Llama3-V 2.5綜合能力水平全面優秀
在綜合評測權威平臺OpenCompass上,MiniCPM-Llama3-V 2.5以小博大,綜合性能超越多模態巨無霸GPT-4V和Gemini Pro。

OCR(光學字符識別)是多模態大模型最重要的能力之一,也是考察多模態識別與推理能力的硬核指標。
新一代MiniCPM-Llama3-V 2.5 在OCR綜合能⼒權威榜單OCRBench上,越級超越了Claude 3V Opus、Gemini Pro等標桿模型,實現了性能SOTA。

在評估多模態大模型性能可靠性的重要指標——幻覺能力上,MiniCPM-Llama3-V 2.5在Object HalBench榜單上超越了GPT-4V等眾多模型(注:目標幻覺率應為0)。

在評估多模態模型的基本現實世界空間理解能力的RealWorldQA榜單上,MiniCPM-Llama3-V 2.5再次超越GPT-4V和Gemini Pro,這對8B模型而言難能可貴。

快150倍!首次端側系統級加速
支持30+多語言,擁抱世界開源社區
首次進行端側系統級加速,MiniCPM-Llama3-V 2.5已高效部署手機。
在圖像編碼方面,面壁首次整合NPU和CPU加速框架,在MiniCPM-Llama3-V 2.5圖像編碼方面實現了150倍加速提升。
在語言模型推理方面,目前開源社區的報告結果顯示,Llama 3語言模型在手機端側的解碼速度在0.5 token/s上下,相比之下,多模態大模型的端側運行面臨著更大的效率挑戰,經過CPU、編譯優化、顯存管理等優化方式,面壁將 MiniCPM-Llama3-V 2.5在手機端的語言解碼速度提升到3-4 token/s。
目前,語言模型的圖像編碼加速也在進行中,更靈敏互動體驗即將到來。

(此處GIF為2倍速演示,面壁正進一步加速優化中)

(此處GIF為2倍速演示,面壁正進一步加速優化中)
有別于常見的中英雙語模型,MiniCPM-Llama3-V2.5可支持30+多種語言,
包括德語、法語、西班牙語、意大利語、俄語等主流語言,基本覆蓋一帶一路國家。
基于自研的跨語言泛化技術,僅通過少量翻譯的多模態數據的指令微調,就可對多語言多模態對話性能高效泛化。
現在,上百個國家的幾十億人口,終于可以自如使用母語和端側大模型交流,不再游離于前沿科技發展的主線,也因此享有更多AI應用落地、生活品質提升與參與科技角逐的可能性。真正讓更多人享受大模型的樂趣!

多語言案例展示(語言加速工作正在進行,此處為2倍速)

多語言版本LLaVABench評測結果,MiniCPM-Llama3-V 2.5對話能力更勝一籌
9倍像素更清晰
難圖長圖長文本精準識別
OCR技術進一步打磨,復雜推理與多模態識別能力再進化,MiniCPM-Llama3-V 2.5對于難圖、長圖、長文本的精準識別,再度帶來出眾表現!
面壁自研高清圖像高效編碼技術,可以高效編碼及無損識別180萬高清像素圖片,并且支持任意長寬比、甚至「有點變態」的1:9極限比例圖像,突破了傳統技術僅能識別20萬像素小圖的瓶頸。
此前,MiniCPM-V系列多模態模型就因對于街景、長圖等困難場景的高效解析,贏得了良好口碑。

技術升級,MiniCPM-Llama3-V 2.5在復雜推理能力上進一步突破?筛玫厣钊攵床靾D像,在更復雜、更接近人類的水平上進行思考和解決問題,堪稱大模型中的「小福爾摩斯」。
復雜推理能力使得模型不僅能理解單的文本或圖像等模態信息,還能跨越不同模態間的綜合信息,做出更準確和深入的分析。
比如給定一張充滿繁密字跡的建筑風景圖,難以人眼辨別,但MiniCPM-Llama3-V 2.5能夠一眼看懂其中的《三體》主題,還能正確推理出這些建筑是為了紀念《三體》及其對中國科幻文學的貢獻而設計,令人會心一笑。
把同樣的問題拋給GPT-4V,結果并不理想。
另外,識別包含復雜邏輯的流程圖是多模態模型推理能力的直觀體現,MiniCPM-Llama3-V 2.5不僅能夠輕松看懂流程圖中不同模塊的文字、箭頭之間的空間位置和復雜邏輯關系,還能給出清晰易懂的解釋說明。


給媽媽轉發一張亞洲飲食金字塔圖,但她讀不懂英文?
MiniCPM-Llama3-V 2.5憑借出色的推理能力,不僅深入理解分析圖像里的飲食類型和分布,還能洞察背后的營養均衡需求,進行智能化搭配組合,直接一次性用中文推薦出滿滿一周的三餐食譜。


全文OCR能力方面,結構化信息提取能力的提升,對于長圖長文本的精準識別大有幫助。
例如輸入一張包含稠密信息的長文長圖,MiniCPM-Llama3-V 2.5一字不差地識別出了全文。

上下滑動查看

再給一張要翻閱好幾屏的圖文復雜交錯的長圖難圖長文本,MiniCPM-Llama3-V 2.5 也能精準給出正確的回答。

上下滑動查看

再輸入一張手機拍攝的火車票,MiniCPM-Llama3-V 2.5 也能準確提取信息,給出無誤的「json」格式輸出。

最后,面壁是開源社區的熱心貢獻者,也是受益者。
本次MiniCPM-Llama3-V 2.5的飛躍表現依托于面壁團隊對多模態技術的創新打磨,更離不開Llama3-8B-Instruct作為基座模型的性能基礎。
感謝世界優秀同行的卓越工作,令我們站在彼此的肩膀上,伸手摘星,指向更高、更璀璨的科學無垠之處。
我們也將持續回報社區,開源更多優秀模型、數據、infra工具等,將開源開放的星火播撒世界協作創新之蒼穹。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。