近日,一項基于大學水平考試的多模態AI測試基準MMMUs發布,旨在評估機器在廣泛多樣的任務上的專家級多模態理解和推理能力。這一基準對當前最先進的GPT-4V等模型提出挑戰,通過涵蓋藝術與設計、商科、科學、健康與醫學、人文與社會科學、技術與工程等六個學科的30個科目,共有1.15萬個問題,考察了感知、知識和推理等基本技能。
MMMUs的問題涵蓋了大學考試、測驗和教科書,由50位來自不同學科的大學生收集,涉及了多種圖像格式,從照片和繪畫到圖表和表格。這使得該基準不僅考察了常識和日常知識,還注重專業領域知識和高級推理。此外,MMMUs具有文本和圖像混合的輸入,要求AI模型在處理這種混合信息時展現深度學科知識和執行復雜推理的能力。
在實驗評估中,MMMUs展現出極大的難度,即使是當前最先進的GPT-4V也僅在55.7%的問題上取得準確答案,表明AI技術在這一領域仍有巨大的改進空間。通過這一基準的構建和評估,研究團隊為進一步推動人工智能系統的發展和深入研究提供了有力的工具和參考。
總體而言,MMMUs作為一項全面、具有挑戰性的多模態AI測試基準,為評估專家級AGI的發展提供了新的視角和標準。這將有助于推動人工智能領域的發展,引領未來人工智能系統在多學科、多模態任務上取得更為卓越的成就。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。