4月30日,國內權威大模型評測機構SuperCLUE發布《中文大模型基準測評2024年度4月報告》,報告選取國內外具有代表性的32個大模型在4月份的版本,通過多維度綜合性測評,真實反映大模型通用能力。報告顯示,云知聲山海大模型在4月評測中取得總分69.51的優異成績,躋身國內大模型Top10;與GPT-4的對戰中,山海綜合勝率與和率為75.55%,超越MiniMax、訊飛星火等大模型。


SuperCLUE作為國內權威通用大模型綜合性測評基準,其前身可追溯至第三方中文語言理解評估基準CLUE(The Chinese Language Understanding Evaluation)。自2019年成立以來,CLUE基準一直致力于提供科學、客觀、中立的語言模型評測,其先后推出了CLUE、FewCLUE、KgCLUE、DataCLUE等多個被廣泛認可的評估標準。根據CLUE多年測評經驗,SuperCLUE基于通用大模型在學術、產業與用戶側的廣泛應用,構建了多層次、多維度的綜合性測評基準。
作為一個完全獨立的第三方評測機構,SuperCLUE采用自動化評測技術,有效消除人為因素帶來的不確定性,確保提供無偏倚的客觀評測結果。為確保與真實用戶體驗一致,SuperCLUE納入了開放主觀問題的測評,通過多維度多視角多層次的評測體系以及對話的形式,真實模擬大模型應用場景,真實有效考察模型生成能力。同時,通過構建多輪對話場景,更深層次考察大模型在真實多輪對話場景的應用效果,對大模型的上下文、記憶、對話能力全方位評測。
本次評測題目為多輪開放式簡答題,評測集共2194題,涵蓋計算、邏輯推理、代碼、工具使用、知識百科、語言理解、長文本、角色扮演、生成與創作、安全十大基礎任務。
評測數據顯示,云知聲山海大模型總分為69.51,躋身國內大模型Top10。值得一提的,在具有產業落地意義的長文本能力上,山海大模型取得了68.2分的優異成績,位列全球大模型第四、國內大模型第三。


此外,為真實反應通用大模型與產業應用之間的差距,引導大模型提升技術落地效果,在通用能力基礎上更好進行垂直領域的應用,SuperCLUE基于基礎能力和應用能力兩個維度,構建了大模型四個象限,分別代表潛力探索者、技術領跑者、實用主義者、卓越領導者,以此區分大模型所處的不同階段與定位。象限圖顯示,山海大模型被歸類為實用主義者,這意味著其在場景應用上處于領先地位。

文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。