今日,字節跳動豆包大模型團隊宣布,正式開源首個多語言類SWE數據集Multi-SWE-bench,可用于評估和提升大模型自動修 Bug”能力。
在SWE-bench基礎上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言(Java、Go、Rust、C、C、TypeScript、JavaScript),是真正面向全棧工程”的評測基準。
Multi-SWE-bench包含1632個實例,均來自GitHub issue,并經過統一的測試標準和專業開發者的審核篩選,確保每個樣本具備清晰的問題描述、正確的修復補丁以及可復現的運行測試環境。
豆包大模型團隊希望,Multi-SWE-bench能作為大模型在多種主流編程語言與真實代碼環境中的系統性評測基準,推動自動編程能力向更實用、更工程化的方向發展。
團隊表示,相比于以往聚焦Python的單語言任務,Multi-SWE-bench更貼近現實中的多語言開發場景,也更能反映當前模型在自動化軟件工程”方向上的實際能力邊界。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。