OpenAI 公司于 8 月 13 日發布新聞稿,宣布推出 SWE-bench Verified 代碼生成評估基準,解決了此前的局限性問題,能夠更準確地評估人工智能模型在軟件工程任務中的表現。
SWE-bench
注:SWE-Bench 是一個用于評估 LLM 解決 GitHub 上真實軟件問題能力的基準測試數據集。
它收集了來自 12 個流行的 Python 倉庫的 2294 個 Issue-Pull Request 對。在測試時,LLM 會拿到一個代碼庫和 issue 描述,然后生成一個補丁來解決 issue 描述的問題。
該基準使用兩種類型的測試:
FAIL_TO_PASS 測試用于檢查問題是否已得到解決
PASS_TO_PASS 測試用于確保代碼更改不會破壞現有功能。
SWE-bench 的問題
OpenAI 指出了 SWE-bench 的三個主要問題:
單元測試過于嚴格:用于評估解決方案正確性的單元測試往往過于具體,有時甚至與問題無關,這可能導致拒絕正確的解決方案。
問題描述不明確:許多樣本的問題描述不夠具體,導致問題是什么以及應如何解決含糊不清。
開發環境難以設置:有時很難可靠地為代理設置 SWE-bench 開發環境,從而無意中導致單元測試失敗。
SWE-bench Verified
SWE-bench Verified 的主要改進之一是使用容器化 Docker 環境開發了新的評估工具包。
這一改進旨在使評估過程更加一致和可靠,降低與開發環境設置相關的問題發生的可能性。
例如,GPT-4o 解決了 33.2% 的樣本,而表現最佳的開源代理框架 Agentless 的得分翻了一番,達到 16%。
性能的提高表明,SWE-bench Verified 更好地捕捉到了人工智能模型在軟件工程任務中的真正能力。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。