Anthropic 公司在北京時間 5 月 23 日 0 點 30 分舉辦的活動中,推出了 Claude Opus 4 和 Claude Sonnet 4 新一代語言模型,在結構化推理、軟件工程和自主代理行為等領域實現重大進步。

Claude Opus 4 被定位為 Anthropic 迄今最強大的模型,專為處理復雜的推理流程和軟件開發場景設計。
測試數據顯示,該模型在 SWE-bench 基準測試(評估模型解決真實 GitHub 問題的能力)中準確率達到 72.5%;在 TerminalBench 測試(在多步驟終端代碼生成任務中驗證模型表現)中準確率為 43.2%。

更令人矚目的是,Opus 4 在軟件環境中展現出強大的自主行為,得益于改進的內存管理、更廣泛的上下文保留以及更強大的內部規劃機制,據 Rakuten 測試數據,可連續進行近 7 小時的代碼生成和任務執行,刷新 AI 世界紀錄,遠超前代 Claude 3 Opus(不到 1 小時)。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。