今天凌晨2點,著名大模型平臺Anthropic發布了首個雙思維模型——Claude3.7Sonnet。
Claude3.7提供了標準和擴展兩種思考模式:標準思考是無需進行復雜的推理過程,就能立刻提供答案,例如,當用戶詢問“巴黎的埃菲爾鐵塔有多高?”,會迅速給出324米。
擴展思維則提供復雜的推理過程,會展示詳細的推理思維鏈,用戶可以清晰地看到模型是如何逐步分析問題、應用邏輯,非常適合數學、生物等科研領域,還能通過API精準控制模型的思考時間。
根據SWE Bench測試數據顯示,Claude3.7在代碼能力方面大幅度超過了DeepSeek-R1、OpenAI的o1、o3模型,MMMLU、Math500等同樣表現出色。此外,Anthropic還發布了一個專用于代碼Agent Claude Code。
擴展思維簡單介紹
Claude3.7的擴展思考模式核心在于模擬人類的思考過程。在面對復雜問題時,人類往往會通過逐步分析、邏輯推理和驗證來得出結論。允許模型在生成最終答案之前,通過一系列推理步驟深入思考問題。
在技術實現上,擴展思考模式主要通過強化學習訓練模型,使其能夠生成一系列推理步驟。這些步驟被封裝在一個“思考過程”(Thinking Process)的文本塊中,用戶可以在模型給出最終答案之前,看到這些推理步驟。
擴展思考模式可以顯著幫助Claude3.7Sonnet提升推理能力。例如,在解決復雜的數學問題時,模型的準確率顯著高于標準思考模式。此外,模型在邏輯推理和復雜分析任務中的表現也得到了顯著提升。
這種性能提升不僅體現在模型的最終答案上,還體現在其推理過程的質量上。模型能夠生成更詳細、更準確的推理步驟,幫助用戶更好地理解問題的解決方法。這種透明的推理過程不僅增強了用戶對模型輸出的信任,還為開發者提供了優化模型的依據。
擴展思考模式的另一個重要特點是其透明性。通過展示推理過程,可為用戶提供了更豐富的信息,不僅可以看到模型的最終答案,還可以看到其思考的每一步。這種透明性增強了用戶對模型輸出的信任,為開發者提供了優化模型的依據。
此外,擴展思考模式的透明性也為模型的安全性提供了額外的保障。通過監控模型的推理過程,開發者可以及時發現潛在的風險,并采取相應的措施。例如,如果模型在推理過程中表現出異常行為,開發者可以及時干預,防止模型生成有害內容。
Claude Code
Claude Code支持全自動化代碼開發,包括搜索和讀取代碼,幫助開發者快速定位和理解項目中的代碼邏輯。
例如,當開發者需要了解用戶登錄功能的實現邏輯時,Claude Code 能快速掃描整個代碼庫,精準定位到與用戶登錄相關的代碼文件和關鍵代碼段,并通過分析代碼中的注釋、函數命名和調用關系,幫助開發者迅速理解這部分代碼的邏輯。
可以對文件進行編輯,無論是修改現有代碼還是添加新功能都能勝任;編寫并運行測試,及時發現代碼中的潛在問題,確保代碼質量;
還能將代碼提交并推送到 GitHub 的功能,方便開發者進行版本管理,在整個執行過程中,Claude Code會讓開發者隨時了解每一步的進展情況。
目前,Claude Code還處于預覽階段,在測試驅動開發、調試復雜問題以及大規模重構等方面,已經在 Anthropic 內部成為重要開發工具。在早期測試中,Claude Code 表現非常出色,能夠一次性完成通常需要45分鐘以上手動代碼任務,極大縮短了開發時間,減少了開發成本。
目前,Claude3.7Sonnet 已在包括免費版、專業版、團隊版和企業版的所有套餐中上線,支持Anthropic API、亞馬遜 Bedrock 和谷歌云 Vertex AI 平臺。
除免費版外,其他版本均提供擴展思考模式。在標準和擴展思考模式下,Claude3.7Sonnet 的定價與之前的版本保持一致,輸入每百萬token收費3美元,輸出(包括思考token)每百萬token收費15美元。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。