国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

  • 首頁 > 云計算頻道 > 大模型

    Claude 3.5深夜覺醒,學會模仿人類用電腦!編程干翻o1,Agent一夜變天

    2024年10月23日 09:53:51 來源:新智元公眾號

      太科幻了,深夜上線的Claude,可以像人類一樣使用計算機了?查看屏幕、移動光標、點擊按鈕、輸入文本,還能查找代碼錯誤、自動搜集信息填表。AI推理已至瓶頸,下一個爆破點,就是AI操作電腦!

      Claude3.5深夜迎來重磅升級!

      不出所料,Anthropic AI這周終于有了大動作——首發Claude3.5Haiku,全新升級版Claude3.5Sonnet也來了。

      不過,「超大杯」Opus依然沒有亮相。

      讓人驚艷的是,進化后的Claude3.5Sonnet一舉擊潰OpenAI o1,堪稱最強推理模型。

      它在各個方面得到了全面顯著的提升,尤其是業界領先的編碼能力。

      而Claude3.5Haiku與上一代最強Claude3Opus性能相當,成本、速度與上一代Haiku相近。

      甚至,Claude現在能夠像人類一樣操作計算機,不僅可以查看屏幕、移動光標,還可以單機按鈕、鍵入文本!

      Anthropic開發者關系主管表示,「計算機使用」是全新人機交互范式的第一步。同時也是,AI模型應該具備的全新基礎能力。

      許多做瀏覽器智能體的初創公司,一夜之間過時了。

      網友們紛紛感嘆:Agent和工作流都要變天了……

      會自己用電腦的AI來了?

      在公測中,Anthropic引入一項突破性的新功能:計算機使用能力。從今天起,開發者可以通過API,指導Claude像人類一樣使用計算機了。

      Claude3.5Sonnet是首個在公測中提供此功能的模型。

      當然,這項功能仍處于實驗階段,使用起來還有些笨拙,可能出錯。而Anthropic選擇提前發布此功能,也是為了獲得開發者反饋,將之快速改進。

      為什么要訓練AI操作電腦?

      Anthropic表示,在過去幾年里,強大的AI開發已經達到了許多里程碑,比如執行復雜邏輯推理,以及識別和理解圖像的能力。

      而下一個突破點,就是AI操作電腦了!如果模型不必通過專門定制的工具進行交互,而是按指示就能使用所有軟件,這一定代表著未來的方向。

      基本電腦操作

      在這個demo中,Anthropic研究員給Claude提出了一個極有難度的挑戰:

      我的朋友要來舊金山,我想明天早上和他一起在金門大橋看日出。我們將從太平洋高地出發。你能幫我們找到一個絕佳的觀賞地點,查看一下開車時間和日出時間,然后安排一個日歷活動,讓我們有足夠的時間到達那里嗎?

      Claude自行打開了Google,開始了搜索。

      金門大橋和用戶居住地有多遠呢?Claude會自己打開地圖查找距離。

      了解所需信息之后,它打開了日歷,為主人安排好了日程。

      自動編碼寫網站

      開發者展示出Claude如何操控了自己的筆記本電腦,絲滑地完成了一個網站編程任務。

      首先,Claude在小哥的Chrome瀏覽器中導航到了Claude.ai,并且讓Claude為自己創造了一個90年代主題的個人主頁。

      只見它自己輸入網址,鍵入提示,向另一個Claude發出請求。

      Claude.ai返回了一些代碼,渲染出來的畫面看起來很不錯,但小哥希望在自己的電腦本地上對網站做一些修改。

      于是他讓Claude下載文件,然后在VS Code中將其打開。Claude成功完成了這些指令。

      然后小哥讓Claude啟動了一個服務器,然后就可以在瀏覽器中實際查看這個文件了。

      Claude打開了VS Code終端,嘗試啟動一個服務器,然后卻遇到了錯誤:機子上并沒有安裝Python。

      結果,通過查看終端輸出,Claude自己發現了這個問題!它用Python3再次嘗試,成功運行起了服務器。

      不過,終端輸出中有個錯誤,頂部還缺少了一個文件圖標。開發者小哥請Claude來識別這個錯誤,在文件中修復它。

      令人驚喜的是,Claude在VS Code中找到了引發錯誤的行,刪除了整行,然后保存文件、重新運行網站。

      這次,網站完全正確!

      自動尋找數據填表

      假設我們需要填寫一份來自「螞蟻設備公司」的供應商請求表,但需要填寫的數據散步在電腦的各個角落,Claude能幫我們完成嗎?

      只見它開始截取小哥的屏幕截圖,并且很快發現:螞蟻設備公司并不在表格中。

      這時,它立刻切換到CRM系統中,去搜索這個公司。找到后,它開始滾動頁面,查找填表所需的所有信息,然后提交了表格。

      這也就意味著,我們工作中許多不得不做的繁瑣事項,都可以交由Claude代勞了!

      現在,這個功能已經在API中可用了。

      現在,Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等多家知名公司,已經在探索Claude的新潛能,讓它們執行數十步甚至數百步的復雜任務了。

      比如,Replit正在利用Claude3.5Sonnet的計算機使用和用戶界面導航能力,為Replit Agent開發功能,在構建應用程序過程中對其實時評估。

      遠低于人類,但未來可期

      新升級后的Claude3.5Sonnet,電腦使用能力究竟如何?

      在 OSWorld測試中,它在僅基于屏幕截圖的任務類別中得分為14.9%,明顯超越了排名第二的AI系統(7.8%)。

      當允許更多操作步驟來完成任務時,Claude得分提高到了22.0%。

      這表明模型與環境的多次交互,能夠優化任務性能。

      雖然這一結果比之前有了大幅提升,但仍然遠低于人類72.36%的表現。

      這也暗示了,Claude3.5Sonnet未來還有很大的改進空間。

      畢竟,人類毫不費力完成的一些操作(滾動、拖動、縮放),目前對于Claude來說極具挑戰。

      升級版Claude3.5Sonnet,編碼王者干翻o1

      在各項行業基準測試中,升級版Claude3.5Sonnet性能得到了全方位提升。

      特別是,智能體編碼、工具使用任務中取得顯著突破。

      在編碼能力方面,它在SWE-bench Verified測試中,性能從33.4%大幅提升至49.0%。

      這超越了所有公開可用的模型——包括OpenAI o1-preview等推理模型和專為智能體編碼設計的專門系統。

      此外,在TAU-bench(一項評估智能體工具使用能力的基準測試)中,Claude3.5Sonnet也表現出色:

      在零售領域的得分從62.6%提高到69.2%,在更具挑戰性的航空領域則從36.0%躍升至46.0%。

      從下表中,可以看出推理測試基準GPQA(Diamond)上,新版Claude3.5Sonnet大幅超越GPT-4o。

      在視覺QA、數學推理、文檔視覺問答、圖表問答、科學表格基準測試中,Claude3.5Sonnet性能成為業界新標桿。

      值得一提的是,新版Claude3.5Sonnet性能突破同時,仍保持了與前代模型相同的價格和運行速度。

      一些早期測試用戶的反饋,進一步印證了升級后Claude3.5Sonnet,在AI驅動編碼領域實現「質」的飛躍。

      GitLab:在DevSecOps任務測試中,發現Claude3.5Sonnet在不增加延遲的前提下,推理能力顯著提升(各用例最高提升10%),使其成為驅動復雜軟件開發流程的理想選擇

      Cognition:將新版Claude3.5Sonnet應用于自主AI評估,在編碼、規劃和問題解決等方面,相較前代模型均取得了實質性進步

      The Browser Company:在使用該模型自動化網絡工作流程時發現,Claude3.5Sonnet的表現超越了他們此前測試過的所有模型

      此外,在安全部署前,Claude3.5Sonnet已經在美國AI安全研究所(US AISI)和英國安全研究所(UK AISI)進行了聯合測試。

      而且,經過自身評估,Anthorpic在「Responsible Scaling Policy」中制定的ASL-2標準仍然適用于新模型。

      如前所述,升級版的Claude3.5Sonnet現在已經可以在網頁、終端APP上使用了。

      API的定價起始為每百萬輸入Token3美元每百萬輸出Token15美元。

      通過使用智能緩存技術可節省高達90%的成本,而使用批處理API則可節省50%成本。

      應用場景

      Claude3.5Sonnet能夠理解細微的指令和上下文,識別并糾正自身錯誤,還能從復雜數據中生成深入的分析和洞察。結合最先進的編碼、視覺識別和寫作能力,Claude3.5Sonnet可以被應用于各種場景。

      - 模擬人類操作電腦

      通過API集成Claude,開發者可以指導Claude像人類一樣使用電腦——通過觀察屏幕、移動鼠標、點擊按鈕和鍵入文字。Claude3.5Sonnet是首個能夠以這種方式可靠使用電腦的前沿AI模型,雖然目前在公開測試階段仍具實驗性質,但其能力會隨時間持續提升。

      - 代碼自動生成

      Claude3.5Sonnet可以協助整個軟件開發生命周期——從初始設計到錯誤修復,從系統維護到性能優化?梢灾苯訉⑺患傻疆a品中,或通過Claude.ai平臺將其用作智能編碼助手。

      - 智能對話系統

      憑借增強的推理能力和親和、自然的語氣,Claude3.5Sonnet非常適合開發需要跨系統連接數據并執行操作的智能對話系統。

      - 智能知識問答

      Claude3.5Sonnet具有大規模上下文處理能力和極低的幻覺率,使其成為處理大型知識庫、文檔和代碼庫問答任務的理想選擇。

      - 視覺信息提取

      Claude3.5Sonnet能夠輕松從圖表、圖形和復雜示意圖等視覺材料中提取信息——這使其成為數據分析和數據科學任務的理想人工智能模型。

      - 流程自動化

      Claude3.5Sonnet能夠實現重復性任務或流程的自動化。它具備業界領先的指令執行能力,能夠處理復雜的流程和操作。

      全新Claude3.5Haiku,智能超越上代老大哥

      從上一代對標來看,Claude3.5Haiku稱得上是「最小杯」。

      這是Anthropic速度最快的模型。

      它不僅保持樂了與Claude3Haiku相同的運行成本和相近的處理速度,還在各項技能全面提升。

      甚至,在多項智能基準測試中,Claude3.5Haiku超越了上一代最強大的模型Claude3Opus。

      同樣,Claude3.5Haiku在編碼任務上的表現尤為卓越。

      比如,在SWE-bench Verified測試中,它取得了40.6%的高分,超越了許多使用公開可用的最先進模型的AI智能體——包括原始版本的Claude3.5Sonnet和GPT-4o

      Claude3.5Haiku具備了三點突出優勢:

      1. 低延遲響應

      2. 更精準的指令執行能力

      3. 更準確的工具使用

      這些特性使得模型特別適用于,面向用戶的產品開發、專門的子智能體任務處理、基于海量數據(如購買記錄、價格信息或庫存數據)生成個性化體驗。

      本月末,Claude3.5Haiku將在多個平臺上推出,包括Anthropic API、Amazon Bedrock和谷歌云的Vertex AI。(最初會以純文本模型形式推出,隨后會加入圖像輸入功能)

      Claude3.5Haiku的定價起始為每百萬輸入Token0.25美元每百萬輸出Token1.25美元。

      通過使用提示詞緩存技術可節省高達90%的成本,而使用消息批處理API則可節省50%的成本。

      應用場景

      憑借快速的處理速度、改進的指令執行能力和更準確的工具使用,Claude3.5Haiku非常適合面向用戶的產品、專門的輔助任務,以及從海量數據中生成個性化體驗。

      - 代碼自動補全

      Claude3.5Haiku能夠提供快速、準確的代碼建議和補全,有效加速開發工作流程。特別適合那些希望簡化編碼過程并提高生產力的軟件開發團隊。

      - 智能聊天機器人

      借助增強的對話能力和快速的響應時間,Claude3.5Haiku在驅動能處理大量用戶互動的響應式聊天機器人方面表現出色。對于需要可擴展互動能力的客戶服務、電子商務和教育平臺來說,它尤其有價值。

      - 數據提取和自動標注

      Claude3.5Haiku能高效處理和分類信息,在快速數據提取和自動標注任務中表現優異。這一能力對于需要處理金融、醫療保健和研究領域大量非結構化數據的組織特別有用。

      - 自動實時內容審核

      Claude3.5Haiku通過其改進的推理和內容理解能力,提供可靠、即時的內容審核服務。這對于那些需要大規模維護安全、適當內容的社交平臺、在線社區和媒體組織來說極具價值。

      如何教會Claude操作電腦

      Anthropic表示,人類輕松執行的操作——滾動、拖拽、縮放,目前對Claude來說仍然很有挑戰性。

      而對于垃圾郵件、虛假信息、欺詐這類風險,公司正在尋找安全部署的策略,比如開發了識別系統,檢測是否發生危害。

      研究過程

      Anthropic在工具使用和多模態的工作,為AI識別和解釋圖像奠定了基礎。

      在此基礎上,Claude還需要推理如何以及何時根據屏幕內容執行操作。

      為此,研究者訓練Claude準確計算像素,從而完成命令,因為它必須計算出需要垂直或水平移動鼠標指針多少像素,才能點擊正確的位置。

      在此期間,Claude迅速將學習成功從計算器和文本編輯器這類簡單軟件的訓練中,遷移到了其他應用(注意,期間它不允許聯網)。

      這種訓練讓它能將用戶指令轉化為一系列邏輯步驟,執行操作。遇到障礙時,甚至還能自我糾正、重試任務。

      小插曲

      Anthropic開發者關系主管Alex Albert還分享了,團隊在開發計算機使用功能時的一個有趣故事。

      當時,他們舉行了一場工程師的bug bash(漏洞排查活動),以確保發現API所有潛在的問題。

      這意味著,要把一群工程師關在一個房間里幾個小時。

      當時,恰好大家都餓了。其中一位工程師靈機一閃,「不如讓Claude來個實戰演習,自主打開DoorDash幫我們訂餐」。

      沒想到,大約一分鐘后,Claude為工程師們定來了披薩。

      展望未來

      AI操作電腦能力代表了一種全新的人工智能開發方法。

      迄今為止,LLM開發者一直在努力使工具適應模型,創造特殊的環境,讓AI使用專門設計的工具來完成各種任務。

      現在,Anthropic「反其道而行之」——他們選擇讓模型去適應工具。也就是,Claude能像人類一樣,融入我們日常使用的計算機環境,直接使用現有的軟件。

      雖然Claude已經達到了當前的最高水平,但它的操作仍然相對緩慢且容易出錯。我們日常使用電腦時的許多操作,如拖拽、縮放等,Claude都還無法做到。

      此外,Claude目前觀察屏幕的方式類似于快速翻閱一本「畫冊」——通過連續截圖并拼接在一起,而不是觀察連續的視頻流。這意味著它可能會錯過一些短暫的動作或通知。

      有趣的是,Anthropic在錄制Demo時,還遇到了一些有趣的小插曲。

      比如,在一次演示中,Claude不小心點擊停止了一個長時間運行的屏幕錄制,導致所有錄像都付諸東流。

      而在另一次編碼演示中,Claude則突然「走神」,開始饒有興趣地瀏覽起黃石國家公園的照片。

      總之,Claude如今的表現讓人對未來充滿期待:AI操作電腦的能力將神速進步,那一天,軟件開發小白都能輕松使用它。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    日韩久久一区二区| 久久人人爽亚洲精品天堂| 欧美一级片免费在线| 国产成人精品一区二| 日本久久成人网| 啪一啪鲁一鲁2019在线视频| 手机在线电影一区| 日韩av影片| 久久久久久久久国产| aaa欧美色吧激情视频| 91传媒视频在线播放| 日本视频中文字幕一区二区三区| 91麻豆高清视频| 日韩aⅴ视频一区二区三区| 国产免费一区二区三区| 亚洲成人激情自拍| 亚洲成人精品视频| 国产一区二区日韩| 国产色爱av资源综合区| 亚洲黄色一区二区三区| 美女主播视频一区| 亚洲日本免费| 成人av在线影院| 久久影院在线观看| 国产一区91精品张津瑜| 久久久天堂国产精品女人| 欧洲在线视频| 亚洲精品一区二区在线观看| 欧美极品日韩| **精品中文字幕一区二区三区| 91国模大尺度私拍在线视频| 久草免费在线| 深爱激情久久| 国产成人aa在线观看网站站| 国产视频一区二区在线| 久久久精品中文字幕麻豆发布| 亚洲成人黄色影院| 一区二区三区在线观看免费| 韩国国内大量揄拍精品视频| 五月综合激情网| 91免费人成网站在线观看18| 欧美日韩视频在线播放| 91在线视频免费观看| 激情五月婷婷综合网| 欧美在线免费视频| 欧美一级二级三级视频| 粉嫩一区二区三区在线观看| 精品久久人人做人人爽| 欧美精彩视频一区二区三区| 日本不卡电影| 亚洲成人激情综合网| 亚洲一区导航| 亚洲欧美日韩精品久久久久| 中文在线播放一区二区| 欧美日韩一区二区在线视频| 成人在线播放免费观看| 另类激情视频| 亚洲国产日韩美| 国产精品视频白浆免费视频| 成人免费网站在线观看视频| 精品视频在线你懂得| 国产精品国产三级国产三级人妇| 成人av资源在线播放| 色综合中文字幕| 精品一区二区免费视频| 一本久久青青| 国产午夜精品久久| 激情懂色av一区av二区av| 亚洲自拍偷拍福利| 4438x亚洲最大成人网| 国产高清不卡一区二区| 亚洲女性喷水在线观看一区| 成人动漫一区二区| 欧美日韩亚洲丝袜制服| 国内外成人在线视频| 亚洲直播在线一区| 亚洲电影在线播放| 精品久久美女| 欧美刺激性大交免费视频| 欧美大片大片在线播放| 高清在线观看日韩| av电影天堂一区二区在线| 色哟哟在线观看一区二区三区| 日韩精品一二三| 97婷婷大伊香蕉精品视频| 国产精品久久亚洲不卡| 成人免费大片黄在线播放| a级片国产精品自在拍在线播放| 日韩精品久久理论片| 深夜福利一区二区三区| 欧美成年人视频网站| 亚洲精品中文字幕乱码三区| 久草在线视频网站| 91丝袜美腿美女视频网站| 不卡中文一二三区| 亚洲精品一区av在线播放| 91麻豆国产福利在线观看宅福利| 99精品小视频| 日本视频一区二区三区| 亚洲毛片播放| 亚洲女同同性videoxma| 亚洲视频日韩精品| 伊人久久亚洲热| 久久久精品久久久久久96| 成人黄色动漫| 日本韩国欧美| 在线观看免费视频你懂的| 一区二区三区动漫| 中文字幕一区二区日韩精品绯色| 日韩欧美国产麻豆| 久久狠狠亚洲综合| 国产精品天天看| 日韩精品在线网站| 亚洲精华国产欧美| 欧美日韩一区国产| 成年人在线视频| 久久久美女艺术照精彩视频福利播放| 国产精品久久毛片av大全日韩| 中文字幕二三区不卡| 日韩欧美国产三级| 免费成人深夜夜行视频| 国内外成人在线视频| 欧美欧美在线| 日韩精品一区在线观看| 在线一级成人| 欧美二区观看| 国产精品99久久| 国产亚洲视频系列| 日韩在线三区| 亚洲国内高清视频| 在线观看爽视频| 国模冰冰炮一区二区| 久久久综合激的五月天| 欧美日韩精品综合在线| 石原莉奈一区二区三区在线观看| 亚洲国产专区校园欧美| 久久久久国产精品人| 亚洲欧美影院| 国产亚洲欧美另类中文| 日韩精品亚洲人成在线观看| 午夜精品久久久久久久四虎美女版| 欧美国产精品一区二区三区| 国产va免费精品高清在线| 精品久久久久久一区| 国产综合福利在线| 伊人久久大香伊蕉在人线观看热v| 色哟哟一区二区在线观看| 91成人免费看| 色妞色视频一区二区三区四区| 欧美精品久久一区二区三区| 亚洲色诱最新| 精品一区精品二区| 综合久久久久综合| 国产日韩精品一区二区| 日韩久久一区二区| 在线成人免费视频| 国产精品免费人成网站| 国产成人精品一区二区三区网站观看| 伊人色综合久久天天人手人婷| 久久久夜色精品亚洲| 四虎永久在线精品免费一区二区| √天堂8在线网| 亚洲精品成人天堂一二三| 亚洲一级二级三级在线免费观看|