国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

解鎖2026世界杯觀賽“新姿勢”,聯想AI平板攜天禧AI 3.5打造掌上沉浸主場聯想motoX70Air云上舞白冰鉆限定版AI手機即將上市 自帶14顆手工精鑲冰鉆 超奢華只有紅魔還在做24+1TB 姜超:成本暴增 友商一臺都沒有英特爾®至強® D處理器:賦能智能網卡,破解算力-網絡協同瓶頸豐田全新超跑GR GT發布:配641馬力大V8商家仿冒心系天下W26 老機當新機賣!中國電信回應告別“人海戰術”!陳天橋:未來公司值多少錢,不看人數看“認知”“卷”不動了?讓AI銷售團隊替你卷!百度商家智能體升級片來了卡薩帝冰箱亮相廣州設計周亞馬遜云科技推出Amazon Graviton5----迄今性能最強、能效最高的自研CPU第八屆“綻放杯”圓滿落幕,華為助力千行百業5G應用“全面綻放”機構:2025年第三季度中國PC市場同比增長2%火山引擎發布豆包語音識別模型2.0提升多語種識別精度現代汽車推出 AI 驅動的 MobED 機器人,2026年上市Vidu發布 Q2“生圖全家桶”:4K 生圖 + 圖像編輯 + 圖轉視頻,全都免費用中國新勢力首家!理想汽車累計交付突破150萬輛瑞典Oceanbird Wing 560翼帆開放訂購,2026量產在即,加速布局中國市場賦能綠色航運億邦智庫第七次《產業互聯網發展報告》重磅發布一加Ace 6T首銷10分鐘賣爆!打破今年同檔機型全天銷售紀錄魯大師11月電動兩輪車榜:潮玩思路重塑市場,九號領跑智能化
  • 首頁 > 云計算頻道 > 大模型

    OpenAI開源SWELancer,大模型沖擊100萬年薪

    2025年02月19日 11:18:00 來源:AIGC開放社區公眾號

      今天凌晨2點,OpenAI開源了一個全新評估大模型代碼能力的測試基準——SWE-Lancer。

      目前,測試模型代碼能力的基準主要有SWE-Bench和SWE-BenchVerified,但這兩個有一個很大的局限性,主要針對孤立任務,很難反映現實中軟件工程師的復雜情況。例如,開發人員需處理全技術棧的工作,要考慮代碼庫間的復雜交互和權衡。

      而SWE-Lancer的測試數據集包含1488個來自Upwork平臺上Expensify開源倉庫的真實開發任務,并且總價值高達100萬美元。也就是說,如果你的大模型能全部答對這些問題,就能像人類一樣獲得百萬年薪

      SWE-Lancer獨特測試方法

      SWE-Lancer的一個重要創新是其采用的端到端測試方法。與傳統的單元測試不同,端到端測試能夠模擬真實用戶的工作流程,驗證應用程序的完整行為。這種方法不僅能夠更全面地評估模型的解決方案,還能夠避免一些模型通過作弊來通過測試。

      例如,對于一個價值1000美元的開發任務,模型需要修復一個導致用戶頭像在“分享代碼”頁面與個人資料頁面不一致的漏洞。

      傳統的單元測試可能只能驗證頭像上傳和顯示的獨立功能,但端到端測試則會模擬用戶登錄、上傳頭像、切換賬戶以及查看不同頁面的完整流程。通過這種方式,測試不僅能夠驗證頭像是否正確顯示,還能夠確保整個交互過程的連貫性和正確性。

      端到端測試的另一個重要特點是其對真實場景的還原能力。在軟件工程中,許多問題并非孤立出現,而是與系統的其他部分相互作用。

      例如,一個看似簡單的漏洞可能涉及到多個組件的協同工作,或者與數據庫、網絡狀態等外部因素相關。

      端到端測試通過模擬真實用戶的行為,能夠捕捉到這些復雜的交互關系,從而更準確地評估模型的解決方案是否真正解決了問題。

      在評估的過程中,引入了一個重要模塊用戶工具,允許模型在本地運行應用程序,并模擬用戶的行為來驗證其解決方案。

      例如,在處理Expensify應用中報銷流程的相關任務時,模型借助用戶工具模擬用戶進行費用錄入操作。會按照真實用戶的操作習慣,在本地運行的應用程序中依次輸入各項費用明細,如金額、日期、費用類型等信息,之后點擊提交按鈕,觀察應用程序是否能正確記錄費用數據,以及后續的審批流程是否能順利啟動。

      通過這樣的模擬操作,模型能夠判斷自己對報銷流程問題的解決方案是否有效,比如是否修復了費用錄入后數據丟失的漏洞,或者是否優化了審批流程中的卡頓現象等。

      SWE-Lancer數據集

      SWE-Lancer數據集一共包含1488個來自Upwork平臺上Expensify開源庫的真實軟件開發任務,一共分為獨立貢獻者和軟件工程管理任務兩大類。

      獨立開發任務一共有764個,價值414,775美元,主要模擬個體軟件工程師的職責,例如,實現功能、修復漏洞等。在這類任務中,模型會得到問題文本描述涵蓋重現步驟、期望行為、問題修復前的代碼庫檢查點以及修復目標。

      軟件管理任務,有724個,價值585,225美元。模型在此類任務中扮演軟件工程經理的角色,需要從多個解決任務的提案中挑選最佳方案。例如,在一個關于在iOS上實現圖像粘貼功能的任務中,模型要從不同提案里選擇最適宜的方案。

      首批SWE-Lancer測試結果

      OpenAI使用了GPT-4o、o1和Claude3.5Sonnet在SWE-Lancer進行了測試,結果顯示,大模型沖擊百萬年薪都失敗了。

      在獨立開發測試任務中,表現最好的模型Claude3.5Sonnet的通過率僅為26.2%,只能正確解決不到三分之一的開發任務。而在軟件工程管理任務中,Claude3.5Sonnet的表現稍好,通過率達到了44.9%。

      而GPT-4o在獨立開發測試中的通過率僅為8%,o1的通過率為20.3%;在軟件工程管理任務中,GPT-4o為37.0%,o1為46.3%。

      需要注意的是,模型在不同任務類型和難度級別上的表現存在顯著差異。在價值較低、相對簡單的任務中,模型的通過率相對較高;而在價值較高、難度較大的任務中,通過率則明顯下降。

      例如,在SWE-Lancer Diamond數據集中,價值超過1000美元的任務,模型的通過率普遍低于30%。這表明,盡管模型在處理一些基礎任務時能夠表現出一定的能力,但在面對復雜的、高價值的軟件工程任務時,他們仍比人類要差很多。

      看完這個基準測試,網友表示,現在我們竟然需要測試大型語言模型是否能成為百萬富翁,這簡直瘋狂。

      我很喜歡這個發展的方向。用全棧問題進行測試,將其與市場價值和開發工作的日常現實聯系起來。一直覺得以前的基準測試就不太準確。

      百分之百確定o3在這方面會勝過Grok3。

      將它與現實世界的任務和經濟價值聯系起來真是天才之舉,非常有趣。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    欧美国产欧美亚州国产日韩mv天天看完整| 青草国产精品| 国产精品传媒毛片三区| 国产精品91视频| 国产精品 日产精品 欧美精品| 国产a一区二区| 99精品在线观看视频| 亚洲激情成人在线| 国内精品视频在线播放| 久久久成人av毛片免费观看| 精品无人区乱码1区2区3区在线| 国产一区二区在线免费观看| 国产女人水真多18毛片18精品| 免费电影网站在线视频观看福利| 亚洲免费播放| 久久av一区二区三区| 欧美大片免费久久精品三p| 成人免费在线观看入口| 欧美一区在线直播| 尤物99国产成人精品视频| 中文字幕日韩av综合精品| 国产乱人伦精品一区二区| 日韩高清有码在线| 亚洲在线视频一区| 日韩精品久久一区二区三区| 绿色成人影院| 99久久久久久中文字幕一区| 91视频免费网站| 中文字幕伦av一区二区邻居| 亚洲成av人片乱码色午夜| 欧美夜福利tv在线| 亚洲视频精品| 欧美1区2区3区| 麻豆精品视频在线观看免费| 成人精品电影在线| 电影天堂国产精品| 国产一区高清在线| 日韩电影视频免费| 91九色对白| 日本v片在线高清不卡在线观看| 欧美不卡一二三| 国内精品国产成人国产三级粉色| 精品午夜久久福利影院| 黄色99视频| 国产精品白丝av嫩草影院| 国产成人久久精品| 日本中文字幕视频在线| 国产麻豆精品95视频| 日本一区二区不卡高清更新| 欧美三级韩国三级日本一级| 亚洲欧洲自拍| 亚洲色图17p| 啦啦啦中文在线观看日本| 精品亚洲夜色av98在线观看| 久久人人视频| 奇米色777欧美一区二区| 亚洲国产一区二区三区高清| 日韩电影在线一区二区三区| 久久影院中文字幕| 蜜桃视频在线观看免费视频| 亚洲乱码国产乱码精品精天堂| 国产精品亚洲片夜色在线| 亚洲国产婷婷香蕉久久久久久| 成人免费在线一区二区三区| 黄色精品一二区| 日本午夜免费一区二区| 欧美成人精品高清在线播放| 欧美精品一区二| 99九九热只有国产精品| 中文一区一区三区高中清不卡| 国产精品第1页| 久久青草欧美一区二区三区| 久久精品人人| 最近2019年日本中文免费字幕| 国产在线高清理伦片a| 97视频在线观看视频免费视频| 麻豆久久久av免费| 久久久久久美女| 国产婷婷97碰碰久久人人蜜臀| 欧美三级网页| 亚洲激情电影中文字幕| 亚洲欧洲国产日本综合| 激情综合网天天干| 9l亚洲国产成人精品一区二三| 国产精品二三区| 日本一区二区三区在线播放| 欧美私人网站| 91在线高清视频| 成人在线免费看黄| 伊人久久大香线蕉综合四虎小说| 国产精品∨欧美精品v日韩精品| 欧美日韩亚洲天堂| 婷婷亚洲精品| 91精品福利在线一区二区三区| 欧美www.| 精品国产综合久久| 色悠久久久久综合欧美99| 天天综合天天做天天综合| 亚洲美女一区| 欧美风情在线视频| 久久不卡国产精品一区二区| av片哪里在线观看| 九七影院97影院理论片久久| 亚洲欧洲免费无码| 精一区二区三区| 成人看片免费| 国产色婷婷亚洲99精品小说| 成人午夜免费av| 国产一区二区三区毛片| 在线观看日韩精品| 色悠悠久久久久| 国产亚洲高清一区| 97se亚洲国产综合自在线不卡| 日本欧美在线视频免费观看| 国产成人三级| 91香蕉国产在线观看| 欧美精品亚洲一区二区在线播放| 亚洲精品国产成人久久av盗摄| 日韩精品免费一区二区在线观看| 久久精品日韩欧美| aaa在线观看| 久久久久久国产| 亚洲最大av在线| 97视频免费观看| 夜夜夜精品看看| 一区二区三区午夜视频| 粉嫩高潮美女一区二区三区| 国产不卡免费视频| 欧美伦理一区二区| 成人羞羞视频在线看网址| 中文字幕在线视频网站| 性欧美长视频免费观看不卡| 亚洲国产成人私人影院tom| 色婷婷综合成人av| 久久综合电影一区| 麻豆一区二区在线观看| 91麻豆精品秘密入口| 亚洲欧洲综合另类| 国产探花一区| 亚洲破处大片| 欧美黑人一区二区三区| 欧美精品激情在线观看| 日本高清成人vr专区| 国产二区三区在线| 欧美视频一区在线| 日本午夜精品一区二区三区电影| 91免费国产视频| 欧美成人高清视频在线观看| 久久不卡国产精品一区二区| 国产精品素人一区二区| 在线播放欧美女士性生活| 亚洲一区二区三区四区在线免费观看| 蜜桃久久av| 精品国产一区二区三区久久狼黑人| 密臀av在线播放| 国产日韩精品入口| 亚洲一区二区四区蜜桃| 日韩天堂在线| 国产成人av在线播放| 国产精品女主播在线观看| 5月丁香婷婷综合| 蜜桃av一区二区三区电影| 日本强好片久久久久久aaa| 国产在线98福利播放视频|