国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

一加15丨Ace 6雙艦齊發,「性能 Ultra」一加 15 售價 3999 元起一加 15丨Ace 6 雙艦齊發,「性能 Ultra」一加 15 售價 3999 元起學術磁場:頂尖科學家論壇賦能腦疾病學術研討!2025WLF臨港·腦疾病大會順利閉幕零代碼上手即用!智元推出機器人內容創作平臺“靈創”Intel進軍ASIC定制服務市場 幾乎放棄AI!三大原因防止與固態電池混淆 知情人士:半固態電池將更名為固液電池NVIDIA N1筆記本CPU新消息:2026年年中推出!外星人先用首款海外商用手機eSIM中國芯!紫光同芯斬獲GSMA認證華為、vivo、OPPO等合作撰寫!中國快充方案成為全球標準:在國際電信聯盟發布鴻蒙生態手機 WIKO X70宣布10月30日發布 支持一鍵北斗廣汽推出三款具身智能機器人,布局康養安防場景瀾起科技成功量產 DDR5 第四子代寄存時鐘驅動器芯片金倉數據庫異構多活架構破解多院區集團化醫院信創難題RTX 5060 Ti 8GB賣不動了!限制供貨、不許降價美團LongCat-Video視頻生成模型發布:可輸出5分鐘長視頻樂道L90上市86天交付破三萬,持續刷新純電大型SUV最快交付記錄亞信科技、蒙東礦建達成戰略合作,打造車網協同、智能礦山標桿華為MatePad Pro流金典藏版開賣:售價7799元余承東曝鴻蒙智行新款享界S9將于11月上市SK海力士推出專為人工智能定制的下一代 NAND 存儲產品
  • 首頁 > 云計算頻道 > 大模型

    OpenAI開源BrowseComp,重塑Agent瀏覽器評測

    2025年04月11日 10:38:39 來源:AIGC開放社區公眾號

      今天凌晨2點,OpenAI開源了專門用于智能體瀏覽器功能的測試基準——BrowseComp。

      這個測試基準非常有難度,連OpenAI自己的GPT-4o、GPT-4.5準確率只有0.6%和0.9%幾乎為0,即便使用帶瀏覽器功能的GPT-4o也只有1.9%。

      但OpenAI最新發布的Agent模型Deep Research準確率高達51.5%,在自主搜索、信息整合、準確性校準方面非常優秀。

      BrowseComp簡單介紹

      BrowseComp全稱為Browsing Competition,包含了1266個很有挑戰性問題的數據集,涵蓋電影、科學與技術、藝術、歷史、體育、音樂、電子游戲等眾多領域。

      這些問題的難度在于,需要在龐大的互聯網空間中搜索,并將這些潛在答案與問題中提出的復雜約束條件相匹配。例如,下面這三個問題就能很好體現BrowseComp的難度。

      第一個關于足球比賽的問題,要求智能體找出在1990年至1994年期間,哪兩支足球隊在一場比賽中由巴西裁判執法,共出現四張黃牌(每隊兩張),其中三張不是在上半場發出的,并且有四次換人,其中一次是在比賽前25分鐘因傷換人。

      答案是愛爾蘭對羅馬尼亞。

      第二個要求識別一個偶爾會打破第四面墻與觀眾互動的角色,其背景故事涉及得到無私苦行僧的幫助,以幽默著稱,并且在20世紀60年代—80年代之間有一部少于50集的電視劇。

      答案是《塑料人》。

      第三個要求找出一篇在2023年6月之前發表的研究論文,該論文提到文化傳統、科學過程和烹飪創新,并且由三個人共同撰寫,其中一人是西孟加拉邦的助理教授,另一人擁有博士學位。

      答案是《面包制作的基礎:面包的科學》。

      BrowseComp的數據集完全由人類專業數據師收集,其指導原則主要遵循SimpleQA。在創建問題時,需要確保這些問題對于人類來說是極其困難的,數據師通過三個主要檢查點來確保問題的挑戰性:首先,驗證了現有的模型例如,OpenAI的GPT-4o、OpenAI o1和早期版本的Deep Research無法解決這些問題;

      其次,進行了五次簡單的谷歌搜索,確保答案不會出現在搜索結果的第一頁上;最后,確保這些問題足夠困難,以至于另一個數據師在十分鐘內無法解決。如果某個問題被解決的頻率超過40%,那么創建該問題的數據師就會被要求修改問題。

      為了確保問題的難度,數據師們會從一個事實開始,然后創建一個反向問題,其中答案難以找到但易于驗證。例如,可能會從一個人、事件或物品開始,找到幾個具有廣闊搜索空間的特征,并從中創建一個問題。

      這種反向問題的設計方法使得答案雖然難以找到,但一旦找到,卻很容易驗證。不過這種設計方法也有一個缺點,雖然可以確定提供的參考答案是正確的,但不能確定沒有其他答案。

      為了減少這種可能性,數據師們被要求對問題的內容足夠熟悉,以便有信心沒有其他有效答案,并在不自信時增加更多標準。

      測試數據

      為了衡量BrowseComp數據集的難度,OpenAI邀請了創建問題的同一批人類數據師嘗試解答這些問題。這些數據師在解答問題時沒有訪問正確答案,并且被要求在不使用AI助手的情況下完成。

      由于一些問題極其困難,OpenAI允許數據師在搜索兩小時后標記問題為無法解決并繼續下一個問題。結果顯示,數據師解決了29.2%的問題,而在解決的問題中,數據師的答案與原始參考答案一致的比例為86.4%。

      OpenAI還對自己的模型在BrowseComp上進行了綜合測試。GPT-4o和GPT-4.5這兩個不具備瀏覽能力的模型在BrowseComp上的表現很差,只有只有0.6%和0.9%。

      當為GPT-4o啟用瀏覽功能后,其準確率從0.6%提升到了1.9%。雖然這一提升幅度不大,但揭示了一個重要的事實,單純的瀏覽能力并不能完全解決BrowseComp中的復雜問題。

      模型需要能夠有效地利用瀏覽工具,進行戰略性搜索和信息篩選。這表明,工具使用能力雖然重要,但如果沒有強大的推理能力和對檢索到的信息進行有效處理的能力,模型在網絡瀏覽任務中的表現仍然會受到限制。

      OpenAI o1模型雖然不具備瀏覽能力,但其推理能力較強,準確率達到了9.9%。這一結果表明,推理能力在網絡瀏覽任務中也起著關鍵作用。

      盡管o1無法直接從網絡中檢索信息,但它可以通過內部知識和推理能力解決一部分問題。這說明,對于一些問題,模型可以通過對已有知識的深度推理來找到答案,而不需要依賴外部信息檢索。

      OpenAI最新發布的Agent模型Deep Research表現的意外好,準確率達到了51.5%。這表明Deep Research能夠有效地使用瀏覽工具,能夠對檢索到的信息進行深度分析和綜合處理。同時具備很強的適應性,面對搜索時遇到的各種信息,能夠迅速做出反應,調整自身的搜索策略。

      此外,OpenAI還發現,Deep Research的表現隨著測試時計算資源的增加而提升。這表明,增加計算資源可以顯著提高模型在復雜網絡瀏覽任務中的表現。通過使用更多的計算資源,模型可以嘗試更多的搜索路徑,從而提高找到正確答案的概率。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    亚洲淫片在线视频| 国产精品久久麻豆| 色域天天综合网| 久久蜜桃一区二区| 欧美日韩福利视频| 亚洲天堂精品视频| 欧美78videosex性欧美| 欧美日本国产在线| 久久蜜桃精品| 久久伊人色综合| 久久久久久久久99精品大| 麻豆av一区二区三区| 黄网在线免费看| 亚洲国产精华液网站w| 亚洲在线www| 久久www免费人成精品| 亚洲人成伊人成综合网小说| 在线一区视频| 五月婷婷在线视频| 97久久天天综合色天天综合色hd| 91九色单男在线观看| 日韩福利二区| 蜜臀久久99精品久久一区二区| 欧美久久综合性欧美| 亚洲一区网址| 亚洲午夜精品久久久久久久久久久久| 狠狠躁少妇一区二区三区| 欧美日韩一区二区三区在线观看免| 欧美一区激情视频在线观看| 国产精品天干天干在线综合| 好吊色欧美一区二区三区| 欧美视频日韩| 欧美电影免费观看网站| 久久久亚洲综合网站| 成人自拍偷拍| 国产亚洲欧美一区二区| 欧美日韩有码| 福利片一区二区| 91极品美女在线| 免费大片黄在线观看视频网站| 自由日本语亚洲人高潮| 免费不卡在线观看| 午夜激情在线播放| 欧美午夜精品久久久久久超碰| 国产suv精品一区二区三区| 97久久超碰| 国产精品一区在线| 中文字幕亚洲无线码在线一区| 亚洲一区二区三区成人在线视频精品| 午夜精品av| www.久久精品| 日韩av有码| 亚洲伊人久久大香线蕉av| 日韩一区二区三区在线| 国产三区视频在线观看| 亚洲精品一区二区三区在线观看| 欧美精品久久久久久久久| 波多野结衣成人在线| 国产精品中文字幕日韩精品| 久久亚洲精品中文字幕| 欧美成年人视频| 一区二区成人精品| 亚洲精品美女在线观看| 国产精品zjzjzj在线观看| 欧美6一10sex性hd| 日韩精品极品在线观看| 日韩一区免费| 亚洲福利电影网| 亚洲一区二区欧美日韩| 在线免费av导航| 亚洲欧美日韩一区在线| 97免费视频在线| 国产精品视频播放| 国产精品久久二区| 欧美在线激情视频| 国产伦精品一区二区三区在线播放| 中文字幕高清在线播放| 欧美日韩国产一二| 一区二区激情| 欧美日韩成人综合天天影院| 国产亚洲美女久久| 青青青爽久久午夜综合久久午夜| 欧美一级日韩免费不卡| 欧洲一区二区日韩在线视频观看免费| 91黄色免费版| 91在线你懂得| 成人国产在线激情| 国产精品传媒毛片三区| 中文有码一区| 国产在线视频不卡| 欧美日韩激情一区| www久久日com| 久久精彩视频| 91麻豆精品久久久久蜜臀| 91久久精品视频| 91浏览器在线视频| 亚洲第一主播视频| 欧美无乱码久久久免费午夜一区| 日韩av电影免费观看| 日韩av一级| 中文字幕精品一区二区三区精品| 韩日成人影院| 亚洲美女少妇撒尿| 国产精品专区免费| 欧美高清视频在线播放| 日韩av色在线| 一区二区三区四区中文字幕| 久久乐国产精品| 欧美一级久久久久久久大片| 精品国产自在久精品国产| 精品国产乱码久久久久久樱花| 亚洲人成网站色ww在线| 欧美成人dvd在线视频| 一区二区高清在线| 色偷偷综合社区| 久久久精品国产免费观看同学| 不卡视频在线| 欧美午夜www高清视频| 国产精品欧美激情在线播放| 欧美精品久久久| 久久综合免费视频影院| 狠狠狠色丁香婷婷综合久久五月| 久久99久久99小草精品免视看| 国产福利片在线观看| 国产国产精品人在线视| 欧美亚洲综合网| 中文字幕乱码一区二区免费| 亚洲综合色婷婷| 欧美精品videosex性欧美| 五月婷婷激情综合网| 国产亚洲一区字幕| 久久精品亚洲人成影院| 亚洲性猛交xxxxwww| 国产成人久久精品77777最新版本| 精品国产1区2区3区| 天天色综合天天| 日韩欧美国产一二三区| 欧美成人精品在线视频| 日韩电影在线一区| 日韩欧美综合在线视频| 9i看片成人免费高清| 91午夜在线播放| 国产夜色精品一区二区av| 欧美综合在线视频观看| 欧美日韩国产美女| 九九视频直播综合网| 中文字幕在线一区免费| 亚洲va欧美va人人爽午夜| 久久久神马电影| 欧美色综合网| 日本不卡视频在线播放| 久久久久国产精品人| 成人深夜在线观看| 超碰97人人做人人爱少妇| 精品视频在线播放免| 日韩av影视在线| 亚洲一区二区三区四区视频| 欧美日韩一卡二卡三卡| 欧美日韩精品中文字幕| 91高清免费在线观看| 欧美伦理一区二区| 亚洲高清乱码| 国模精品系列视频| 日韩精品福利视频|