今天凌晨2點,OpenAI開源了專門用于智能體瀏覽器功能的測試基準——BrowseComp。
這個測試基準非常有難度,連OpenAI自己的GPT-4o、GPT-4.5準確率只有0.6%和0.9%幾乎為0,即便使用帶瀏覽器功能的GPT-4o也只有1.9%。
但OpenAI最新發布的Agent模型Deep Research準確率高達51.5%,在自主搜索、信息整合、準確性校準方面非常優秀。
BrowseComp簡單介紹
BrowseComp全稱為Browsing Competition,包含了1266個很有挑戰性問題的數據集,涵蓋電影、科學與技術、藝術、歷史、體育、音樂、電子游戲等眾多領域。
這些問題的難度在于,需要在龐大的互聯網空間中搜索,并將這些潛在答案與問題中提出的復雜約束條件相匹配。例如,下面這三個問題就能很好體現BrowseComp的難度。
第一個關于足球比賽的問題,要求智能體找出在1990年至1994年期間,哪兩支足球隊在一場比賽中由巴西裁判執法,共出現四張黃牌(每隊兩張),其中三張不是在上半場發出的,并且有四次換人,其中一次是在比賽前25分鐘因傷換人。
答案是愛爾蘭對羅馬尼亞。
第二個要求識別一個偶爾會打破第四面墻與觀眾互動的角色,其背景故事涉及得到無私苦行僧的幫助,以幽默著稱,并且在20世紀60年代—80年代之間有一部少于50集的電視劇。
答案是《塑料人》。
第三個要求找出一篇在2023年6月之前發表的研究論文,該論文提到文化傳統、科學過程和烹飪創新,并且由三個人共同撰寫,其中一人是西孟加拉邦的助理教授,另一人擁有博士學位。
答案是《面包制作的基礎:面包的科學》。
BrowseComp的數據集完全由人類專業數據師收集,其指導原則主要遵循SimpleQA。在創建問題時,需要確保這些問題對于人類來說是極其困難的,數據師通過三個主要檢查點來確保問題的挑戰性:首先,驗證了現有的模型例如,OpenAI的GPT-4o、OpenAI o1和早期版本的Deep Research無法解決這些問題;
其次,進行了五次簡單的谷歌搜索,確保答案不會出現在搜索結果的第一頁上;最后,確保這些問題足夠困難,以至于另一個數據師在十分鐘內無法解決。如果某個問題被解決的頻率超過40%,那么創建該問題的數據師就會被要求修改問題。
為了確保問題的難度,數據師們會從一個事實開始,然后創建一個反向問題,其中答案難以找到但易于驗證。例如,可能會從一個人、事件或物品開始,找到幾個具有廣闊搜索空間的特征,并從中創建一個問題。
這種反向問題的設計方法使得答案雖然難以找到,但一旦找到,卻很容易驗證。不過這種設計方法也有一個缺點,雖然可以確定提供的參考答案是正確的,但不能確定沒有其他答案。
為了減少這種可能性,數據師們被要求對問題的內容足夠熟悉,以便有信心沒有其他有效答案,并在不自信時增加更多標準。
測試數據
為了衡量BrowseComp數據集的難度,OpenAI邀請了創建問題的同一批人類數據師嘗試解答這些問題。這些數據師在解答問題時沒有訪問正確答案,并且被要求在不使用AI助手的情況下完成。
由于一些問題極其困難,OpenAI允許數據師在搜索兩小時后標記問題為無法解決并繼續下一個問題。結果顯示,數據師解決了29.2%的問題,而在解決的問題中,數據師的答案與原始參考答案一致的比例為86.4%。
OpenAI還對自己的模型在BrowseComp上進行了綜合測試。GPT-4o和GPT-4.5這兩個不具備瀏覽能力的模型在BrowseComp上的表現很差,只有只有0.6%和0.9%。
當為GPT-4o啟用瀏覽功能后,其準確率從0.6%提升到了1.9%。雖然這一提升幅度不大,但揭示了一個重要的事實,單純的瀏覽能力并不能完全解決BrowseComp中的復雜問題。
模型需要能夠有效地利用瀏覽工具,進行戰略性搜索和信息篩選。這表明,工具使用能力雖然重要,但如果沒有強大的推理能力和對檢索到的信息進行有效處理的能力,模型在網絡瀏覽任務中的表現仍然會受到限制。
OpenAI o1模型雖然不具備瀏覽能力,但其推理能力較強,準確率達到了9.9%。這一結果表明,推理能力在網絡瀏覽任務中也起著關鍵作用。
盡管o1無法直接從網絡中檢索信息,但它可以通過內部知識和推理能力解決一部分問題。這說明,對于一些問題,模型可以通過對已有知識的深度推理來找到答案,而不需要依賴外部信息檢索。
OpenAI最新發布的Agent模型Deep Research表現的意外好,準確率達到了51.5%。這表明Deep Research能夠有效地使用瀏覽工具,能夠對檢索到的信息進行深度分析和綜合處理。同時具備很強的適應性,面對搜索時遇到的各種信息,能夠迅速做出反應,調整自身的搜索策略。
此外,OpenAI還發現,Deep Research的表現隨著測試時計算資源的增加而提升。這表明,增加計算資源可以顯著提高模型在復雜網絡瀏覽任務中的表現。通過使用更多的計算資源,模型可以嘗試更多的搜索路徑,從而提高找到正確答案的概率。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。