最近,OpenAI 發布了他們最新的推理型 AI 模型 “o3” 和 “o4 mini” ,它們雖然具備了比上一代更強大的性能,但 AI 幻覺卻變得更嚴重了 —— AI 幻覺是指生成型人工智能編造出實際并不存在的信息,并將其當作事實呈現的現象。
據海外 IT 專業媒體 TechCrunch 報道稱,OpenAI 新發布的 o3 模型在 33% 的問題上出現了 AI 幻覺。這一數值是 o1(16%)和 o3 mini(14.8%)的兩倍以上。而 o4 mini 模型更加嚴重 —— 該模型的幻覺率竟然高達 48%,表現出比包括 GPT-4o 在內的現有模型更加不穩定的狀態。這一結論是該媒體引援 OpenAI 的 PersonQA 基準測試評估結果而報道的。
OpenAI 在 16 日以 “首款能夠將圖像融入思考過程的模型” 的口號,隆重介紹并推出這些AI模型。官方解釋稱,這些模型不僅僅是單純地識別圖像,還能在推理過程中運用視覺信息本身 —— 即 o3 和 o4 mini 模型具備了分析用戶上傳的圖畫、圖表、圖形等內容,以及處理模糊或旋轉圖像的能力。
在性能方面,在與編碼相關的基準測試 SWE 測試中,o3 的得分為 69.1%,o4 mini的得分為 68.1%,不僅超過了之前的模型 o3 mini (49.3%),也高于競爭模型 Claude3.7Sonnet 模型(62.3%)的數值。然而,盡管有這些技術上的進步,AI幻覺出現率卻反而比以前有所增加。一直以來,每當有新模型推出時,AI 幻覺的問題都在逐步得到改善,沒曾想,OpenAI 這次的新模型卻來了個“反其道而行”。
OpenAI 尚未對這一現象的原因給出明確的解釋。在技術報告中,分析稱:“隨著模型需要應對比以前更多的用戶請求,不僅是正確的結果,產生錯誤結果的情況似乎也在增加。” 接著表示,為了查明 AI 幻覺現象增加的確切原因,“需要進行更多的研究”。
人工智能行業認為,此次事件可能會給推理型模型的可靠性帶來更多的質疑。特別是在法律、會計、稅務等要求高度準確性的行業領域,如果 AI 幻覺問題得不到解決,相關引入推理型 AI 模型的可能性便會減小。
OpenAI 表示:“在所有問題領域完全消除‘幻覺’都是一項持續的研究課題”,并表示 “我們正在繼續努力提高準確性和可靠性” 。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。