半夜10點,The Information發了個新聞,透露了OpenAI的新模型,草莓,要來了。
兩個小時后,我的好朋友@solitude(美東時間),作為一個常年擁有第一手資料和信息的人,跟我說,ChatGPT Pro會員上線了,售價200刀/月,他已經第一時間付完款了。
我看了眼我自己的號,果然啥也沒有。
所以,他甚至剛付完款,還沒開始用,我就把這個尊貴的Pro號要來了。
現在,ChatGPT的會員,被分成了3檔,分別是Plus、Team、Pro。
這個分法,怎么感覺OpenAI學的庫克,不會后面還有ChatGPT Pro Max吧。。。
但是目前非?上(冤大頭)的點是,并沒有新的功能,也沒有新的模型,唯一有區別的是,GPT4o使用次數基本等于無限,我在短時間內測了幾百條,依舊暢通無阻。
而對應的,ChatGPT Plus會員,GPT4o的使用額度是80條/3小時。
一個使用無限制,自然配不上這貴10倍的價格,從20刀/月提升到200刀/月,OpenAI如果真的這么干,那基本等于奧特曼被馬斯克給奪舍了。
結合The Information的新聞,基本可以確認的是,這個ChatGPT Pro會員,是過一段時間,為全新的模型,草莓(Strawberry)準備的。
后面想用草莓的,先開個200刀的Pro會員再說。
草莓究竟是啥?目前沒有確切的結論,但是從我知道的消息梳理來看的話,這玩意,草莓可能是:
基于新范式Self-play RL所做的,在數學、代碼能力上強到爆炸、且具備自主為用戶執行瀏覽器/系統操作級別的新模型。
更智能、更慢、更貴。
我盡量用最簡單樸素的語言,讓大家都聽得懂,解釋一下,這個新的草莓,具體是個啥,以及,憑啥賣200刀/月。
首先,得說一下GPT-5出現的一些問題。
GPT-5,就我所知,訓練的非常不順利。
一個可以觀察到的點是,以數據規模和模型規模為美的“大力出奇跡”的方式,邊際收益開始遞減,也不再是百試百靈了。
大語言模型的Scaling Law描述的是模型性能L、模型參數量大小N、訓練數據大小D以及計算量C之間的關系。
隨著計算量、模型參數和數據集大小的增加,模型的性能通常會顯著提高,從而在語言理解和生成等任務上表現更好。
但是現在,計算量、參數大小、數據集大小,都遭遇了瓶頸,特別是閉源模型們,進步速度對比過去,齊刷刷的開始放緩,且開源模型跟閉源模型的能力逐漸開始縮小。
也就是說,再靠大力出奇跡,模型的能力已經快上不去了。
因為本質上,所有的大模型訓練,幾乎都是人類已有知識的極致利用,我們給出數據、給出人類反饋數據或者標注數據等等,你會發現,大模型不是通過自我探索去“發現”語言的規律,而是直接從我們給出的內容中提取有用的信息。
這就像是一個學生,一開始通過不斷地背書確實能提高成績,但到了一定程度后,已經沒啥書可以背了了,而且成績也到了上限,再怎么死記硬背也很難有大的進步了,這也是如今的困境。
一個是,現有的知識的量級,已經不夠了。
另一個點是,所有的知識都是拿現成的直接背出來的,不是自己從0開始探索的,所以大模型在這個過程中,學到的全是相關性,而不是因果性。
相關性和因果性這兩個詞解釋起來非常簡單。
相關性:如果你發現每次你帶傘,天都會下雨,這就是相關性。傘和下雨看起來是相關的,但實際上帶傘并不會導致下雨。
因果性:下雨了你才帶傘,這是因果性,因為下雨導致了你帶傘。
所以這就是為啥,你讓他做個復雜推理,要寫明推理過程,中途推理邏輯經常亂七八糟,錯的沒邊,就是這個原因。
它們就像是一個百科全書式的學霸,知道很多事實,但可能并不真正理解這些事實背后的原理以及真正的因果關系。
如果你問一個只會死記硬背的學生:"為什么蘋果會落到地上?"他可能會立刻回答:"因為有重力。"
但如果你繼續追問:"那重力是什么?為什么會有重力?"他可能就無法給出深入的解釋了。
現在的大模型跟這個現象沒啥區別。它們可以告訴你地球是圓的,但可能也沒辦法真正解釋為什么地球是圓的,或者地球的形狀對我們的生活有什么影響。
它們學到的是"地球"和"圓"這兩個詞經常一起出現,有強相關性,而不是理解地球為什么會是圓的這種因果關系。
相關性告訴你兩件事總是一起發生,因果性則告訴你為什么它們會一起發生。
所以,這也是為什么,我們需要新方法新范式,來破這個局。
而這個解法,是目前我觀察下來,OpenAI、Google、Anthropic、Ilya等人的共識:
Self-play RL。
全稱是自我對弈強化學習,聽起來很復雜,但其實可以用一個簡單的比喻來理解:一個孩子學習下圍棋。
現在大模型的學習方式是什么樣的?看棋譜,記住開局布置,背誦一些固定的戰術。它們學習了大量的數據,知道很多可能的解法,但可能并不真正理解為什么要這樣下棋。
而Self-play RL,它則是讓這個孩子不停地和自己下棋。剛開始可能下得很拉跨,但是通過不斷嘗試不同的走法,觀察每步棋的結果,慢慢地,他會發現哪些策略更有效,哪些走法會輸。
這個過程中,孩子不僅僅是在記住棋譜,而是在真正理解棋局的變化,理解每一步棋為什么要這樣走。
這就是從相關性學習到因果性學習的飛躍。
有沒有感覺,這個描述很熟悉?
這就是2017年名動天下的AlphaGo Zero。
當年,AlphaGo在烏鎮以3:0擊碎柯潔道心,轟動世界。
而AlphaGo Zero,是AlphaGo的進階版。
官方是這么描述AlphaGo Zero的:
“剛開始時,AlphaGo Zero很菜,還會填真眼自殺。
3小時后,AlphaGo Zero成功入門圍棋。
36小時后,AlphaGo Zero就摸索出所有基本而且重要的圍棋知識,以100:0的戰績,碾壓了當年擊敗李世乭的AlphaGo v18版本。
21天后,AlphaGo Zero達到了Master的水平,這也就是年初在網上60連勝橫掃圍棋界的版本,Master后來擊敗了柯潔。
40天后,AlphaGo Zero對戰Master的勝率達到90%,也就是說,AlphaGo Zero成為寂寞無敵的最強圍棋AI。”
這就是Self-play RL的恐怖威力。
Self-play RL就是讓AI不斷地和自己"對弈",可能是下棋,也可能是解決數學問題,甚至是進行對話。
在這個過程中,AI不僅僅是在重復它看到過的內容,而是在主動探索、嘗試和學習。
跟大模型的學習方式,形成了鮮明的對比,大模型是把“死記硬背”發揮到了極致,而Self-play RL則是把“自我成長”發揮到了極致。
數據還是那個數據,只不過一個是人給的,一個是自己造的。
用人給的東西來死記硬背,你永遠成為不了超越人的超級AI,但是自己造自己學習的,那是有很大的可能的。
圍棋、Dota2,這兩個領域,已經證明了這一點。
而大模型+Self-play RL,就是不斷的大模型自己跟自己博弈,得到反饋之后,優化模型權重,改一下自己的水平,然后接著戰。
且得益于大模型自身的能力,所以在自我博弈過程中,可以不再是只給出最終結果反饋,這種獎勵反饋,在提升AI推理能力上其實也有很大的局限。
因為不同于圍棋、Dota2這種特定任務,大模型的能力實在是太太太泛化了。我們需要更多的因果關系,而不僅僅只是結果。
對于大模型而言,就可以使用“思維鏈”,把AI推理過程中每一步的思考過程都記下來。然后對每一步進行評分,讓AI知道每個推理步驟的好壞。這種方法讓AI不僅僅學習到如何給出正確答案,還能改進整個推理過程,從而知道,真正的因果。
甚至,不僅僅只是打分,得益于大模型的能力,還可以進行文字評價。這就很像你在做作業時,老師不僅給你打分,還會寫下評語告訴你哪里做得好,哪里需要改進,你肯定只比知道一個得分結果來的更牛逼對吧。
而且每一次的學習,都是從推理過程中得到寶貴的反饋。
當模型在回答一個復雜問題時,它就會進行一個類似Self-play的過程。模型會生成多個可能的思路,然后評估這些思路的質量,選擇最佳的一個。
在海外獨角獸的文章中,曾經做過一個計算,一個百億參數的大模型,如果用Self-play的方式去生產思路,如果每次生產32個思路,每個思路里都有5個步驟,一次推理回答,總任務消耗是100K token,將近6美元。
又貴、又慢,但是真的智能。
最好的數據會被保存下來,以固定周期對模型進行迭代,以持續進化。
這也是為啥,在草莓的曝光中,說:
“Strawberry 與其他模型的最大區別在于它能夠在響應之前「思考」,⽽不是立即回答查詢,這個思考階段通常持續10到20秒。”
且,我們在文章的一開始,看到ChatGPT Pro會員,是200美元一個月了吧。
推理成本,太特么高了。
這就是典型的,在大力出奇跡的方式邊際效應遞減的情況下,用推理成本,換訓練成本,繼續給模型做迭代。
這也是為什么,OpenAI一直說,草莓,是給下一代大模型,合成數據用的,因為,它就是Self-play RL的載體。
所以回頭看,草莓,可能是什么。
是基于新范式Self-play RL所做的,在數學、代碼能力上強到爆炸、且具備自主為用戶執行瀏覽器/系統操作級別的新模型。
更智能、更慢、更貴。
還有最后一個問題是,為啥草莓在數學能力和代碼能力上會強到爆炸?
這個答案就非常簡單了。
因為...數學和代碼,是非常好驗證的,在Self-play里,可以給出明確的結果的,數學就不說了,代碼,你能不能跑起來不就能驗證了,對吧。
所以,這兩玩意,一定是最先一飛沖天的。
Claude3.5的代碼能力為啥這么牛逼,就是用Self-play RL做的。
想起前幾天,去跟一個做AI投資非常專業且牛逼的朋友聊,她前段時間剛從硅谷回來,見了OpenAI的人。
OpenAI內部的研究員,是這么形容Self-play RL的:
“我們通往AGI的路上,已經沒有任何阻礙。”
在沉寂了近一年之后,我們,可能要迎來一個全新的大模型技術爆發周期了。
真的。
我,拭目以待。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。