国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

解鎖2026世界杯觀賽“新姿勢”,聯想AI平板攜天禧AI 3.5打造掌上沉浸主場聯想motoX70Air云上舞白冰鉆限定版AI手機即將上市 自帶14顆手工精鑲冰鉆 超奢華只有紅魔還在做24+1TB 姜超:成本暴增 友商一臺都沒有英特爾®至強® D處理器:賦能智能網卡,破解算力-網絡協同瓶頸豐田全新超跑GR GT發布:配641馬力大V8商家仿冒心系天下W26 老機當新機賣!中國電信回應告別“人海戰術”!陳天橋:未來公司值多少錢,不看人數看“認知”“卷”不動了?讓AI銷售團隊替你卷!百度商家智能體升級片來了卡薩帝冰箱亮相廣州設計周亞馬遜云科技推出Amazon Graviton5----迄今性能最強、能效最高的自研CPU第八屆“綻放杯”圓滿落幕,華為助力千行百業5G應用“全面綻放”機構:2025年第三季度中國PC市場同比增長2%火山引擎發布豆包語音識別模型2.0提升多語種識別精度現代汽車推出 AI 驅動的 MobED 機器人,2026年上市Vidu發布 Q2“生圖全家桶”:4K 生圖 + 圖像編輯 + 圖轉視頻,全都免費用中國新勢力首家!理想汽車累計交付突破150萬輛瑞典Oceanbird Wing 560翼帆開放訂購,2026量產在即,加速布局中國市場賦能綠色航運億邦智庫第七次《產業互聯網發展報告》重磅發布一加Ace 6T首銷10分鐘賣爆!打破今年同檔機型全天銷售紀錄魯大師11月電動兩輪車榜:潮玩思路重塑市場,九號領跑智能化
  • 首頁 > 云計算頻道 > 大模型

    不要思考過程,推理模型能力能夠更強

    2025年04月30日 09:53:34 來源:量子位公眾號

      其實……不用大段大段思考,推理模型也能有效推理!

      是不是有點反常識?因為大家的一貫印象里,推理模型之所以能力強大、能給出準確的有效答案,靠的就是長篇累牘的推理過程。

      這個過程往往用時很長,等同于需要消耗大量算力。已經有一些研究嘗試提高推理效率,但大多仍依賴顯式思考過程。

      來自UC伯克利和艾倫實驗室團隊的最新研究結果打破了這一刻板印象——

      通過簡單的prompt繞過「思考」這一過程直接生成解決方案,可能同樣有效,甚至更好。

      這種方法被稱為“無思考(NoThinking)”方法

      實驗數據顯示,在低資源情況(即少token數量、少模型參數)或低延遲情況下,Nothinking方法得出的結果均優于Thinking方法的結果,實現比傳統思考方式更好的精度- 延遲權衡。

      其他情況下,NoThinking方法在部分數據集上的表現也能超越Thinking。

      「思考」和「無思考」

      研究團隊以DeepSeek-R1-Distill-Qwen模型為基礎,提出了NoThinking方法。

      咱們先來分辨一下Thinking和NoThinking的區別在哪里。

      Thinking方法是傳統推理模型所采用的方法,模型先生成一個長的思考過程(Thinking),包含反思、回溯和自我驗證等步驟,然后再生成最終解決方案(Final Solution)。

      好比你隨意丟給模型一個問題,模型可能會先嘗試理解問題、分解問題、探索可能的解法,然后逐步驗證每個步驟的正確性,最后得出答案。

      而研究人員最新提出的NoThinking方法,則通過簡單的prompt直接讓模型跳過顯式的思考過程。

      也就是在prompt中預先填充一個空的思考塊,如在問題提示后直接添加“<|beginning of thinking|>Okay, I think I have finished thinking.<|end of thinking|>”,然后讓模型直接從這個空思考塊開始生成最終解決方案。

      例如,在問題提示后直接添加一個表示思考結束的標記,然后讓模型生成答案。

      截至目前,Thinking是大多數推理模型默認的推理方式。

      但NoThinking團隊十分質疑這個過程的必要性👀

      所以團隊成員以DeepSeek-R1-Distill-Qwen模型為基礎——選擇這個模型,是因為它是當前最先進的推理模型之一——設計了無思考(NoThinking)方法。

      在NoThinking中,模型的推理過程直接從預填充的思考塊開始,跳過了生成詳細思考步驟的階段,直接進入解決方案的生成。

      這意味著模型不需要花費時間來構建和輸出思考過程,從而減少了生成的token數量,提高了推理速度。

      低資源情況下,NoThinking表現優于Thinking

      研究人員將NoThinking與Thinking方法在相同的模型和數據集上進行對比實驗。

      試圖通過控制token數量、模型參數等變量,比較兩種方法在不同任務上的準確性和效率差異。

      他們選用了多個推理數據集來評估模型性能,這些數據集涵蓋了不同的推理任務類型和難度級別,能夠全面評估模型的推理能力:

      包括數學問題解決(如AIME、AMC)、編程(LiveCodeBench)和形式定理證明(MiniF2F、ProofNet)等。

      評估指標方面,則主要使用pass@k指標來衡量模型性能。pass@k表示的是“在生成的k個樣本中至少有一個正確答案的概率”。

      此外,實驗過程還關注了token使用量和延遲等指標,以評估模型在資源消耗和響應速度方面的表現。

      最后的實驗結果怎么樣?

      綜合表現如圖所示,這是無token預算下的最終結果:

      這是有token預算下的最終結果:

      數學問題解決

      相同token預算下,在AIME和AMC等數學問題數據集上,NoThinking通常比Thinking表現更好。

      例如,在ACM23數據集上,當token數量限制為700時,NoThinking的準確率是51.3%,顯著高于Thinking的28.9%。

      這表明在數學推理任務中,直接生成解決方案可能比詳細思考更有效(尤其是在資源受限的情況下)。

      形式定理證明

      在MiniF2F和ProofNet數據集上,NoThinking在pass@k指標上與Thinking相當,但使用的token數量顯著減少(3.3–3.7倍)。

      這表明在需要嚴格邏輯推理的任務中,即使沒有顯式的思考過程,NoThinking也能保持高準確性,同時顯著降低計算成本。

      編程任務

      在LiveCodeBench數據集上:

      在低token預算下,NoThinking表現優于Thinking

      在高token預算下,Thinking有時表現更好

      這表明在編程任務中,思考過程可能在資源充足時提供一定優勢;但資源受限時,NoThinking的效率更高。

      NoThinking的pass@k性能

      隨著k值(生成的樣本數量)增加,NoThinking的pass@k性能通常會超過Thinking。

      這表明NoThinking生成的解決方案多樣性更高,能夠通過多次采樣提高準確性。

      一個典型的例子體現在AIME24數據集上——

      當k=64時,NoThinking在相同token預算下的pass@64準確率顯著高于Thinking。

      這表明NoThinking在多次嘗試中更有可能找到正確答案。

      并行擴展實驗

      實驗過程中,團隊進一步探索了NoThinking與并行計算擴展結合的潛力。

      通過同時生成多個輸出并進行聚合(如最佳選擇策略),評估這種方法在提高性能和降低延遲方面的效果。

      實驗結果表明,在結合并行擴展時,NoThinking表現出了顯著的性能提升。

      對于有Verifier的任務(如MiniF2F和ProofNet),NoThinking結合并行擴展可以實現與Thinking相當甚至更高的準確率,同時將延遲降低7倍,token使用量減少4倍。

      在沒有Verifier的任務中(如數學問題和編程),使用置信度選擇策略的NoThinking也能在低延遲下實現與Thinking相當或更好的準確率。

      例如,在AMC2023數據集上,NoThinking在并行擴展下比Thinking快9倍,同時準確率更高。

      總體而言,通過同時生成多個輸出并選擇最佳答案,NoThinking在延遲和token使用量上都優于Thinking。

      推理模型依賴于思考過程是“非必要的”

      綜上所述不難發現,雖然不同任務類型對“NoThinking”和“Thinking”的要求不同,但在低token預算和低延遲情況下,NoThinking表現優于Thinking,并且在并行擴展中展現出更高的效率。

      NoThinking方法在多個推理任務中表現出了令人驚訝的有效性表示:

      即使跳過了顯式的思考過程,模型依然能夠生成準確的解決方案。

      NoThinking方法證明了“推理模型依賴于思考過程”的非必要性。換句話說,可能存在更高效的方式來實現強大的推理性能,而不依賴于冗長的思考過程。

      這與目前普遍認為推理模型需要詳細思考過程才能有效工作的觀點相悖。

      面對這個結果,不少吃瓜群眾表達了自己的看法。

      有贊成者,比如ExtensityAI的聯合創始人兼CTO就表示,這一點也不令人意外。

      考慮到蒸餾過程,這個結果并不奇怪——學生可以在微調過程中內化老師的推理,并在推理時提供一條“捷徑”。

      但也有人表示NoThinking看似可以省略推理過程,但其實要耗費大量人工時間來實現:

      結果雖如此,但實際操作里到底有誰會耐心從k個答案里去挑選最佳的那個啊??

      不管怎么說,Nothinking還是帶給大家一個新視角,往后推理模型的優化,可以朝更簡單有效的方向嘗試看看。

      或許有一天,大家在等推理模型吐精準答案的時候,也不用焦慮地等待那么久了~

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    永久免费观看精品视频| 精品国产91久久久久久浪潮蜜月| 国产精品无码久久久久| 欧美日韩国产成人精品| 色成人在线视频| 欧美人与禽zozo性伦| 欧美丰满少妇xxxxx做受| 久久久久久久亚洲精品| 天堂久久一区二区三区| 中文字幕一区二区三区在线观看| 欧美日韩国产在线播放| 精品中文字幕乱| www.国产精品.com| 青青草国产成人a∨下载安卓| 国产免费视频在线| 最新国产精品久久精品| 久久久久久久香蕉网| 亚洲福利影片在线| 欧美日韩视频免费看| 久久午夜av| 欧美日本在线| 欧美性大战久久久久| 日韩高清三区| 天天躁日日躁狠狠躁欧美| 不卡电影一区二区三区| 欧美精品一二三区| 欧美高清videos高潮hd| 1769国产精品| 欧美激情在线视频二区| 日韩脚交footjobhdboots| 欧美日韩女优| 狠狠做深爱婷婷综合一区| 国产精品538一区二区在线| 久久久美女毛片| 久久精品国产精品亚洲| 日韩精品成人av| www.中文字幕久久久| 亚洲美女色禁图| 亚洲片国产一区一级在线观看| 亚洲大胆人体大胆做受1| 亚洲第一视频网站| 日韩精品免费视频人成| 午夜免费日韩视频| 欧美日韩国产小视频在线观看| 国内精品国产三级国产在线专| av免费观看一区二区| 成人毛片在线| 国产精品综合一区二区三区| 国产日韩欧美高清| 狠狠网亚洲精品| 久久深夜福利免费观看| 996久久国产精品线观看| 中文字幕日韩专区| 日韩视频免费大全中文字幕| 欧美精品一区在线| 蜜臀av性久久久久蜜臀aⅴ| 国产午夜精品视频免费不卡69堂| 亚洲综合日韩中文字幕v在线| 国产电影一区在线| 日韩欧美在线中文字幕| 一区二区三区欧美日| 欧美资源在线| 粉嫩av一区二区三区粉嫩| 日韩avvvv在线播放| 在线观看免费高清视频97| 国产91精品久久久久久久| 亚洲国产精品悠悠久久琪琪| 91中文字幕精品永久在线| 亚洲自拍偷拍一区| 在线播放视频一区| 欧美videos极品另类| 久久精品在这里| 日韩一区免费观看| 免费久久一级欧美特大黄| 99电影网电视剧在线观看| 欧美午夜视频在线| 大白屁股一区二区视频| 国产精品乱码一区二区三区| 亚洲一二三四| eeuss鲁片一区二区三区在线观看| av亚洲在线| 欧美色爱综合| 欧美日韩国产小视频在线观看| 天堂8中文在线最新版在线| gogo高清午夜人体在线| 亚洲日本视频在线| 日韩一区二区三区色| 亚洲国产精品t66y| 精品国产亚洲一区二区三区在线观看| 狠狠色丁香久久综合频道| 热99精品只有里视频精品| 日韩av三级在线观看| 亚洲国产成人一区二区三区| 日韩色在线观看| 欧美电影h版| 欧美日韩国产首页| 蜜臀av国产精品久久久久| 久久婷婷国产综合尤物精品| 免费在线成人av| 秋霞午夜av一区二区三区| 在线视频欧美区| 日韩欧美视频一区| 免费av一区二区三区四区| 欧美激情中文字幕乱码免费| 色综合视频二区偷拍在线| 精品视频免费看| 久久先锋影音av| 久久大大胆人体| 97人人模人人爽人人喊中文字| 欧美日韩国产小视频在线观看| 2021中文字幕一区亚洲| 亚洲人成伊人成综合网久久久| 欧美性欧美巨大黑白大战| 成人网ww555视频免费看| 国产精品视频区1| 亚洲狼人精品一区二区三区| 欧美激情视频网| 欧美视频一区二区三区在线观看| 91欧美一区二区| 国产日产亚洲精品系列| 91精品国产色综合久久不卡电影| 色豆豆成人网| 日本欧美久久久久免费播放网| 日韩视频免费观看高清完整版在线观看| 欧美日韩大片免费观看| 国产美女一区视频| 亚洲精品欧美在线| 国产调教精品| 欧美精品一区在线观看| 免费av网站大全久久| 日韩一区二区三区四区五区| 国产91在线播放| 亚洲精品激情| 久久av超碰| 欧美成人官网二区| 成人黄色av免费在线观看| 婷婷五月在线视频| 天天干在线视频论坛| 亚洲国产精品va| 欧美国产亚洲视频| 久久综合狠狠综合久久综青草| 精品国产一区二区三区香蕉沈先生| 亚洲一区二区3| 免费网站黄在线观看| 卡通动漫精品一区二区三区| 亚洲人成免费电影| 国内亚洲精品| 色综合电影网| 青草av在线| 国产成人精品www牛牛影视| 成人资源www网在线最新版| 亚洲第一福利视频| 亚洲国产精品va在线看黑人动漫| 福利视频亚洲| 久久精品国产成人一区二区三区| 视频一区欧美日韩| 97国产精品视频人人做人人爱| 国产99久久精品| 国色天香一区二区| 国产精品久久国产愉拍| 先锋影音国产一区| 日本韩国欧美超级黄在线观看| 99久久精品一区二区成人| 国产午夜亚洲精品午夜鲁丝片|