2025年高考數學結束后,關于數學考試難度的話題迅速引爆了熱搜。

于此同時,一場人類考生與AI的數學較量也引發廣泛關注。DeepSeek R1 0528、訊飛星火 X1-0420、GPT o3 等國內外主流深度推理大模型化身 "AI 考生",在高考數學卷上展開激烈角逐。其中,訊飛星火X1以141分的優異成績脫穎而出,穩居國內大模型第一梯隊。
本次評測由IT之家發起,采用了多版本交叉驗證結合老師解題驗證的方式,總分設定為150分,并特別邀請了具有十年高中數學一線教研經驗的專家輔助評分。參與評測的深度推理大模型共有七家,包括訊飛星火X1-0420、DeepSeek R1 0528、通義千問Qwen3-235B-A22B、豆包 Seed-Thingking-v1.5、文心X1 Turbo、騰訊混元Hunyuan T1 latest以及GPT o3。
在考試開始時,面對較為基礎的選擇題,各家大模型均有不錯的表現。

然而,隨著題目難度的不斷上升,模型間的差異開始顯現。比如在面對一道對數函數題時,DeepSeek都出現了錯誤。而到了解答題環節,各家比分開始進一步拉開差距。
根據測評的最終結果,本次參與測評的大模型大多達到了人類優秀考生的水準,相較去年有較大提升。其中,DeepSeek和訊飛星火X1表現突出,是唯二突破140分的大模型;豆包、通義千問、元寶等國產大模型分數則緊跟第三名GPT o3,接近國際頂尖的模型水平。
據悉,訊飛星火X1作為第一梯隊的深度推理大模型,其版本相較于其他模型較早,同時模型量級也相對較小(70B)。但是在測評中,訊飛星火X1卻展現出強大的推理能力。特別在解答題環節,訊飛星火都能夠給出正確的答案和清晰明了的解題過程,并多次獲得滿分,其表現令人印象深刻。

值得一提的是,基于在教育領域深耕20多年的經驗,訊飛星火X1在其他學科的測試中表現同樣亮眼。比如在微博#AI高考作文盲評挑戰#中,訊飛星火X1成功拔得頭籌;在英語作文方面,訊飛星火X1同樣在新京報的測評中奪得第一,展現出強大的語言能力。
隨著AI技術的不斷發展,深度推理大模型在教育領域的應用前景越來越廣闊。訊飛星火作為其中的佼佼者,不僅為學生提供了有力的學習支持,更為教育行業的創新升級注入了新的活力。未來,我們有理由相信,訊飛星火將繼續引領教育創新,為培養更多優秀人才貢獻力量。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。