今年1月,DeepSeek發布的R1模型不僅是一次普通的AI公告,更被譽為科技行業的“分水嶺”,其影響力震動了整個科技行業,迫使行業領導者重新思考AI開發的基本方法。DeepSeek的非凡成就并非源于新穎的功能,而是它以極低的成本實現了與科技巨頭相媲美的成果,這標志著AI發展正沿著“效率”和“計算”兩條并行軌道快速前進。
在約束中創新:低成本實現高性能
DeepSeek的異軍突起令人矚目,它展現了即使在重大限制下,創新也能蓬勃發展的能力。面對美國對尖端AI芯片的出口管制,DeepSeek被迫尋找AI發展的其他途徑。當美國公司通過更強大的硬件、更大的模型和更優質的數據追求性能提升時,DeepSeek則專注于優化現有資源,以卓越的執行力將已知理念付諸實踐,這本身就是一種創新。
這種效率至上的理念帶來了令人矚目的成果。據報道,DeepSeek的R1模型性能可媲美OpenAI,但運營成本僅為后者的5%到10%。更令人震驚的是,DeepSeek前身V3的最終訓練運行成本僅為600萬美元,與美國競爭對手動輒數千萬甚至數億美元的投入相比,這筆預算被特斯拉前AI科學家Andrej Karpathy稱為“笑話”。據報道,OpenAI花費5億美元訓練其最新的“Orion”模型,而DeepSeek僅花費560萬美元就取得了卓越的基準測試結果,不到OpenAI投資的1.2%。
值得注意的是,DeepSeek實現這些成果并非完全處于芯片劣勢。美國最初的出口管制主要針對計算能力,而非內存和網絡——而內存和網絡是AI發展的關鍵要素。這意味著DeepSeek使用的芯片具備良好的網絡和內存功能,使其能夠在多個單元之間并行執行操作,這是高效運行大型模型的關鍵策略。再加上中國在人工智能基礎設施垂直堆棧上的大力推動,進一步加速了這種創新。
實用主義數據策略:合成數據與模型架構優化
除了硬件優化,DeepSeek的訓練數據方法也獨具一格。據報道,DeepSeek并非僅僅依賴從網絡抓取的內容,而是利用了大量的合成數據和其他專有模型的輸出,這正是模型蒸餾的經典示例。盡管這種方法可能引發西方企業客戶的數據隱私和治理擔憂,但它凸顯了DeepSeek注重結果而非過程的務實作風。
有效利用合成數據是DeepSeek的關鍵差異化因素。DeepSeek等基于Transformer且采用混合專家(MoE)架構的模型在整合合成數據時更加穩健,而傳統密集架構的模型若過度使用合成數據可能導致性能下降甚至“模型崩潰”。DeepSeek的工程團隊在最初規劃階段就專門設計了模型架構,將合成數據集成納入考量,從而在不犧牲性能的情況下充分利用合成數據的成本效益。
市場反響:重塑AI行業格局
DeepSeek的崛起已引發行業領導者的實質性戰略轉變。例如,OpenAI首席執行官Sam Altman近期宣布計劃發布公司自2019年以來首個“開放權重”語言模型。DeepSeek和Llama的成功似乎給OpenAI帶來了巨大沖擊。DeepSeek推出僅一個月后,Altman便承認OpenAI在開源AI方面“站在了歷史的錯誤一邊”。
面對每年高達70億至80億美元的運營成本,DeepSeek等高效替代方案帶來的經濟壓力已不容忽視。正如人工智能學者李開復所言,競爭對手的免費開源模型正迫使OpenAI做出改變。盡管OpenAI進行了400億美元的巨額融資,公司估值達到3000億美元,但其方法比DeepSeek耗費更多資源的根本挑戰依然存在。
超越模型訓練:邁向“測試時計算”和自主評估
DeepSeek還加速了向“測試時計算”(TTC)的轉變。隨著預訓練模型對公共數據利用接近飽和,數據稀缺正在減緩預訓練的進一步改進。為解決此問題,DeepSeek宣布與清華大學合作,實現“自我原則性評論調優”(SPCT),即AI開發自己的內容評判規則,并利用這些規則提供詳細評論,包含內置的“評委”實時評估AI的答案。
這項進展是AI系統自主評估和改進運動的一部分,模型利用推理時間來改進結果,而非簡單地增大模型規模。DeepSeek將其系統稱為“DeepSeek-GRM”(通用獎勵模型)。然而,這種方法也伴隨著風險:如果AI制定自己的評判標準,可能偏離人類價值觀、倫理道德,甚至強化錯誤的假設或幻覺,引發對AI自主判斷的深層擔憂。盡管如此,DeepSeek再次在他人工作的基礎上,創建了可能是SPCT在商業上的第一個全棧應用程序。這可能標志著AI自主性的重大轉變,但仍需嚴格的審計、透明度和保障措施。
展望未來:適應與變革
綜合來看,DeepSeek的崛起預示著人工智能行業將朝著并行創新軌道邁進。在各大公司持續構建更強大的計算集群的同時,它們也將重點關注通過軟件工程和模型架構改進來提升效率,以應對AI能耗帶來的挑戰。微軟已停止了全球多個地區的數據中心建設,轉向更加分布式、高效的基礎設施建設,并計劃重新分配資源以應對DeepSeek帶來的效率提升。Meta也發布了首次采用MoE架構的Llama4模型系列,并將其與DeepSeek模型進行基準測試,這標志著中國AI模型已成為硅谷公司值得參考的基準。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。