近日, DeepSeek 發布了其最新的 R1推理 AI 模型更新版,該模型在多個數學和編程基準測試中展現出色性能。然而,DeepSeek 并未透露其模型的訓練數據來源,令一些 AI 研究人員產生了疑問,并推測該模型可能部分基于 Google 的 Gemini AI 系列進行訓練。
墨爾本的開發者 Sam Paeach 聲稱,他發現 DeepSeek 的 R1-0528模型在用詞和表達方式上與 Google Gemini2.5Pro 有許多相似之處。雖然這并不能作為直接證據,但另一位開發者 —— 匿名的 SpeechMap 項目創始人 —— 也提到,DeepSeek 模型在推理過程中產生的 “思維軌跡” 與 Gemini 的表現如出一轍。這一發現再次引發了關于 DeepSeek 是否在訓練中使用了競爭對手數據的討論。
早在去年12月,DeepSeek 就曾因其 V3模型頻繁將自己標識為 OpenAI 的 ChatGPT 而受到指責,這一行為暗示該模型可能是通過 ChatGPT 的聊天記錄進行訓練的。今年早些時候,OpenAI 向媒體透露,發現了 DeepSeek 與 “數據蒸餾” 技術相關的證據。“數據蒸餾” 是一種通過從大型模型中提取信息來訓練新模型的方法。彭博社報道稱,OpenAI 的合作伙伴微軟在2024年底發現,很多數據是通過 OpenAI 開發者賬戶泄露的,這些賬戶可能與 DeepSeek 有關。
盡管 “提煉” 技術在 AI 界并不罕見,但 OpenAI 明確規定禁止用戶使用其模型輸出構建競爭產品。需要注意的是,由于開放網絡中充斥著大量低質量內容,許多 AI 模型在訓練中往往會錯誤地模仿彼此的用詞和措辭。這使得深度剖析訓練數據源變得更加復雜。
人工智能專家 Nathan Lambert 認為,DeepSeek 使用 Google Gemini 的數據進行訓練并非不可能。他提到,DeepSeek 擁有充足的資金,能夠利用市面上最佳的 API 模型生成合成數據。為了防止數據被提煉,AI 公司們也在不斷加強安全措施。例如,OpenAI 已開始要求各組織完成身份驗證才能訪問某些高級模型,而 Google 也在努力提高其 AI Studio 平臺的安全性,限制對模型生成軌跡的訪問。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。