目前該模型主要聚焦中英文對話,這點上與 Meta 的SeamlessStreaming 等跨語種模型相比仍有差距 。Meta 在2023年12月發布 Seamlessstreaming 時,就已經能夠涵蓋近 100 種輸入語言和 36 種語音輸出語言。從"語言覆蓋面"這個角度,字節確實還有很長的路要走。
除此之外,在用戶體驗上雙方之間的差距已急劇縮小,下方是官方發布視頻:
字節同步發布了基準測試成績,Streamlessstreaming仍舊停留在這張表上,不過SeedLiveInterpret 2.0成績很不錯。中英互譯平均翻譯質量的人類評分達到 74.8(滿分 100,評估譯文準確率)
![]()
相比之下,其他大多廠商的語音同傳翻譯產品基本不支持實時的語音復刻,在體驗上基本維持在語音輸入文字輸出的交互方式,我們也就不再多進行類比。
客觀地說,體驗下來,目前的模型技術還存在一些明顯的局限。 在不同語言方向上的音色克隆表現差異較大,技術的一致性還需要改進。 對于特定領域的專業詞匯,翻譯準確度還有提升空間。不過,語音復刻雖然略顯稚嫩,但也確實帶來了更有意思的交互體感。
B
同傳語音模型相對于單純語音生成來說,難度可能已經是Next Level了。同傳模型需要同時做三件事:聽懂你說的話(語音識別)、翻譯成另一種語言(機器翻譯)、再用自然的聲音說出來(語音合成)。
因此,這波字節語音翻譯模型的升級并不只是為了做一個“翻譯軟件”。它的核心價值在于"語音交互"能力已經宣告成熟,翻譯只是其中一個應用場景。
這是關于“語義交互”方式的競爭。
豆包同傳模型2.0的推出,實際上是字節跳動在AI大模型生態布局中的重要一步。回顧一下時間線:早在2024年,豆包就發布了初代同傳模型,但那時只能輸出文字翻譯結果。
當然,除了字節之外,無論是國內還是國外,幾乎所有基礎大模型廠商都把目光投向了語音模型這個賽道。然而,生成語音很簡單,難的是“實時語音+實時翻譯+實時輸出”,許多大廠都正在攻堅。
比如,只談及“純血同傳翻譯”模型的話,大家自然會把目光轉向阿里巴巴。在2024年云棲大會上,阿里高調推出了新一代端到端語音翻譯大模型 Gummy,雖然無法實時語音復刻,但也可實時流式生成語音識別與翻譯結果。
其在多個維度中都獲得了SOTA級別的表現,翻譯延遲甚至降到了0.5s以下:


"賣體驗"比"賣翻譯功能"要更吸引人。
同傳翻譯模型2.0背后,大家的關注點更多的還是在于語音類模型背后的潛力,而非垂直翻譯能力,大家的興奮點并不在于它能把中文翻譯成英文有多準確。
如果,我們繼續將目光放寬一點,會發現專攻語音交互模型賽道的選手,已經遍布整個市場了,它們正在從各個角度撬動用戶應用場景。
像是最近,在輿論場和資本場拿回一點聲量的“AI六小龍”之一—— MiniMax,也不甘示弱連續發布了MiniMax-Speech系列模型,特別是2025年5月推出的 Speech-02 模型,號稱是"全球第一的TTS語音模型"。
其在社交場上獲得聲量并引起關注的原因,追其根本,在于它單次輸入支持 200K 字符,支持 30 多種語言,擁有超逼真的語音克隆體驗。

OpenAI的高級語音模式就更不用提了,如果你翻看各種社媒產品,就會發現幾乎所有領域的用戶都在抱怨“Plus用戶的語音限額有點少的可憐”,這說明低延遲、實時語音、擬人性的需求非常高。
只不過,OpenAI做產品確實有點慢,尚未將手伸向一些明確的應用場景,不過倒是投了一批初創企業。像是語言學習語音交互平臺 Speak,2024 年年底OpenAI曾參與其 7,800 萬美元融資,并將自身語音技術模型融入進去,現在這家公司估值已經突破 10 億美元了。
Elon Musk也早早布局,他xAI旗下的Grok模型最近也卷入了語音賽道:7月中旬,Grok應用新增了"伴侶模式",上線了一位可互動的3D虛擬AI少女形象 Ani。這個虛擬角色可以用甜美的動漫嗓音與用戶對話,在日本網友中迅速走紅,被戲稱為"AI女友"。
Grok對語音能力的意識顯然要比其他大廠商超前一點,像是ElevenLabs等初創企業與Grok在腦機接口上的合作,為漸凍癥患者替換聲音的操作,自然而然為這類模型打了一個大大的廣告。
C
多方動向背后,說明業界對于實時語音在AI產品商業化中的價值形成了共識。
首先讓我們回顧下AI產品的發展軌跡,在多模態交互中,構建從“語音到語音”的閉環體驗在過去兩年就被認為是下一個關鍵目標。過去的AI產品(無論是Chatbot還是AI 硬件)更多停留在文字和圖像處理層面,但在人類日常交流中,語音才是最自然、最高效的溝通方式。所以,語音交互能帶給用戶更好更佳更AI的體驗過程,而這正好意味著一片“痛點藍海”。
各大廠搶攻語音模型,正是為了搶占這一未來的藍海市場,其第一步就是搶占入口。
相信從過去一年的“Chatbot”入口界面爭奪戰中,許多基礎模型廠商都悟得了一個道理:單純文字對話的用戶體驗每上升1分,背后可能是100分的模型能力提升,10000分的算力、算法、架構的投入。
因為語音交互不像搜索引擎那樣存在一個絕對的入口,用戶可能從任何一個點開始接觸,然后逐漸習慣這種交互方式,這背后的商業價值可以說高到難以想象。
這場語音賽道的集體押注,實際上是各大廠商對未來AI應用場景的一次集體下注。
從進入2025年以來,AI硬件產品已經進入“井噴式領域”。各種形態的智能設備如雨后春筍般涌現。
從最原初的純剛需來看,跨國出;蛘呤菚h場景是始終繞不過的一關。各種翻譯企業從機器翻譯、神經網絡翻譯再到AI翻譯,已經走過了一關又一關,商業成果進展緩慢,蛋糕做大困難。相比之下,如果實時語音同傳成熟化,這種體驗的商業價值是巨大的。
無論是這些硬需求,還是滿足用戶對于AI未來交互體驗的“軟需求”,都需要一個合適的載體 —— AI硬件,或許很多人對此嗤之以鼻,認為其全部是套殼產品。但現實是,新一代AI硬件浪潮對語音翻譯技術產生了強烈的需求牽引。硬件產品非常能夠激發市場去琢磨一個市場還存在哪些尚未被發現的隱秘機會。
同時,在國外各個主力AI模型都已經開始開發不同的收費模式時,反觀國內,除了AI Agent帶來了較為成體系的價格結構之外,AI基礎模型廠商幾乎是“一片噤聲”,無人愿意提及。正如大家常說的:“光靠模型就能盈利,那是做夢”。
AI也需要一個載體。
2023年以來,從硅谷初創公司Humane推出的可佩戴顯示設備 AI Pin,到國內創業團隊研發的 Rabbit R1 ,年收入近1億美金的AI錄音硬件 Plaude、TicNote、再到字節推出的Ola Friend耳機,各種形態的可穿戴AI助手層出不窮?拼笥嶏w也推出了主打實時多語種同傳功能的會議耳機和翻譯耳機,AI硬件已經事實上成為了各家廠商將AI商業化的“救命稻草”。
OldFriend 這款勉強被稱為AI硬件的產品,可以通過喚醒詞 “豆包豆包” 激活其 AI 聊天助手豆包,從而將體驗的支撐角色轉移給豆包。但是,這種體驗缺乏真正的顛覆性使用場景。
既然是AI硬件,還是要從AI下手。
當字節宣布同傳大模型2.0發布時,同時提到了該模型將在8月迅速進入Old Friend耳機中,為其補足更多的語音交互能力。我們可以這么理解,語音翻譯模型帶來的"實時語音交互"體驗,正在成為AI硬件產品吸引用戶的新戰場。
當然,在語音這個大領域內,還存在其他分支賽道。比如字節、MiniMax前段時間都火出圈的AI播客功能,以及專注情感陪伴的語音AI產品。各家AI創業公司正在瘋狂挖掘語音交互的潛力,大家逐漸發現了AI產品發展下半程的"引爆點"——語音交互市場。
此次字節豆包同傳模型的發布、官方迅速宣布該模型將立刻接入硬件,以及前段時間字節投入大力氣打造的播客模型等等,都在宣告著國內“語音”市場的潛力才剛剛展現。
“搶占下一代AI產品交互入口之前,先把硬件造出來”是國內普遍信奉的樸素商業道理。在此之上,AI廠商們在看到不斷有初創企業通過“較差”或者只是開源的AI大模型技術就已經能發掘出這么多應用場景了,肯定會捫心自問:我何樂而不為呢?
尤其是AI實時語音交互賽道,尚且沒有將這項體驗完整融合到硬件市場的產品出現。作為擁有AI原生技術的字節——這個大廠的標桿之一,開始認真考慮:語音交互很可能成為下一個改變人機交互方式的關鍵技術。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。