當全球最強全模態大模型開始說“人話”，AI產業落地才有了新方向

2025年03月28日 17:32:51 來源：電科技

　　阿里通義千問又整了一個大新聞。

　　昨日凌晨，一款只有70億參數的Qwen2.5-Omni“小模型”悄悄上線，并在權威的多模態融合任務評測OmniBench中，一舉刷新了業界紀錄，超越了谷歌Gemini-1.5-Pro等眾多同類模型。

Qwen2.5-Omni-7B

　　說Qwen2.5-Omni-7B這個大模型“小”，還是因為它的尺寸，僅有70億參數，但它卻是時下全球性能最強的端到端全模態大模型，能夠同時處理文本、圖像、音頻、視頻等多種模態信息，并實時輸出文本與自然語音，而且，在seed-tts-eval語音生成基準測試中，展現出與人類水平相當的語音合成能力。

　　自從阿里在QwQ-32B這款“小而強”的大模型上看到了適用性的巨大潛力以來，把模型做“小”，增強端側的普適性似乎就成了阿里在大模型這條賽道上的主攻方向。能放進手機里的大模型

　　在過去的數月間，我們已經見到了太多裝著滿血大模型的洗衣機、電冰箱、電飯鍋，乃至中藥泡腳桶。就像電動機剛出現的時候那樣，不管有用沒用，所有的東西都要來一遍電氣化，這個時間持續了上百年。就像王堅院士所言，電動汽車，是人類電氣化改造的最后一個行業。

　　大模型的發展路徑似乎亦是如此，當羊毛大衣也開始打出大模型廣告的時候，沸騰且喧囂的行業也就到了歸納總結換方向的時候了，大模型產業的落地，從是否有接入為標準，一步進化到接入后有沒有用的新范式。

　　阿里通義Qwen2.5-Omni-7B可能就是理順這一切的關鍵工具。它從需求側出發，采用了Thinker-Talker架構，前者類似人類大腦，負責處理和理解來自文本、音頻、視頻等多模態輸入信息，后者則是嘴巴，以流式的方式接收Thinker實時輸出的語義表征與文本，然后合成離散語音tokens，由此就實現了語義理解與語音生成的高效協同。簡而言之，因為它，大模型開始會說“人話”了。

Qwen2.5-Omni-7B

　　大模型會說話有多重要呢，至少情緒價值是給足了。

　　比如你找不到路了，它會告訴你，“先別太慌，看看有沒有其它辦法，讓你快點兒到會議室”，隨后給你制定一條最快達到的路線。

　　再或者，當你不確定超市里售賣的零食有沒有“科技和狠活”的時候，它也能從配料表里分析個頭頭是道，指導你的膳食健康。

　　當然了，這些都是最日常的應用，并不能完全展現Qwen2.5-Omni-7B的實力。在更多專業領域，它在語音理解、視頻理解、語音生成等領域的測評分數，均領先于專門的Audio或VL模型，且4.51的語音生成測評分數已經達到了與人類持平的能力。換言之，有了這款大模型，真正的自然語音人機對話就成為了現實。

　　如果你是一名音樂愛好者，你甚至可以對著它彈奏，然后讓它給出指導意見，進一步精進自己的吉他技術。而在此之前，大部分大模型所能做的，還需要先上傳錄音，然后它再通過文本的方式輸出指導意見。

　　這種方式當然也很“智能”，只是從用戶的感受角度來說，似乎遠遠不夠“酷”。而Qwen2.5-Omni-7B則不一樣，它因為優化了實時交互能力，支持即時輸出，你問什么它就能答什么，展現出了極強的實用性——你不會覺著自己是在和機器對話，而是一個真正的朋友。

　　不知道你有沒有注意到，在上述的例子中，Qwen2.5-Omni-7B一直都是以手機的形態在出現，這恰恰就是它最強的地方，甚至于比模型參數的尺寸還要重要的多。

　　因為它足夠小巧，能裝進手機，所以在適用性上一下子多了無數的場景，又因為它能說“人話”，在能力展現上又多出了一個維度的可能性。

　　據可靠消息，目前除了在蘋果手機上，Qwen2.5-Omni-7B主導著手機“智能”的一面，在國內其它90%的手機上，背后都有它的身影，不管是旅行時問餐館旅店，還是閱讀論文做計算，Qwen2.5-Omni-7B都會“聽聲”而出。

　　為什么蘋果及其它手機品牌會選擇Qwen2.5-Omni-7B來合作，根本原因還是大模型的效率問題，手機太小，性能和續航也極其有限，必須要把有限的資源放在最重要的地方。

　　在以往，很多大模型也能根據文本或者語音、視頻輸出對話，但它們都是通過各個不同的相對應的模型來實現的。好比你去超市買東西，牛奶在一個區，餅干在一個區，洗發水又在另一個區，要實現這三件目標，相互獨立的單鏈路模型首先就得去這三個地方分別提取商品(理解語義)，然后再分別輸出給你，Qwen2.5-Omni-7B就不一樣了，你只要在超市門口喊一嗓子，“我要牛奶餅干洗發水”，屏幕和喇叭馬上輸出出全部你想要的內容。

　　正是因為用一個模型打通“聽、說、看”的全鏈路特性，Qwen2.5-Omni-7B才獲得了手機廠商們的集體青睞，并且成為了全球性能最強的端到端全模態大模型。全模態革命，Qwen2.5-Omni-7B重構未來產業圖景

　　AI大模型亟需要落地。

　　Qwen2.5-Omni-7B的出現正是AI這一核心價值的具體展現，事實上，AI的深層次價值就是在于更貼近人類認知和現實世界的需求，這不僅是邁向AGI(通用人工智能)的必經之路，也是大模型發展的必然趨勢。

　　在邁向這一遠景的征途中，除了手機以外，以Qwen2.5-Omni-7B為代表的大模型第一個改變的就應該是智能硬件產業，其70億參數的尺寸使其非常適合在端側部署，打造出更智能、更便捷的用戶體驗。

　　比如掃地機器人可以依靠該模型完成復雜任務，不再被桌腿卡住而哇哇亂叫一整天;冰箱和煙機灶具聯手，通過食材主動推薦菜譜并完成烹飪程序;AR眼鏡以此實現更自然的語音交互和實時信息獲取，徹底改造它的使用場景。

　　此外，學生可以通過語音提問、文字輸入以及上傳相關的圖像或視頻資料等方式與模型進行交互，Qwen2.5-Omni-7B則夠根據這些多模態輸入，及時解答學生的問題，并提供針對性的學習建議和輔導資料。這不僅有助于提高學生的學習興趣和積極性，還能幫助教師更好地了解學生的學習需求，優化教學過程，提升教育質量。

　　醫療領域一直是人工智能應用的重要場景之一。能夠同時處理文本、圖像、音頻、視頻等多種模態信息，這使得Qwen2.5-Omni-7B在醫療診斷方面具備了巨大優勢。醫生可以借助該模型，綜合分析患者的病歷文本、醫學影像、語音描述等多模態數據，從而更全面地了解病情，提高診斷的準確性和效率。

　　例如，在分析X光片、CT影像等醫學圖像時，Qwen2.5-Omni-7B能夠快速識別出異常區域，并結合患者的病史和其他相關信息，為醫生提供更精準的診斷建議。它還可以根據患者的個體特征和病情發展，輔助制定個性化的治療方案，推動醫療行業向更加精準、高效的個性化醫療時代邁進。

　　總之，Qwen2.5-Omni-7B作為一款性能卓越的全模態大模型，其在醫療、教育、智能硬件、電商、金融等多個行業都具有廣闊的應用前景和變革潛力。隨著技術的不斷進步和應用場景的不斷拓展，Qwen2.5-Omni-7B必將為各行業帶來更多的創新機遇，推動產業的智能化升級和高質量發展，為人們的生活和社會的進步創造更大的價值。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...