阿里通義千問又整了一個大新聞。
昨日凌晨,一款只有70億參數的Qwen2.5-Omni“小模型”悄悄上線,并在權威的多模態融合任務評測OmniBench中,一舉刷新了業界紀錄,超越了谷歌Gemini-1.5-Pro等眾多同類模型。

說Qwen2.5-Omni-7B這個大模型“小”,還是因為它的尺寸,僅有70億參數,但它卻是時下全球性能最強的端到端全模態大模型,能夠同時處理文本、圖像、音頻、視頻等多種模態信息,并實時輸出文本與自然語音,而且,在seed-tts-eval語音生成基準測試中,展現出與人類水平相當的語音合成能力。
自從阿里在QwQ-32B這款“小而強”的大模型上看到了適用性的巨大潛力以來,把模型做“小”,增強端側的普適性似乎就成了阿里在大模型這條賽道上的主攻方向。能放進手機里的大模型
在過去的數月間,我們已經見到了太多裝著滿血大模型的洗衣機、電冰箱、電飯鍋,乃至中藥泡腳桶。就像電動機剛出現的時候那樣,不管有用沒用,所有的東西都要來一遍電氣化,這個時間持續了上百年。就像王堅院士所言,電動汽車,是人類電氣化改造的最后一個行業。
大模型的發展路徑似乎亦是如此,當羊毛大衣也開始打出大模型廣告的時候,沸騰且喧囂的行業也就到了歸納總結換方向的時候了,大模型產業的落地,從是否有接入為標準,一步進化到接入后有沒有用的新范式。
阿里通義Qwen2.5-Omni-7B可能就是理順這一切的關鍵工具。它從需求側出發,采用了Thinker-Talker架構,前者類似人類大腦,負責處理和理解來自文本、音頻、視頻等多模態輸入信息,后者則是嘴巴,以流式的方式接收Thinker實時輸出的語義表征與文本,然后合成離散語音tokens,由此就實現了語義理解與語音生成的高效協同。簡而言之,因為它,大模型開始會說“人話”了。

大模型會說話有多重要呢,至少情緒價值是給足了。
比如你找不到路了,它會告訴你,“先別太慌,看看有沒有其它辦法,讓你快點兒到會議室”,隨后給你制定一條最快達到的路線。
再或者,當你不確定超市里售賣的零食有沒有“科技和狠活”的時候,它也能從配料表里分析個頭頭是道,指導你的膳食健康。
![]()
當然了,這些都是最日常的應用,并不能完全展現Qwen2.5-Omni-7B的實力。在更多專業領域,它在語音理解、視頻理解、語音生成等領域的測評分數,均領先于專門的Audio或VL模型,且4.51的語音生成測評分數已經達到了與人類持平的能力。換言之,有了這款大模型,真正的自然語音人機對話就成為了現實。
![]()
![]()
如果你是一名音樂愛好者,你甚至可以對著它彈奏,然后讓它給出指導意見,進一步精進自己的吉他技術。而在此之前,大部分大模型所能做的,還需要先上傳錄音,然后它再通過文本的方式輸出指導意見。
這種方式當然也很“智能”,只是從用戶的感受角度來說,似乎遠遠不夠“酷”。而Qwen2.5-Omni-7B則不一樣,它因為優化了實時交互能力,支持即時輸出,你問什么它就能答什么,展現出了極強的實用性——你不會覺著自己是在和機器對話,而是一個真正的朋友。
不知道你有沒有注意到,在上述的例子中,Qwen2.5-Omni-7B一直都是以手機的形態在出現,這恰恰就是它最強的地方,甚至于比模型參數的尺寸還要重要的多。
因為它足夠小巧,能裝進手機,所以在適用性上一下子多了無數的場景,又因為它能說“人話”,在能力展現上又多出了一個維度的可能性。
據可靠消息, 目前除了在蘋果手機上,Qwen2.5-Omni-7B主導著手機“智能”的一面,在國內其它90%的手機上,背后都有它的身影,不管是旅行時問餐館旅店,還是閱讀論文做計算,Qwen2.5-Omni-7B都會“聽聲”而出。
為什么蘋果及其它手機品牌會選擇Qwen2.5-Omni-7B來合作,根本原因還是大模型的效率問題,手機太小,性能和續航也極其有限,必須要把有限的資源放在最重要的地方。
在以往,很多大模型也能根據文本或者語音、視頻輸出對話,但它們都是通過各個不同的相對應的模型來實現的。好比你去超市買東西,牛奶在一個區,餅干在一個區,洗發水又在另一個區,要實現這三件目標,相互獨立的單鏈路模型首先就得去這三個地方分別提取商品(理解語義),然后再分別輸出給你,Qwen2.5-Omni-7B就不一樣了,你只要在超市門口喊一嗓子,“我要牛奶餅干洗發水”,屏幕和喇叭馬上輸出出全部你想要的內容。
正是因為用一個模型打通“聽、說、看”的全鏈路特性,Qwen2.5-Omni-7B才獲得了手機廠商們的集體青睞,并且成為了全球性能最強的端到端全模態大模型。 全模態革命,Qwen2.5-Omni-7B重構未來產業圖景
AI大模型亟需要落地。
Qwen2.5-Omni-7B的出現正是AI這一核心價值的具體展現,事實上,AI的深層次價值就是在于更貼近人類認知和現實世界的需求,這不僅是邁向AGI(通用人工智能)的必經之路,也是大模型發展的必然趨勢。
在邁向這一遠景的征途中,除了手機以外,以Qwen2.5-Omni-7B為代表的大模型第一個改變的就應該是智能硬件產業,其70億參數的尺寸使其非常適合在端側部署,打造出更智能、更便捷的用戶體驗。
比如掃地機器人可以依靠該模型完成復雜任務,不再被桌腿卡住而哇哇亂叫一整天;冰箱和煙機灶具聯手,通過食材主動推薦菜譜并完成烹飪程序;AR眼鏡以此實現更自然的語音交互和實時信息獲取,徹底改造它的使用場景。
此外,學生可以通過語音提問、文字輸入以及上傳相關的圖像或視頻資料等方式與模型進行交互,Qwen2.5-Omni-7B則夠根據這些多模態輸入,及時解答學生的問題,并提供針對性的學習建議和輔導資料。這不僅有助于提高學生的學習興趣和積極性,還能幫助教師更好地了解學生的學習需求,優化教學過程,提升教育質量。
醫療領域一直是人工智能應用的重要場景之一。能夠同時處理文本、圖像、音頻、視頻等多種模態信息,這使得Qwen2.5-Omni-7B在醫療診斷方面具備了巨大優勢。醫生可以借助該模型,綜合分析患者的病歷文本、醫學影像、語音描述等多模態數據,從而更全面地了解病情,提高診斷的準確性和效率。
例如,在分析X光片、CT影像等醫學圖像時,Qwen2.5-Omni-7B能夠快速識別出異常區域,并結合患者的病史和其他相關信息,為醫生提供更精準的診斷建議。它還可以根據患者的個體特征和病情發展,輔助制定個性化的治療方案,推動醫療行業向更加精準、高效的個性化醫療時代邁進。
總之,Qwen2.5-Omni-7B作為一款性能卓越的全模態大模型,其在醫療、教育、智能硬件、電商、金融等多個行業都具有廣闊的應用前景和變革潛力。隨著技術的不斷進步和應用場景的不斷拓展,Qwen2.5-Omni-7B必將為各行業帶來更多的創新機遇,推動產業的智能化升級和高質量發展,為人們的生活和社會的進步創造更大的價值。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。