文|白 鴿
編|王一粟
2022年,受視頻直播等業務發展需求的影響,視頻云賽道成為各大廠集體押注的領域之一。
這一年,字節跳動、快手相繼發布了背后的視頻云技術能力。而同期與之相爭的,除了阿里云、騰訊云、華為云等云計算大廠外,還包括聲網、七牛云等音視頻領域的垂直玩家。
但在此之后,視頻云賽道并未如預期中實現持續的爆發增長。
2023年4月24日,IDC發布《中國視頻云市場跟蹤,2022下半年》報告顯示:2022 下半年中國視頻云市場規模達到 49.8 億美元(343.3 億人民幣),與2021年同期維持在同一水平。
2023年全年,中國視頻云基礎設施市場規模為75.1億美元,同比下滑5.2%,市場承壓明顯。
直到今年上半年,中國視頻云市場開始止跌回升。
10月,IDC發布《中國視頻云市場跟蹤,2024上半年》報告顯示,2024上半年中國視頻云市場規模達到近48.1億美元,同比增長3.9%。
IDC表示,2024年,主要音視頻平臺終端用戶DAU,及平均播放時長止跌企穩、直播帶貨以及部分場景需求持續增長、出海服務范圍不斷拓展,均為視頻云市場回暖奠定基礎。
這背后影響原因在于,生成式AI、多模態大模型與視頻云的產品融合實現了超預期進展。同時,隨著《黑神話:悟空》的爆火,全景直播、三維重建的成熟,視頻的交互與消費鏈路也被重構。
“生成式AI、多模態大模型、全景直播、三維重建等技術,將我們從流暢、實時、高清的數字世界帶入更智能、更交互、更沉浸的AI世界。”火山引擎總裁譚待在近期舉辦的視頻云技術大會上如此說道。
無疑,受AI大模型的爆發,拉動了視頻云業務的二次增長。但在智能化視頻時代,如何打造一個更高效、低成本以及更加廣泛應用的技術底座,也成為擺在行業中的難題。
顛覆底層能力,AI加碼視頻云
AI,正在改變人們的生活方式,尤其是GPT-4o發布之后,多模態大模型的應用和落地。
在視頻內容生產上,Sora的發布引發全球視頻大模型熱潮,僅在國內,就先后出現了字節系即夢、快手系可靈,創業公司系Pika、智譜清影、生數科技Vidu等一眾明星產品。
這些平臺的出現,不僅能夠大幅縮短UGC、PUGC音視頻創作時間,甚至是重塑生產流程,極大降低用戶生產門檻,讓“人人都是導演”成為現實,內容生產數量也將呈現幾何性增長。
在語音方面,隨著端到端語音能力的升級迭代,也讓人機語音交互體驗更流暢,AI情感陪伴賽道日漸火熱。
不管是AI視頻生成,還是端到端語音,多模態大模型的發展,給音視頻的智能化升級帶來了無限可能。同時,功能升級也正在成為音視頻云服務市場的重要增量。
比如,直播帶貨已經成為電商平臺和頭部商家的標配,也是眾多中小商家的首選。而為了有更好的賣貨體驗,超低時延直播已經成為直播電商平臺的必選產品,而集合上述技術的數字人直播帶貨,也成為很多商家的標配。
不過,AI大模型也在倒逼著視頻云升級。
“這場變革主要體現在算力層、編解碼層以及框架層三個關鍵層面。”抖音集團視頻架構負責人王悅稱。
具體來說,在算力層,生成式AI技術正在大幅降低視頻生成的門檻,導致視頻數據以驚人的20倍速增長。但同樣也對算力提出了更高的需求,以Sora模型為例,其訓練和推理所需的算力需求分別達到了 GPT 4.0 的4.5倍和近400倍,凸顯了算力層變革的重要性和緊迫性。
與此同時,隨著視頻生成大模型的興起,訓練大模型的處理框架也面臨的諸多挑戰,包括成本、質量以及性能等諸多方面。
畢竟,超大規模視頻訓練數據集會導致計算和處理成本激增,視頻樣本數據質量參差不齊,數據樣本有待分類、分段和清洗,處理鏈路會涉及到多個環節,工程復雜,需要多團隊的協同,而自研第三方CPU\GPU及多種機構算力資源,也需要靈活的調度和部署。
相應地,對于視頻云來說,框架層面不僅要能夠處理大模型的高效運行,還要能夠滿足日益復雜的音視頻處理的需求,以應對生成式AI時代所帶來的挑戰。
在編解碼層面,作為視頻處理的核心技術,編解碼技術的智能化升級正在推動著與智能技術的深度融合,這種融合不僅提升了編解碼效率,更為用戶帶來更加優質的視頻體驗。
盡管挑戰重重,但也伴隨著更大的發展機遇。王悅分享了一組來自市場調研機構的數據:
視頻是云業務中增長最快的工作負載之一;到2026年,視頻在數據中心基礎設施中的占比將從10%增長到20%~25%;到2024~2030年,市場規模預計將達千億美元。
這也就意味著,視頻云業務的市場增長空間還很大。不過,從算力、到編碼,再到框架,音視頻領域各層級的技術體系和架構,都需要適應AI時代所帶來的變革發展。
背靠抖音,火山引擎能否彎道超車
在視頻云市場中,主要存在著三類玩家:
一類是云廠商,以阿里云、騰訊云、華為云、百度智能云等為主的玩家,其中阿里云和騰訊云長期占據視頻云領域云基礎設施和解決方案市場的首位。
一類是抖音和快手兩大視頻平臺,不過抖音背后的火山引擎,也屬于云服務商,但其視頻云業務實質是脫胎于視頻生產平臺。
一類是實時音視頻行業垂直廠商聲網、七牛云等。
上述幾家廠商,主導了視頻云賽道的市場。
IDC數據顯示,2024上半年,視頻內容分發網絡服務(點播帶寬)市場中,阿里云、騰訊云、華為云、中國電信、火山引擎、網心科技合計市場份額環比提升,本期達到63.4%。
視頻直播云服務市場中,騰訊云、華為云、阿里云、火山引擎、金山云合計市場份額環比提升,本期達到66.1%。音視頻通信云服務(RTC/RTE)市場中,聲網、騰訊云、即構科技、火山引擎、阿里云合計市場份額環比持平,為78.3%。
其中,騰訊云音視頻的解決方案市場份額連續8次蟬聯榜首,在視頻直播云服務市場、視頻生產與媒資管理領域,市場份額也均排名第一。

火山引擎作為后來者,生生的在競爭激烈且穩固的視頻云賽道中,撕開了一條口子。2024上半年,火山引擎在中國視頻內容分發網絡服務市場中,占了5.1%的市場份額。
但也不難看出,火山引擎的視頻云業務在國內市場的競爭壓力還是不小。
相比于云廠商和聲網、七牛云等,火山引擎視頻云業務能借力的,顯然就是抖音這顆大樹。
基于抖音生態場景實踐所推出的技術能力體系以及各類型解決方案,也將會成為火山引擎視頻云業務的“殺手锏”。
比如,王悅透露了字節自研視頻編解碼芯片的最新進展,經過抖音內部的實踐驗證,該芯片在同等視頻壓縮效率下,成本節省了95%以上,還在2024MSU世界編碼器大賽中一舉奪得最佳ASIC編碼器。
編碼對于視頻業務的發展至關重要。
畢竟視頻云是一個算力密集型行業,視頻信息量很大,假如采用和文本、圖片一樣的壓縮模式,那么還原度是不夠的,所以視頻必須進行編碼處理。編碼要是做不好,不僅會損失視頻質量,還會帶來傳輸難度高的問題。
與此同時,從視頻的生產端、交互端到消費端,火山引擎的跨語言同聲復刻直播方案、多模態視頻理解與生成方案、對話式AI實時交互方案和AIG3D&大場景重建方案也全鏈路融入AI能力,以適配AIGC時代對視頻云業務的需求。
在生產端,今年9月份,字節跳動正式發布了豆包視頻生成模型PixelDance。

抖音集團視頻架構負責人 王悅
為了降低用戶使用豆包視頻生成模型的成本,借助Intel的CPU、GPU等不同資源,火山引擎發布了大模型訓練視頻預處理方案,其依托于自研的多媒體處理框架BMF,能有效應對模型訓練的算力成本挑戰。
據Bytedance Research 負責人李航介紹,豆包視頻生成模型PixelDance在訓練過程中采用了火山引擎的大模型訓練視頻預處理方案,充分利用了大量潮汐資源,為模型訓練提供了有力支撐。
火山引擎視頻云團隊提供的點播解決方案還為PixelDance生產的視頻提供了從編輯、上傳、轉碼、分發、播放的全生命周期一站式服務,讓模型的商業化應用有了保障。
值得一提的是,火山引擎還發布并開源了移動端后處理解決方案BMF lite版本。BMF lite支持端側大模型接入和算子加速,更加輕量、通用。
在通用性上,BMF-lite則提供了多平臺統一的接口形式,讓所有開發者都能輕松使用BMF-lite。而隨著視頻處理越來越從云上向端側遷移,BMF-lite還新增了對端側大模型的接入支持,為AI技術的融合提供了強大的支持。
“當前BMF-lite已經廣泛地應用在了抖音的各個業務上,每天服務于上億用戶,處理視頻圖片萬億次。”王悅如此說道。
在交互端,火山引擎視頻云負責人Yongyuan 指出,在AI視頻時代,人和AI交互變得更加動態和生動,這要求處理鏈路更加智能和交互。
以對話式AI實時交互方案為例,依托豆包大模型和火山引擎視頻云自研的多項算法,火山引擎為用戶提供了智能對話和自然語言處理的強大能力,可實現毫秒級人聲檢測和打斷響應,以及絲滑穩定的端到端響應體驗。
在消費端,尤其是沉浸式消費體驗方面,以蘋果Vision Pro為代表,開啟了空間計算的新時代。
在此之后,今年7月,抖音VR直播上線,9月《黑神話:悟空》以其極具震撼力的視頻畫面質感、跌宕起伏的劇情架構和深厚的文化底蘊,迅速吸引全球玩家。
3D、虛實融合與VR技術,將成為消費端變革的主力軍,架起數字世界與物理世界之間的橋梁。
而火山引擎通過AI生成3D內容和大場景重建方案,為山西高平二郎廟金代戲臺和北京正乙祠兩座珍貴的歷史建筑生成了3D數字資產,并以虛擬直播間的形式應用于抖音的戲曲直播場景。
可以看到,火山引擎的視頻云業務,雖是行業中的后起之秀,但伴隨著自身抖音業務的發展和切實的場景需求,視頻云業務也在逐步上漲。
然而,長期以來,視頻云賽道也盤踞著各大巨頭,火山引擎想要彎道超車并不容易,而向海外尋求新的市場增量,則或許成為新的機會。
國內競爭白熱化,出海尋求新增量
雖然AI大模型時代的到來,重新開啟云計算市場的新增長,但國內卻已然開啟了“內卷” 模式。
今年2月份,阿里云率先開啟價格戰模式,宣布進行史上最大力度的一次降價,涉及100多款產品、500多個產品規格,覆蓋計算、存儲、數據庫等所有核心產品,降幅從9%到55%不等。
這是阿里云明確"AI驅動,公共云優先”戰略3個月之后的首個大動作,也是自去年11月阿里云進行新一輪組織架構調整,成立公共云業務事業部后舉行的首次重磅發布會。
而在此之后,京東云、百度智能云以及騰訊云等紛紛跟進,在各大營銷節點中,華為云也推出了各種低價促銷活動。
大模型端,則是在今年5月,由字節豆包大模型率先發起降價攻勢,宣布主流大模型在企業市場的定價為0.0008元/千Tokens,0.8厘就能處理1500多個漢字,比行業便宜99.3%。
此后,包括阿里云等在內的云廠商、智譜AI等在內的大模型公司,都開始紛紛降低大模型價格。
視頻云業務雖然是云計算領域中的細分市場,但卻難以避免受到這波“內卷”的影響。
更何況,騰訊云、阿里云等頭部玩家,基本上已經搶占了國內大部分視頻云市場份額,留給火山引擎的“肉”和“湯”,并不多。
也正因此,近年來火山引擎的視頻云業務,也正加速走向海外市場,尋求更多的新的市場增量。
目前,火山引擎的出海業務主要聚焦在4大領域,包括互娛社交出海、短劇及內容出海、游戲出海以及電商出海。
其中,在直播電商這塊,則主要依托于海外的抖音平臺Tiktok,“因為有利潤可以賺,海外市場的價格比較貴,而且向東南亞或歐洲市場做的直播電商,也是復制了中國的經驗,所以我們才布局這些市場的直播電商業務。”火山引擎電商產品相關負責人對光錐智能說道。
據火山引擎視頻云國際業務負責人梁建介紹,火山引擎也會在海外版的方案中支持接入海外主流AI大模型服務,并通過整合這些先進大模型的技術和交互體驗,來深度優化出海應用,使其能夠具備低時延、多模態的AI實時交互能力。
近年來,中國企業正在加速出海,尤其是在中國市場日益內卷的情況,走向海外成為必然趨勢。與此同時,隨著大模型能力的不斷提升,國產AI應用也正在加速走向海外。
火山引擎作為國內云計算賽道中的后來者,一直處于行業追趕者的地位,而借助抖音自身生態體系的力量,以及向海外尋求新的增量,或許能夠讓火山引擎在視頻云賽道中實現彎道超車。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。