4月27日,在2024中關村論壇-未來人工智能先鋒論壇上,清華大學聯合生數科技正式發布了,中國首個長時間、高一致性、高動態性視頻大模型——Vidu。
據悉,Vidu采用了原創的Diffusion與Transformer融合的架構U-ViT,支持文本生成長達16秒、分辨率高達1080P的高清視頻內容。
此外,Vidu不僅能夠模擬真實物理世界,還具備豐富想象力,具備多鏡頭生成、時空一致性高等技術特點。這也是繼Sora發布之后,全球率先取得重大突破的視頻大模型,性能全面對標國際頂尖水平,并加速功能迭代中。
Vidu架構簡單介紹
生數科技的研發和原創能力非常強悍,已在全球頂級期刊arxiv上發布了超過15篇技術論文,這也是其能原創Vidu架構的重要原因之一。
研究人員表示,Vidu的快速突破源自于團隊在貝葉斯機器學習和多模態大模型的長期積累和多項原創性成果。
其核心技術U-ViT架構由團隊于2022年9月提出,早于Sora采用的DiT架構,是全球首個Diffusion與Transformer融合的架構。
2023年3月,生數科技開源了全球首個基于U-ViT融合架構的多模態擴散模型UniDiffuser,并率先完成了U-ViT架構的大規?蓴U展性驗證。
基于對U-ViT架構的深入理解以及長期積累的工程與數據經驗,研究人員在短短兩個月里進一步突破了長視頻表示與處理的多項關鍵技術,成功研發了Vidu視頻大模型,顯著提升視頻的連貫性和動態性。
Vidu的發布不僅是U-ViT融合架構在大規模視覺任務中的又一次成功驗證,也代表了生數科技在多模態原生大模型領域的持續創新能力和領先性。
作為通用視覺模型,Vidu能夠支持生成更加多樣化、更長時長的視頻內容,同時面向未來,靈活架構將能夠兼容更廣泛的模態,進一步拓展多模態通用能力的邊界。
除了Vidu視頻大模型之外,生數科技還提供文生圖片、文本或圖片生成3D模型,已經提供在線使用,有興趣的小伙伴可以去體驗一下。
生數科技介紹
北京生數科技有限公司(簡稱“生數科技”)成立于2023年3月,核心團隊成員來自清華大學人工智能研究院,此外 匯集了來自阿里、騰訊、字節等知名科技公司的頂尖人才,是全球范圍內領先的深度生成式算法研究團隊,擁有擴散概率模型底層創新研發能力。
生數科技致力打造世界領先的多模態大模型,融合文本、圖像、視頻、3D等多模態信息,探索生成式AI在藝術設計、游戲制作、影視后期、內容社交等場景的商業賦能,通過AI提升人類的創造力和生產力。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。