近日,人工智能研究公司OpenAI發布首個文生視頻模型“Sora”。
根據OpenAI官網介紹,使用Sora可以用文字指令生成長達1分鐘的高清視頻。視頻可以具有多個角色、特定類型的運動、精確主題和背景細節等復雜場景。
此次文生視頻模型Sora足夠震撼。業內人士認為,從長遠角度來看,Sora將給廣告業、電影預告片、短視頻行業帶來巨大的顛覆。
從OpenAI官網更新的48個視頻demo來看,Sora不僅能夠準確呈現細節,還能生成具有豐富情感的角色。
據OpenAI介紹,Sora能夠生成具有多個角色、特定類型的運動以及主題和背景的準確細節的復雜場景。該模型不僅了解用戶提出的要求,還了解這些東西在物理世界中的存在方式。
這意味著,如果說GPT能夠通過人類的語言來理解世界,那么Sora則能通過視頻、圖片等多模態數據來理解世界。
根據OpenAI的技術報告,Sora的強大得益于大量的數據、靈活的編碼、優質的標注和Transformer+diffusion的架構。由于使用Transformer架構,Sora具有較強的擴展性。
業內人士分析稱,此前這類模型對視頻的處理往往會分解為時間域和空間域,用處理時間域的模型處理時間域,比如RNN、自回歸模型等。但是,此次OpenAI直接把整個視頻看做一個整體,一次性輸入到diffusion模型中,讓模型一次性生成出整個視頻的每個細節。
影視行業或迎巨變
據了解,在OpenAI的Sora之前,谷歌曾在去年12月發布了一個全新的視頻生成模型VideoPoet,能夠執行包括文本到視頻、圖像到視頻、視頻風格化等操作。而此前一夜爆紅的文生視頻軟件Pika也掀起了AI視頻應用的熱潮。
對于此次的Sora問世,360集團創始人、董事長周鴻祎表示,這意味著AGI實現將從10年縮短至1年。具備文生視頻功能的視頻類生成式AI,能夠有效降低創作者的創作門檻。
國海證券在研報中指出,根據《AIGC/AI生成內容產業展望報告》,視頻生成將成為近期跨模態生成領域的中高潛力場景,其背后邏輯是不同技術帶來的主流內容形式的變化。
英偉達高級科學家Jim Fan認為,2022年是影像之年,2023是聲波之年,而2024是視頻之年。
大“網紅”馬斯克也對OpenAI發布的新模型發表了評價。針對推特網友轉發的Sora演示視頻,配文聲稱“gg Pixar”,馬斯克在推文下方留言表示,“gg humans”。
另有一名網友談及OpenAI的新模型,并將話題引向影視行業,“電影行業肯定會對這種技術做出嚴厲反應,希望法規不會失控”、“與大多數類型AI創作不同,生成式藝術不會抑制人類的精神”。
馬斯克針對該推文也做出回應,“由人工智能增強的人類,將會在未來幾年之內創作出最杰出的作品”。
能否帶來顛覆性影響?
從OpenAI官網公布的視頻實例來看,Sora能夠精準呈現視頻細節。
比如,某個Prompt的提示詞是美麗、白雪皚皚的東京、城市熙熙攘攘。鏡頭穿過城市街道,跟隨幾個人享受美麗的雪天,在附近的攤位上購物。
在Sora生成的視頻里,鏡頭從俯視白雪覆蓋的東京,慢慢推進到兩個行人手牽手在街道上行走,街旁的櫻花樹和商鋪的畫面均得以呈現。
有業內人士表示,這對電影、動漫、小說、游戲等行業具有深遠影響。不過也有視頻剪輯從業人員潑冷水,“大規模應用后能否催生更多好作品尚不清楚,但制造視頻垃圾的速度一定會呈現指數級增長”。
某互聯網從業人員表示,Sora確實很牛,但如果認為三年后就沒人拍視頻了,認為抖音Tiktok很快會被顛覆,那還是為時過早。
如果想借助Sora將視頻行業變成“人純粹消費機器工業化內容”的局面,這恐怕沒戲。如果借助新技術,讓人與人之間產生新的連接,激發新的創作產能,這是有戲的。同時,需要尊重行業規律,通過技術迭代生態,而不是直接把技術丟給用戶。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。