今晚2點,OpenAI Day3的直播。
我們等了298天的Sora,終于,正式上線了。
而且不僅僅是一個模型,而是一個非常完善且體驗極佳的真正的產品。
Sora背后接入的是一個新模型,Sora Turbo,推理成本肯定少了非常非常多,這也解釋了為啥OpenAI把Sora拖了這么久,就是因為二月份的那個模型,推理起來太燒錢了,跑不動。
雖然是個新產品,但是會員體系是跟ChatGPT全面打通的。
20刀的Plus比較慘,最多生成50個視頻,最多720P、5s,還有水印。
尊貴的200刀的Pro會員就比較香了,最多快速生成500個視頻,還能無限慢速跑,1080P、20s,還有無水印。
所以,沒辦法,我只能,當場怒氪了200刀。。。
于是,我也成了尊貴的200刀的Pro會員了,o1沒讓我充錢,但是Sora這波,我是真的逃不了了。。。
真的都是宿命。
2月16號,OpenAI發布Sora,在全世界,掀起了新的浪潮。
而那天,我也寫下了那篇傳播最廣的文章:
OpenAI全新發布文生視頻模型Sora - 現實,不存在了
然后,就是死一般的沉寂。
那個Sora,成了所有人心中,最遠的夢。宛如天上的星辰,美得不可方物,卻又遙不可及。
有人說,5G只改變了何同學的生活,而Sora,也只改變了我的生活。
雖是一句玩笑,但也卻只能是一聲嘆息。
而今天,298天之后。
在鐵王座上的王已經換了無數次之后,在可靈、即夢、海螺、vidu等等AI視頻模型已經一統江湖之后。
Sora回來了。
它說:
“重鑄OpenAI榮光,吾輩義不容辭。”
這次,我用4句話總結這次Sora的完整特點:
極度完整的用戶體驗、還不錯的運動效果、超豐富的視頻修改與編輯、完美一致性的故事板。
一個一個來說。
一. 極度完整的用戶體驗
我最開始以為的Sora,是一個網頁,就一個寫Prompt的輸入框,然后沒了。
就跟很多AI視頻剛上線的時候一樣。
結果,Sora這個產品,掏出來的完整度,還是超出了我的預期。
在整體界面上,非常的Midjourney,有一種熟悉的感覺的即視感。
最左邊的其實就是社區和你自己的生成出來的素材管理。
有喜歡的、收藏的等等,不贅述了,都大差不差。
而真正的操作區,放在了底部,功能比我想象的要多很多。
從左到右,分別是:
上傳圖片或者視頻:Sora支持文生視頻、圖生視頻。所以可以傳圖。
預設的風格模板:
當然你也可以新增自己喜歡的風格做成預設。
比例:支持的比較少,只有16:9、1:1、9:16三種尺寸。
分辨率:3種,480p到1080p,Plus會員只能生成720p的,pro會員才可以生成1080p。
持續時長:4種,5s、10s、15s、20s,這里需要注意,720p的是可以生成20s的,但是如果你選1080p,那最多只能生成10s了。
一次生成視頻個數:1、2、4三種選擇,1080p最多1個,720p最多2個、480p最多3個。
右邊還有一個非常非常牛逼的故事板功能,這個我們放在第四趴細說。
非常牛逼,真的。
在這個功能的完整度上,已經比很多產品好了,但是,這不是最重要的,最可怕的完整度,是在生成視頻后。
Remix(重新混合)、blend(混合)、Loop(循環),這些功能,是我全部第一次見,也都是Sora的獨創功能,這一趴,我放在第三塊細說。
我們先來看看,Sora生成出來的效果。
二.還不錯的運動效果
現在幾乎所有的AI視頻模型還在努力追趕真實世界的運動質感,在讓人能走起來、跑起來、做一些復合型動作。
那Sora作為整個的鼻祖,其實在運動效果上,會好一些,但是并沒有好那么的超乎預期。
我直接放我跑的真實case:
80年代日本原宿時尚街。
2. 一只小焦糖色的兔子在它的木屋里跳來跳去,看起來非常無害。
3.一只擬人化的毛絨熊貓玩偶,穿著一件寬松的綠色針織開衫、條紋上衣、黑色高腰短褲(或裙子)、條紋薄透連褲襪以及厚底黑色系帶靴子,頭頂一頂芥末黃色貝雷帽,戴著一副有色墨鏡。她站在一個工業風的攝影棚里,背景是暗色混凝土墻,頭頂是燈光設備架,舞臺設備的細節若隱若現。這只毛絨熊貓開始以自信而有節奏的動作表演流暢的嘻哈舞。
在運動質量、物理規律、鏡頭語言上,會比大部分的AI視頻模型效果都要厲害。還有那個神級的審美。
太喜歡了。
當然,不足也有很多,而且跟2月的時候,我覺得沒有太大的變化。
就是肢體變形、物體的突然出現以及消失、錯位等等,這些也還是會有不少。
在一些復雜語義的理解上,也差點意思。
比如,我給的Prompt是:“在那間破舊的出租公寓里,剛畢業的年輕人疲憊地脫下西裝外套,把它扔在椅背上。他走到窗邊,呆呆地望著城市的夜景。遠處,霓虹燈閃爍。”
你會發現完全沒有理解脫 衣服、扔衣服這事...一直漫無目的在屋子里走來走去。。。
還會經常有莫名其妙的切鏡,如果把時間拉到10s鐘,我個人覺得,切鏡的過于頻繁了。
所以,整體來看,我覺得Sora如果對標GPT進度的話,那現在應該是GPT2.5左右的水平。
等到Sora的v2版本。
那可能就真的能達到GPT3.5,那種全民可用的地步。
產生巨大顛覆的效果了。
三.超豐富的視頻修改與編輯
如果我說,我希望在剛剛生成的的草地上,加個游泳池。
我想,任何一個人都會用看煞筆的眼神來看我,不開口罵我我覺得都是輕的。
動動嘴,一句話改視頻,聽起來像天方夜譚,對吧。
但是Sora,做到了。
這就是我們在之前提到的,Remix(重混)功能。
可以一句話,改掉視頻里面的素材。
比如在他們的直播演示里,他們先生成了一段猛犸象在荒原奔跑的視頻。
那如果你對這個猛犸象不滿意,想把他變成機械猛犸象。
那就可以直接點remix,來一句話,改視頻。
你可以修改Remix強度。
來決定Remix值的大小。
可以選擇溫和,于是,你就有了,機械猛犸象在荒原上奔跑。
還有這個Blend混合功能。
比如我們有兩段視頻。
我想讓雪花先開始放,然后無縫變成花朵的樣子,中間無縫斜街。
Blend功能直接完美搞定。
你還可以用Loop功能,做一段無限循環的海浪。
甚至,OpenAI還給你開了剪輯功能。。
你可以,直接在Sora上面剪輯。
只能說,這一波,產品功能的完成度,實在太高了。
四. 完美一致性的故事板
就是這個玩意。
你可以通過不同的Prompt,生成幾乎完美一致性的分鏡,從而組成一段一分鐘的影片。
其實用AI一鍵生成電影,是很多炒概念的公司,在打的點。
因為電影,或者視頻,本質上是由一個一個的鏡頭組成的。
很多時候為了在前期就把大概的畫面定好,就需要提前畫故事板。
比如《流浪地球2》上映的時候,就有媒體對當時球2的故事板指導費雪豪老師做過專訪,其中透露了一些故事板的設計,就是長這樣的。
雖然是一幀一幀的,但是你也能看出來,其中的動態表達,還有那種強到夸張的戲劇張力,更重要的是。
每一幀之間的一致性。
而這一點,是每一個試圖去做故事板的AI產品,都逃不過的核心點。
你前后鏡頭的人物、場景,如果都長得不一樣,那還聊啥沉浸感,對吧。
所以,過往的類似于LTX Studio的產品,我覺得失敗就失敗在這。因為都是先生圖,然后圖生視頻,一致性,太難太難保持了。
但是Sora這次,靠著自己的特性,把每一段的鏡頭的一致性,做到了完美。
你可以直接在時間軸中,加分鏡幀,來引導每個畫面應該怎么做。
不僅能實現一個鏡頭里面的多動作引導,還能實現可控的分鏡切鏡。
比如我寫的這一段。
你可以隨意拖動是時間軸上的分鏡,以便控制讓它從幾秒鐘開始。
然后,一段流暢的動作視頻,就生成完畢了。
而且不止是文字。
你還可以輸入圖片,比如我上傳兩張圖片進去。
就可以完美的實現首尾幀的效果。
寫在最后
298天,說長不長,說短不短。
298天,也恍若一夢。
這298天里,我們見證了AI視頻領域的群雄并起。
可靈首當其沖劃破黑暗,即夢用完美的人物演繹征服觀眾,海螺用極致的表情贏得掌聲,Vidu用完美的一致性獲得贊譽,開源世界里也有智譜和混元讓黎明升起。
每一個都像是一顆璀璨的星星,照亮了那一片天空。
但在這298天里,更看到了人性的投射。
有人用AI還原逝去至親的音容笑貌,有人用它創作出天馬行空的奇思妙想,有人用它表達內心最深處的情感。
AI不僅是冰冷的工具,而成為了我們創造力的延伸。
當影像制作的門檻被徹底打破,當每個人都能輕松創作出專業級的視頻。
我覺得更值得思考的是:
我們要用這份能力做些什么?是沉迷于虛擬的完美,還是用它來表達真實的情感?是制造更多的喧囂,還是傳遞更有價值的聲音?
在這個即將影像即真相的時代,我們每個人都將面對這個選擇。
而且,這亦不是終點,而是另一個起點。
因為在AI的世界里,永遠沒有最后一個奇跡。
只有,下一個奇跡。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。