介面新聞記者 | 程璐
介面新聞編輯 | 文姝琪
2月16日凌晨,OpenAI再次扔出一枚深水炸彈,釋出了首個文生影片模型Sora。據介紹,Sora可以直接輸出長達60秒的影片,並且包含高度細緻的背景、複雜的多角度鏡頭,以及富有情感的多個角色。
目前官網上已經更新了48個影片demo,在這些demo中,Sora不僅能準確呈現細節,還能理解物體在物理世界中的存在,並生成具有豐富情感的角色。該模型還可以根據提示、靜止影象甚至填補現有影片中的缺失幀來生成影片。
例如一個Prompt(大語言模型中的提示詞)的描述是:在東京街頭,一位時髦的女士穿梭在充滿溫暖霓虹燈光和動感城市標誌的街道上。
在Sora生成的影片裡,女士身著黑色皮衣、紅色裙子在霓虹街頭行走,不僅主體連貫穩定,還有多鏡頭,包括從大街景慢慢切入到對女士的臉部表情的特寫,以及潮溼的街道地面反射霓虹燈的光影效果。
另一個Prompt則是,一隻貓試圖叫醒熟睡的主人,要求吃早餐,主人試圖忽略這隻貓,但貓嘗試了新招,最終主人從枕頭下拿出藏起來的零食,讓貓自己再多待一會兒。在這個AI生成影片裡,貓甚至都學會了踩奶,對主人鼻頭的觸碰甚至都是輕輕的,接近物理世界裡貓的真實反應。
OpenAI表示,他們正在教AI理解和模擬運動中的物理世界,目標是訓練模型來幫助人們解決需要現實世界互動的問題。
隨後OpenAI解釋了Sora的工作原理,Sora是一個擴散模型,它從類似於靜態噪聲的影片開始,透過多個步驟逐漸去除噪聲,影片也從最初的隨機畫素轉化為清晰的影象場景。Sora使用了Transformer架構,有極強的擴充套件性。
影片和影象是被稱為“補丁”的較小資料單位集合,每個“補丁”都類似於GPT中的一個標記(Token),透過統一的資料表達方式,可以在更廣泛的視覺資料上訓練和擴散變化,包括不同的時間、解析度和縱橫比。
Sora是基於過去對DALL·E和GPT的研究基礎構建,利用DALL·E 3的重述提示詞技術,為視覺模型訓練資料生成高描述性的標註,因此模型能更好的遵循文字指令。
一位YouTube博主Paddy Galloway發表了對Sora的感想,他表示內容創作行業已經永遠的改變了,並且毫不誇張。“我進入YouTube世界已經15年時間,但OpenAI剛剛的展示讓我無言…動畫師/3D藝術家們有麻煩了,素材網站將變得無關緊要,任何人都可以無壁壘獲得難以置信的產品,內容背後的‘想法’和故事將變得更加重要。”
但Sora模型當前也存在弱點。OpenAI稱它可能難以準確模擬複雜場景的物理原理,並且可能無法理解因果關係。例如,一個人可能咬了一口餅乾後,餅乾會沒有咬痕,玻璃破碎的物理過程可能也無法被準確呈現。