訂閱
糾錯(cuò)
加入自媒體

Odyssey新“世界模型”:讓你進(jìn)入視頻的世界,沉浸交互、實(shí)時(shí)生成

最近有一個(gè)挺有意思的模型。

在倫敦的初創(chuàng)公司Odyssey,上線了一個(gè) “互動(dòng)視頻生成模型”。

它把視頻,變成了一個(gè)可以互動(dòng)、實(shí)時(shí)生成的世界。就像玩第一人稱游戲一樣,可以在視頻里逛來(lái)逛去。

這個(gè)模型可以每40毫秒實(shí)時(shí)生成一幀高質(zhì)量畫面,用戶通過(guò)鍵盤、手柄、甚至未來(lái)直接通過(guò)說(shuō)話,就能讓畫面發(fā)生改變。

你按一下鍵盤,視頻世界就做出反應(yīng),幾乎無(wú)延遲地讓你沉浸到這個(gè)世界。

1 不是游戲,不是CG,而是“世界模型”

跟傳統(tǒng)視頻或3D游戲不同,這項(xiàng)技術(shù)背后靠的是Odyssey自研的 “世界模型(World Model)”。

就是那個(gè)楊立昆和李飛飛大佬常掛在嘴邊的“世界模型”。

過(guò)去的視頻生成,是“批量產(chǎn)出”,一次生成大量圖像幀,組成整個(gè)片段。

而世界模型更像“逐幀思考”,它每時(shí)每刻都在預(yù)測(cè):“你剛剛按了前進(jìn)鍵,我該生成什么景象?你剛剛轉(zhuǎn)頭,我該顯示什么空間?”

這就像大語(yǔ)言模型預(yù)測(cè)下一個(gè)單詞一樣,不過(guò)現(xiàn)在預(yù)測(cè)的是圖像,是動(dòng)態(tài)的、沉浸式的、交互式的世界。

2 攻克最大技術(shù)難點(diǎn):畫面漂移

不過(guò),讓AI構(gòu)建一個(gè)世界,遠(yuǎn)比生成一張圖片復(fù)雜得多。

最大的問(wèn)題是穩(wěn)定性。

簡(jiǎn)單來(lái)說(shuō):AI每預(yù)測(cè)一幀,就往前走一步,但只要某一幀稍微出錯(cuò),后面的內(nèi)容可能就會(huì)徹底“走形”。專業(yè)術(shù)語(yǔ)叫做 漂移(drift)問(wèn)題。

為了解決這個(gè)問(wèn)題,Odyssey采用了一種取舍方式 —— “窄域預(yù)訓(xùn)練”。

它并不貪心地一上來(lái)就訓(xùn)練多樣世界,而是:

先在大量通用視頻上預(yù)訓(xùn)練,培養(yǎng)對(duì)真實(shí)世界的基本理解;

再用有限的特定環(huán)境做微調(diào),畫質(zhì)犧牲一丟丟,但穩(wěn)定性暴漲。

這個(gè)策略雖然降低了生成環(huán)境的多樣性,但大大提高了穩(wěn)定性。讓你不會(huì)在視頻中突然看到畫面塌方、人物扭曲這些問(wèn)題。

3 資本望風(fēng)而動(dòng),皮克斯創(chuàng)始人親自坐鎮(zhèn)

Odyssey不止是技術(shù)先鋒,還是資本寵兒。

Odyssey的兩位創(chuàng)始人Oliver Cameron和Jeff Hawke都出身自動(dòng)駕駛?cè),一個(gè)是Wayve自動(dòng)駕駛技術(shù)的AI研究元老,一個(gè)是Voyage自動(dòng)駕駛公司的CEO。

二人將自動(dòng)駕駛用到的“世界建模”理念,完美嫁接到AI視頻中。

更重量級(jí)的大佬,Pixar聯(lián)合創(chuàng)始人、迪士尼動(dòng)畫前總裁Ed Catmull也親自加入董事會(huì)。

是的,就是做出《玩具總動(dòng)員》的那位。

目前,Odyssey已獲得超過(guò)2700萬(wàn)美元融資,投資方包括EQT Ventures、GV(Google Ventures)等一線基金。 

4 前景無(wú)限,不只娛樂(lè)

Odyssey坦白說(shuō),目前的版本還很初期:畫面還不夠清晰,互動(dòng)感仍有限,場(chǎng)景穩(wěn)定性也不完美。

但這不妨礙我們透過(guò)這些粗糙,看見一些真正有意義的東西。

Odyssey相信,這不只是一種技術(shù)突破,而是一種新的敘事媒介。

你不再只是看旅游Vlog,而是直接“走進(jìn)”巴厘島的沙灘;

醫(yī)學(xué)院教學(xué)視頻,變成能“操刀演練”的模擬課堂;

影視創(chuàng)作者只需控制角色和環(huán)境參數(shù),就能實(shí)時(shí)生成整段劇情片段;

廣告不再是死板的片段,而是用戶可以在其中互動(dòng)的品牌空間。

回顧人類文明的發(fā)展,從壁畫、文字、戲劇,到廣播、電影、電子游戲,每一次媒介革命都深刻改變了我們理解世界的方式。

如今,這種由AI驅(qū)動(dòng)的、可實(shí)時(shí)交互的視頻世界,或許會(huì)成為下一個(gè)“敘事引擎”。

對(duì)于Odyssey的世界模型,歡迎在評(píng)論區(qū)分享你的看法????

       原文標(biāo)題 : Odyssey新“世界模型”:讓你進(jìn)入視頻的世界,沉浸交互、實(shí)時(shí)生成

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)