圖形學(xué)+深度學(xué)習(xí):來看下神經(jīng)渲染完成的神仙操作!
現(xiàn)代計(jì)算機(jī)圖形學(xué)在合成逼真場景圖像和場景操控合成方面取得了杰出成果,然而在自動生成形狀、材質(zhì)、光照和其他場景方面還面臨著一系列挑戰(zhàn)。而計(jì)算機(jī)視覺與機(jī)器學(xué)習(xí)為這一領(lǐng)域提供了圖像合成與編輯的全新解決方案:基于深度生成模型和圖形學(xué)領(lǐng)域的光學(xué)物理知識,神經(jīng)渲染(Neural rendering )已成為計(jì)算機(jī)圖形學(xué)領(lǐng)域最為迅猛的發(fā)展方向。在多種計(jì)算理論、方法和技術(shù)的融合下,這個新領(lǐng)域出現(xiàn)了非常多的有趣應(yīng)用:包括圖像內(nèi)容編輯、場景合成、視角變化、人物編輯等等?梢灶A(yù)見,神經(jīng)渲染未來將會在電影工業(yè)、虛擬/增強(qiáng)現(xiàn)實(shí)和智慧城市等領(lǐng)域中發(fā)揮越來越重要的作用。
來自馬普研究所、斯坦福、慕尼黑理工、Facebook、Adobe和谷歌的研究人員對這一領(lǐng)域的發(fā)展進(jìn)行了詳盡的綜述,系統(tǒng)性地梳理神經(jīng)渲染在各個領(lǐng)域的發(fā)展。下面我們將為大家詳細(xì)呈現(xiàn)機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺與圖像學(xué)領(lǐng)域的碰撞融合。
語義圖像合成與操控
語義圖像合成與操控主要利用交互式的編輯工具來對圖像中的場景和物體進(jìn)行語義上地控制和修飾。與傳統(tǒng)方式不同,數(shù)據(jù)驅(qū)動的圖形學(xué)系統(tǒng)可以利用多張圖像區(qū)域來合成新的圖像,并基于大規(guī)模的圖像數(shù)據(jù)集來抽取典型的語義特征。這種方法可以使用戶指定場景的結(jié)構(gòu)、修改場景內(nèi)容,同時還能有效處理合成過程中產(chǎn)生的不連續(xù)性和人工痕跡。
在語義圖像合成方面,目前主要基于條件生成目標(biāo),將用戶指定的語義圖映射為逼真的圖像。用戶輸入還包括了顏色、草圖、紋理等形式。從pix2pix等方法開始,研究人員們就開始對場景和圖像的生成進(jìn)行深入的探索,并不斷提高生成圖像的分辨率與細(xì)節(jié),同時從靜態(tài)圖像向動態(tài)視頻的語義操控?cái)U(kuò)展。下圖顯示了目前較為先進(jìn)的GauGAN網(wǎng)絡(luò)生成的結(jié)果:其不僅可以生成較好的視覺效果,還能控制生成結(jié)果的風(fēng)格和語義結(jié)構(gòu)。
在語義圖像操控方面,該技術(shù)需要用戶提供待操作的圖像,并利用生成模型滿足用戶對圖像的操作需求。與前述的合成不同,操作面臨兩個額外挑戰(zhàn):其一,對圖像的操作需要對輸入進(jìn)行精確的重建,但這對于目前最為先進(jìn)的GAN來說也是挑戰(zhàn);其二,操作圖像后合成的結(jié)果也許會與輸入的圖像不兼容、不協(xié)調(diào)。
于是為解決這些問題,研究人員們提出了非條件GAN來作為神經(jīng)圖像先驗(yàn),同時通過生成結(jié)果與原始圖像的融合來得到輸出結(jié)果。此外,包括自動編碼器等多種內(nèi)部結(jié)果的使用和后處理的有效應(yīng)用也使得圖像編輯取得了良好的效果。下圖顯示了GANPaint中如何給圖像增加、刪除、改變目標(biāo):只需用筆刷進(jìn)行涂抹,生成模型就會滿足用戶提出的需求,同時保留原圖像中的統(tǒng)計(jì)信息。
在提升渲染圖像的真實(shí)性方面,研究人員從大規(guī)模的真實(shí)數(shù)據(jù)中抽取相似的內(nèi)容來提升渲染圖像的結(jié)果,或者基于條件生成模型,將低質(zhì)量的渲染結(jié)果轉(zhuǎn)換為高質(zhì)量的逼真圖像。此外,包括特征匹配,陰影處理、材質(zhì)和表面法向量渲染等方面的工作也將對全局光照、遮擋、景深和連續(xù)性進(jìn)行處理。下圖顯示了基于生成模型的高質(zhì)量渲染結(jié)果:僅僅改變視頻中說話人的嘴形,就渲染出了近乎真實(shí)講話的視覺效果。
目標(biāo)和場景的新視角合成
新視角合成是指在特定場景下,利用已有的不同視角圖像,在新相機(jī)視角條件下合成圖像。其最主要挑戰(zhàn)來自于場景的三維結(jié)構(gòu)觀測比較稀疏,需要在僅有的幾個觀測視角下合成出新視角的圖像,同時還需要補(bǔ)全新視角下被遮擋或者沒有在觀測中被包含的部分。
在經(jīng)典計(jì)算機(jī)視覺中,人們主要基于多視角立體視覺來實(shí)現(xiàn)場景幾何重建,用反射變換來構(gòu)建基于圖像的渲染效果。但在稀疏觀測或者欠觀測的情況下,這種方法得到的結(jié)果會具有孔洞,或是留下較為明顯的人工鑿斧痕跡。在神經(jīng)渲染中,研究人員使用少量的已有視角觀測結(jié)果來學(xué)習(xí)出場景,再利用可差分的渲染器生成新視角下的圖像;同時還利用幾何、外觀與場景特性作為先驗(yàn)來提升場景的表達(dá)和渲染;此外還通過體素、紋理、點(diǎn)云等多種形式來為網(wǎng)絡(luò)提供更多的圖像和幾何信息。
下圖顯示了神經(jīng)渲染從大規(guī)模網(wǎng)絡(luò)圖像中重建3D模型的結(jié)果。模型被渲染為了深度、顏色和語義標(biāo)簽等緩存中,渲染器將這些緩存轉(zhuǎn)換為了多種不同的場景結(jié)果。
下圖展示了從新視角渲染招財(cái)貓的圖像結(jié)果。由圖可見,在僅僅六個稀疏采樣視角下,系統(tǒng)就實(shí)現(xiàn)了多個新視角的目標(biāo)渲染。
神經(jīng)渲染在學(xué)習(xí)場景中自然的三維結(jié)果和透視幾何關(guān)系方面也發(fā)揮了重要作用,下圖顯示了幾個具有代表性的新視角合成工作:

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
6月20日立即下載>> 【白皮書】精準(zhǔn)測量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報名>> 【在線會議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報名中>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動力電池技術(shù)應(yīng)用大會
-
免費(fèi)參會立即報名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 一文看懂視覺語言動作模型(VLA)及其應(yīng)用
- 6 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領(lǐng)跑?
- 10 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過于簡單