虛擬人的發(fā)展簡史與三條路線
作者|Tim Jiang
編輯|Tim Jiang
01
虛擬人發(fā)展簡史
什么是虛擬人?結(jié)合行業(yè)里的定義以及個人理解,虛擬人主要是通過計算計算圖形學、圖形渲染、動作捕捉、深度學習和語音合成等計算機手段制作出來的具有人類多重特征的虛構(gòu)人物。
來源:公開網(wǎng)絡,Max Headroom;
虛擬數(shù)字人的歷史敘述可以追溯到上世紀 80 年代在英國出現(xiàn)的虛擬數(shù)字主持人—— Max Headroom,其內(nèi)容制作的背后由演員 Matt Frewer 飾演,并在當時被宣傳為“第一位計算機生成的電視節(jié)目主持人”;然而,實際上 Max Headroom 并不是由計算機生成,而是由演員 Matt Frewer 戴著假肢并穿著西裝,在特定的拍攝環(huán)境下刻意呈現(xiàn)的。
隨著個人計算機的普及與技術應用,從上世紀 80 年代開始,通過 CG(Computer Graphics)制作的影視內(nèi)容不斷出現(xiàn),期間包括 1973 年的《Westworld》、1977 年的《星球大戰(zhàn)》以及 1979 年的《異形》;到了1991 年,類似《終結(jié)者 2 》中完全由 CG 制作的角色——終結(jié)者“T-1000”開始出現(xiàn);1995 年,由皮克斯制作的《玩具總動員》成為第一部完全通過 CG 技術制作的電影。
來源:公開網(wǎng)絡,《星球大戰(zhàn)》;
CG 技術的出現(xiàn)與普及,主要是為了提高更早以前的傳統(tǒng)動畫行業(yè)內(nèi)容制作效率,并讓動畫制作繞開了在紙張上著墨的環(huán)節(jié);成本上看,制作周期更短更快、人員成本更少以及更加環(huán)保,并且在收入上更加可觀,例如皮克斯于 1999 年推出的《玩具總動員 2 》,當時在全球拿下了 4.85 億美元票房。
來源:公開網(wǎng)絡, Cabell Calloway III;
動作捕捉(Motion Capture,下稱“動捕”)其實最早可以追溯到上世紀 30 年代的美國爵士歌手 Cabell Calloway III,他的舞蹈動作與風格被融入了動畫制作當中,內(nèi)容制作方通過將演員跳舞中的動作記錄下來,以便藝術家可以在鏡頭上勾勒出逼真的動畫動作,以及迪士尼的早期作品《白雪公主和七個小矮人》也是如此。
進入到 21 世紀,結(jié)合 CG和動作捕捉(Motion Capture,下稱“動捕”)兩項技術制作的虛構(gòu)人物開始在電影中大放異彩,例如 2001 年上線的《指環(huán)王》中的“咕!边@一角色,以及后來陸續(xù)出現(xiàn)的《阿凡達》、《猩球崛起》以及漫威《復仇者聯(lián)盟》系列中的“滅霸”。
來源:公開網(wǎng)絡,滅霸拍攝過程;
21 世紀的前十年除了計算機在視覺制作上進步,同時間線在音樂制作領域也出現(xiàn)了一個代表性的事件,即在 2007 年推出的“初音未來”,她是 Crypton Future Media(下稱“Crypton”) 旗下通過雅馬哈旗下 Vocaloid 2 語音合成引擎開發(fā)的虛擬女性歌手,即將聲優(yōu)的錄音合成歌聲,需要輸入部分諸如音調(diào)、歌詞和音速等情感參數(shù)。
來源:公開網(wǎng)絡,初音未來演唱會;
原先在 Crypton 負責初音項目的僅 3~4 人,早期團隊曾想接洽歌手來提供聲音,但接洽下來的歌手基于聲音的復制與版權(quán)問題而拒絕了合作,最后在篩選了 500 位聲優(yōu)后選擇了聲優(yōu)藤田咲來提供原聲,總錄制時間達到 6 小時;另一方面,在初音的 IP 設定上, Crypton 將其定位為年齡 16歲、生日為2007 年 8 月 13 日、身高 158 cm 以及體重 42 kg 的少女歌手,擅長流行歌曲、搖滾樂與舞蹈,隨著初音 IP 知名度的提高,項目方開始向漫畫、游戲、電視節(jié)目、演唱會以及更多周邊生態(tài)進行商業(yè)化。
進入到 2011 年,剛剛講的 Vocaloid 語音合成引擎已經(jīng)迭代到第 3 個版本了,雅馬哈與國內(nèi)名為 Bplats 的公司合作, Bplats 可能很多人也沒聽說過,但它旗下有家子公司名為“上海禾念”,相信很多人聽過。
來源:公開網(wǎng)絡,洛天依;
回到 Vocaloid,雅馬哈和 Bplats 開始在 2011 年一起推進“ Vocaloid China ”項目,同年公布征集了人物形象與活動計劃,最后成功入圍了 5 件作品,大家熟知的“洛天依”就是其中之一;到了 2014 年,Bplats 在官網(wǎng)宣布了 “Vocaloid China” 項目的運營,包括洛天依在內(nèi)的 5 個IP 劃歸為脫離母公司的上海禾念所有,禾念同時在 2015 年推出了虛擬藝人品牌 Vsinger,在后幾年發(fā)展中被 Bilibili 收購成為旗下超電文化的子公司。
2018 年,洛天依的歌聲庫已經(jīng)擴展到了 Vocaloid 5 、ACE AI 歌聲庫以及微軟小冰歌聲庫,不同于 Vocaloid 基于組合拼接的合成方式,后兩者則基于 AI 生成。
來源:公開網(wǎng)絡,小冰;
小冰是微軟亞研院在 2014 年在中國推出的 AI 聊天機器人,2016 年其在全球已經(jīng)覆蓋 40 多個平臺以及合計 6.6億的用戶使用;2020 年小冰業(yè)務從微軟拆分成為獨立運營的小冰公司。
02
虛擬人的商業(yè)路線
關于虛擬人的劃分,最簡單的方式是判斷虛擬人的是不是依靠人的,即依靠人和依靠機器的。
所謂依靠人的,即通過動態(tài)捕捉技術來進行肢體與表情的交互,目前常見的動作捕捉技術可分為 3 種:光學動捕、慣性動捕和計算機視覺動捕。
隨著計算機圖像識別相關算法的進步,通過慣性動捕或者光學動捕將不再是這一類的必須工具,比如 iPhone 中的「擬我表情」,通過 iPhone 的前置攝像頭捕捉我們的面部肌肉和動作,再通過手機的神經(jīng)網(wǎng)絡引擎機器學習計算獲得,本質(zhì)上所有的語言、語音、表情與肢體互動還是依靠人來提供。
所謂依靠機器,虛擬人呈現(xiàn)的內(nèi)容在語言、語音、表情與肢體互動上通過計算機的 AI 模型來運算得出,可以是離線生成也可以是實時驅(qū)動,離線就是異步的,實時就是動態(tài)同步的。
再進一步,虛擬人相關內(nèi)容的生產(chǎn)主要涉及到三個環(huán)節(jié):建模、驅(qū)動和渲染,每個環(huán)節(jié)依靠人還是依靠機器,以及依靠程度的高低,不同的組合造就了現(xiàn)在市場上不同的虛擬人流派。
小冰的CEO 李笛把目前市場上三種主要的虛擬人流派描述為殊途同歸,大白話講就是當前所謂的虛擬人賽道上,三撥不同人馬在往里湊,干內(nèi)容特效的,干偶像運營的和干人工智能的。
2.1 內(nèi)容特效路線
可以追溯到上節(jié)提到的歷史背景,從動畫行業(yè)再到影視 CG 特效,呈現(xiàn)的內(nèi)容目前不具備實時互動的能力,都是提前生產(chǎn)的,中間部分是通過設計師和藝術家繪制建模與渲染而成,部分是半人工或機器生成,比如《速度與激情 7 》中已故演員保羅沃克的戲份就是通過替身和計算機合成。
走影視行業(yè)路線,其商業(yè)模式本質(zhì)是內(nèi)容付費,因此這類項目方對于內(nèi)容的精細度與現(xiàn)實程度有很高要求,對立面則是隨之而來的內(nèi)容制作成本會很高,根據(jù)相關媒體報道,這類作品的成本達到每秒 8000~15000元不等。
來源:鳳凰網(wǎng),柳夜熙;
走明星網(wǎng)紅路線,其商業(yè)模式本質(zhì)是廣告變現(xiàn),特點是這類人物內(nèi)容更多以靜態(tài) 3D 為主,然后通過品牌代言創(chuàng)造營收,國內(nèi)虛擬網(wǎng)紅 IP 案例如柳夜熙、AYAYI 以及翎;在人力成本上,以柳夜熙為例,其背后就包括了一個 150 人的團隊。
2.2 偶像運營路線
偶像運營路線背后主要是做 IP 孵化和 MCN 運營的機構(gòu),偶像人設不強調(diào)互動,人物的驅(qū)動主要依靠背后演員的聲音與動作(PS:這種模式也被稱為“中之人”);另一方面在渲染上能夠降低成本,多以二次元畫風呈現(xiàn),也能夠提高 IP 塑造與風險控制,因此這類路線更加偏重運營,例如被字節(jié)跳動收購的 A-Soul 就屬于這個路線,2021 年 A-Soul 團隊直播年營收達到 2500 萬元。
來源:公開網(wǎng)絡,Asoul;
相比于孵化真人網(wǎng)紅,可以避免出現(xiàn) MCN 機構(gòu)與網(wǎng)紅之間的不可控因素,但在 IP 的管理上仍然是以傳統(tǒng)的模式,一方面虛擬網(wǎng)紅與背后的演員和聲優(yōu)是掛鉤的,因此無法達到規(guī);趸,這也是為什么沒有見到成批的洛天依和初音未來。
2.3 人工智能路線
人工智能的路線直接跳過了通過人工驅(qū)動虛擬人進行互動,對于表情、肢體、語言和語音等多模態(tài)融合的技術要求高,按照小冰 CEO 李笛的說法,前兩者路線,第一種人力生產(chǎn)成本高昂,內(nèi)容生產(chǎn)與優(yōu)化周期長,第一種仍然與人掛鉤無法規(guī);,且背后依然是以人為核心,偽人工智能。
針對前兩者沒有解決的問題,小冰希望通過機器路線打造 AI 驅(qū)動的虛擬人。目前,小冰的制作不同于影視領域的人工動態(tài)捕捉建模與畫面渲染,而是通過機器學習生成,渲染成本控制在 17 元/秒,大約是傳統(tǒng)影視制作的 1/500,缺點是畫面的精度只有 1080 P,無法和前者相比,但在手機上呈現(xiàn)是足夠了。
同時在人員上,小冰的建模渲染由于是通過計算機生成的,因此沒有專門的美術相關人員,出圖效率可以做到以萬計算,而內(nèi)容的好壞交給市場與用戶去評判,再根據(jù)用戶偏好矯正與迭代。
來源:小冰;
另一種基于 AI 的虛擬人場景主要是企業(yè)服務領域,例如 RPA 辦公流程自動化,萬科的財務部虛擬員工崔筱盼,以及近期紅杉推出的虛擬員工 Hóng ,在近期的宣傳視頻中的 IP 形象依然是提到的第一種路線,通過頭像設計與拍攝后期合成。
來源:紅杉;
封面:公開網(wǎng)絡
原文標題 : 虛擬人的發(fā)展簡史與三條路線

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機器人
- 5 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 6 一文看懂視覺語言動作模型(VLA)及其應用
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領跑?
- 10 格斗大賽出圈!人形機器人致命短板曝光:頭腦過于簡單