多模態(tài)2025:技術路線“神仙打架”,視頻生成沖上云霄
文|魏琳華
編|王一粟
一場大會,聚集了中國多模態(tài)大模型的“半壁江山”。
智源大會2025為期兩天的論壇中,匯集了學界、創(chuàng)業(yè)公司和大廠等三方的熱門選手,關于多模態(tài)的集中討論達到了前所未有的熱度。其中,創(chuàng)業(yè)公司就有愛詩科技、生數(shù)科技、Sand.ai、智象未來、Luma AI、智譜等六家公司創(chuàng)始人、CEO分享心得;隸屬大廠隊的字節(jié)、騰訊、百度的多模態(tài)技術負責人,以及學術界的人大和MIT(麻省理工)的相關專家學者。
自回歸、擴散、原生多模態(tài)......圍繞種種技術路線的論證和實踐分享都證明了一件事:相比碩果僅存的大語言模型戰(zhàn)場,多模態(tài)大模型的技術路線還遠遠沒有收斂。
“多模態(tài)大模型已在特定場景啟動落地,但尚未實現(xiàn)高度普適化。”智源研究院院長王仲遠給出了這樣的判斷。他指出,根本性突破仍依賴更強大的基礎模型——若多模態(tài)模型達到足夠可用的水平,將推動產(chǎn)業(yè)進一步發(fā)展。
在種種空白中,多模態(tài)想要打開下半場的入口,顯然還有一段路要走。
多模態(tài),尚未迎來“ChatGPT時刻”
“對于多模態(tài)模型而言,現(xiàn)在定義下半場還為時尚早,我們連上半場都還沒有看到邊界在哪里。”
面對“如何看待大模型下半場”的問題時,Sand.ai聯(lián)合創(chuàng)始人張拯給出了這樣的回答。
“慢一拍”的多模態(tài)大模型,限制了應用端的能力表現(xiàn)。以視頻生成為例,智象未來CEO梅濤指出,目前視頻生成還處于GPT-2到GPT-3之間的階段。他將視頻創(chuàng)作的三個要素總結為敘事性、穩(wěn)定性和可控性。
敘事性,即保證視頻“做5分鐘和1小時是完整的故事”,保持IP的一致性;而在穩(wěn)定性上,需要保證畫面質(zhì)量、運動連貫性、時序一致性等方面的穩(wěn)定,目前表現(xiàn)較好;可控性,則是衡量視頻內(nèi)容生成的精準程度,第幾秒出現(xiàn)什么鏡頭,人物做什么表情等要求非常高。但今天的大模型,還無法達到這樣的水準。
現(xiàn)階段,想要提升模型生成效果,數(shù)據(jù)質(zhì)量就成了關鍵。
“我們?yōu)槭裁磿吹紾oogle的Veo 3,很多模型做得很好、做得很逼真,如果在模型架構上大家都趨同的話,其實真正的競爭就取決于高質(zhì)量的數(shù)據(jù)。”智象未來CEO梅濤說,“其實我們并沒有產(chǎn)生所謂新的智能,只是在復制我們看到的這個世界。”
Google Veo 3模型展示
圍繞如何提升多模態(tài)大模型的能力,多家企業(yè)所踐行的技術路線并不相同。
相對于普遍采用Diffusion Transformer(Dit,即擴散Transformer)模型的文生圖、文生視頻領域,多模態(tài)大模型到底是采用自回歸模型、擴散模型還是其他方式,業(yè)內(nèi)對此沒有達成共識。
在大會現(xiàn)場,Sand.ai CEO曹越給出了他對擴散模型帶來的問題思考:
“技術層面,主流的Diffusion和Transformer的訓練方案還是存在很大問題,核心問題在于可擴展性不足。”曹越說,“在Diffusion Transformer路線上,現(xiàn)在證明生成5秒視頻可以有不錯的效果,但隨著模型規(guī)模提升,會快速達到瓶頸。”
即使在生成機制一致的情況下,模型架構和訓練方式的不同也對模型生成效果帶來影響。
在Luma AI創(chuàng)始人宋佳銘看來,多模態(tài)大模型進入下半場的前提,是上半場要先把不同模態(tài)像語言一樣統(tǒng)一處理,既要用同一個模型建模,還要保證推理足夠快。
是將多個模態(tài)拼接訓練,還是在一開始就采用統(tǒng)一架構,把各種模態(tài)的信息丟到一起統(tǒng)一訓練,這就是多模態(tài)和“原生多模態(tài)”兩條路線的區(qū)分。
“當前多模態(tài)大模型的學習路徑,尤其是多模態(tài)理解模型,通常是先將語言模型訓練到很強的程度,隨后再學習其他模態(tài)信息。”王仲遠說,“這就如同先達到博士學位水平,再去接觸其他知識。”
然而,在上述過程中,模型的能力可能會出現(xiàn)下降。用王仲遠的話說,模型的能力可能從 “博士” 水平降至 “大學” 甚至 “高中” 水平。
為了解決這個問題,智源研究院早在去年10月上線了全球首個原生多模態(tài)世界大模型Emu3,試圖將多種模態(tài)的數(shù)據(jù)統(tǒng)一在一個架構內(nèi)。
作為原生多模態(tài)模型,Emu3采用自回歸的生成方式,基于下一個token預測范式統(tǒng)一多模態(tài)學習,通過研發(fā)新型視覺tokenizer將圖像/視頻編碼為與文本同構的離散符號序列,構建模態(tài)無關的統(tǒng)一表征空間,實現(xiàn)文本、圖像、視頻的任意組合理解與生成。
也就是說,你可以隨意將文字、語音和視頻丟給Emu3處理,而它也同樣能夠用這三種形式生成內(nèi)容,實現(xiàn)跨模態(tài)交互。
想要通往多模態(tài)大模型的下半場,多模態(tài)數(shù)據(jù)形態(tài)的擴充也是關鍵之一。MIT CSAIL何凱明組博士后研究員黎天鴻認為,真正的“下半場”多模態(tài),應該是模型能處理超越人類感官的數(shù)據(jù)。
在會議現(xiàn)場中,智源研究院也分享了在圖像、文字、聲音和視頻之外,多模態(tài)數(shù)據(jù)形態(tài)的擴充——腦信號。
“悟界”大模型系列中的見微Brainμ就脫胎于Emu3的“骨架”中;贓mu3的底層架構,智源研究院成功將fMRI、EEG、雙光子等神經(jīng)科學與腦醫(yī)學相關的腦信號統(tǒng)一token化,并完成了100萬單位的神經(jīng)信號預訓練。
“腦信號數(shù)據(jù)是第一個嘗試,”王仲遠說,“具身領域的數(shù)據(jù)有更多模態(tài),比如,3D信號、時空信號等,都可以作為一種模態(tài)進行融合。”
可以說,做原生多模態(tài)大模型的成本高、技術實現(xiàn)困難,對于拼落地速度的企業(yè)來說,是一個冒險的嘗試。作為科研機構,智源研究院在做的事情,就是先替行業(yè)蹚出一條路。
多模態(tài)生成落地拐點,視頻模型加速商業(yè)廝殺
在學界和業(yè)界探索技術道路的同時,企業(yè)端正在加速多模態(tài)大模型在行業(yè)中的落地進程,這也是中國AI發(fā)展的鮮明特色——商業(yè)化和模型發(fā)展并駕齊驅。
字節(jié)跳動Seed圖像&視頻生成負責人黃偉林給出兩組數(shù)據(jù)印證:2025年,就是圖像生成商業(yè)化元年。
“以效率數(shù)據(jù)為例,用戶生成100張圖的下載率在過去一年提升了3倍,如今高達60%以上,說明它已經(jīng)越過了商業(yè)化的關鍵門檻。”黃偉林說,“從用戶留存來看,比如30天留存,從原來的十幾個百分點提升到了40%左右。”
谷歌對多模態(tài)市場規(guī)模的預估
當技術門檻逐漸降低、成本效率達到要求,AI視頻生成也迎來了市場增長的黃金期。
黃偉林表示,目前頭部視頻生成產(chǎn)品的年化收入(ARR)預計今年達到1億美元,明年可能增長到5到10億美元。
生數(shù)科技CEO駱怡航也認為,今年多模態(tài)生成正處于規(guī);a(chǎn)落地的拐點:在技術迭代迅速,效果、速度和成本提升的同時,行業(yè)需求增長旺盛,視頻相關產(chǎn)業(yè)的落地節(jié)奏也在提速。
雖然當前大模型技術路線并不收斂,但在目前應用落地的階段,AI視頻生產(chǎn)已經(jīng)能夠協(xié)助人類完成那些本身耗時耗力、成本高的拍攝需求,并且把生成時間壓縮到極低。
張拯認為,在不同發(fā)展階段,AI視頻生成會有完全不同的PMF。
比如,在早期階段,很多交給人都非常難拍的視頻,即使質(zhì)量很差或者需要非常多的抽卡才能抽到視頻,但是也遠比搭一個景再拍內(nèi)容的成本低4~5個數(shù)量級。
張拯舉了個例子,比如拍攝在太空中的航空母艦,需要通過特效團隊逐幀去做。但是現(xiàn)在交給模型,哪怕需要100次抽卡,最后要500元才能抽出一個片段,這個成本也比之前低很多。
在大量的應用場景下,中國的多模態(tài)大模型公司們,圍繞著B端還是C端、哪條路先走的商業(yè)化路線,給出了不同的答案。
現(xiàn)階段,AI視頻在C端應用的突出案例,就是依靠視頻生成的AI視頻特效。
曾在TikTok團隊提供AI視頻技術支持,愛詩科技創(chuàng)始人王長虎分享了旗下產(chǎn)品PixVerse的突破里程碑,就來自于特效模版的上線。
據(jù)王長虎分享,通過特效視頻模版在抖音以及國內(nèi)外各大社交媒體上的傳播,PixVerse打響了知名度。當月,在中國產(chǎn)品出海增速榜,PixVerse排在第二名,訪問量提升80%。他還分享了一個印象深刻的數(shù)據(jù)——今年4月,超過PixVerse MAU增長的AI產(chǎn)品只有DeepSeek。
在技術快速迭代的同時,愛詩科技在商業(yè)化做出了自己的選擇——先做To C,再做To B?恐鳦端帶起的聲量,愛詩科技今年將版圖放到了B端,于今年1月支持各行業(yè)的API和定制化視頻生成,涵蓋互聯(lián)網(wǎng)、營銷、電商等。
相比之下,生數(shù)科技更早聚焦視頻生成大模型如何落地產(chǎn)業(yè)端的問題。成立兩年的時間里,生數(shù)科技有1年半都在琢磨落地問題,更在行業(yè)劃分上,駱怡航給出了“八大行業(yè)、三十大場景”的版圖,其中,互聯(lián)網(wǎng)、廣告、電影、動漫的應用占到了8成。
在切入B端的思考中,生數(shù)科技強調(diào)的是對成本以及生產(chǎn)效率的降低。
“要想滿足技術需求,很重要的一點是,(AI視頻生成)生產(chǎn)效率要提升100倍,生產(chǎn)成本要降低100倍,必須要和行業(yè)深入適配,滿足行業(yè)的專業(yè)需求。”駱怡航說。
駱怡航分享,一家海外動畫工作室和VIDU合作,打造了一個“AI動漫”工作流,能夠批量生成創(chuàng)意,他們用兩個月時間,生產(chǎn)了50集AI動漫短片。
當效率和生成達到滿足商用的節(jié)點,當AI企業(yè)們陸續(xù)把商業(yè)化提上日程?梢灶A見的是,下半年,多模態(tài)領域的AI生成將在商業(yè)化上迎來更激烈的比拼。
原文標題 : 多模態(tài)2025:技術路線“神仙打架”,視頻生成沖上云霄

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權
- 3 深度報告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機器人
- 5 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領跑?
- 9 格斗大賽出圈!人形機器人致命短板曝光:頭腦過于簡單
- 10 “搶灘”家用機器人領域,聯(lián)通、海爾、美的等紛紛入局