對(duì)國內(nèi)AI算力緊缺問題的若干看法
今天凌晨的蘋果WWDC證實(shí)了一點(diǎn):AI推理算力將長期處于“云端為主”的狀態(tài),這個(gè)“長期”至少是三到五年。是的,蘋果與OpenAI建立了戰(zhàn)略合作,計(jì)劃將下一代iOS系統(tǒng)與ChatGPT深度融合;但是絕大部分生成式AI推理,包括文字和圖片生成任務(wù),仍將上傳到ChatGPT的數(shù)據(jù)中心,在云端完成。關(guān)于這一點(diǎn),OpenAI在公告中已經(jīng)說得很清楚了。蘋果的“端側(cè)AI”主要仍局限于軟件層面。
如果連蘋果都做不到推理算力的“端側(cè)化”,那么其他手機(jī)廠商就更做不到了。PC端可能比移動(dòng)端的進(jìn)展稍微好一點(diǎn),但是在可見的未來,大部分AI PC(包括桌面工作站)仍將基于英偉達(dá)的桌面級(jí)顯卡,而且只能執(zhí)行參數(shù)規(guī)模相對(duì)較小的(蒸餾后的)大模型推理。無論從技術(shù)角度還是成本角度考慮,大模型及應(yīng)用開發(fā)商都會(huì)更樂意在云端即數(shù)據(jù)中心完成大部分推理任務(wù)。資本市場再次認(rèn)識(shí)到了這一點(diǎn),所以WWDC舉行之后,蘋果股價(jià)下跌而英偉達(dá)股價(jià)微漲。
在未來很長一段時(shí)間里,我們不必過多考慮“端側(cè)算力”。既然如此,國內(nèi)AI算力緊缺的問題,就不可能通過發(fā)展所謂“端側(cè)算力”的方式去解決。自從2022年11月底ChatGPT橫空出世以來,國內(nèi)AI算力幾乎始終處于緊缺狀態(tài),這是由下列因素共同決定的:
全球AI算力均十分緊缺,尤其在制造端,英偉達(dá)H系列顯卡僅能由臺(tái)積電代工(三星不行),產(chǎn)能瓶頸將持續(xù)到多年以后。
美國芯片出口禁令日益嚴(yán)格,尤其在2023年下半年的全方位加強(qiáng)之后,許多“后門”被堵上了,國內(nèi)廠商采購數(shù)據(jù)中心級(jí)顯卡的難度與日俱增。
我們知道,AI大模型所需算力分為訓(xùn)練和推理兩種,前者的要求更高一些;國內(nèi)的現(xiàn)狀則是兩種算力都缺乏。諷刺的是,前幾年國內(nèi)發(fā)展云游戲期間,互聯(lián)網(wǎng)大廠和電信運(yùn)營商均采購了一批英偉達(dá)Turing架構(gòu)的顯卡用于架設(shè)RTX刀片服務(wù)器,這些顯卡可以用于AI推理;如果沒有云游戲,國內(nèi)推理算力的瓶頸將更加嚴(yán)重。中國游戲產(chǎn)業(yè)是一個(gè)任勞任怨的背鍋產(chǎn)業(yè),誰都能來踩一腳,誰都能污名化,但是拯救所謂“硬科技”產(chǎn)業(yè)偏偏還得靠它!
即便如此,國內(nèi)AI推理算力的供需關(guān)系仍然十分緊張。所以,過去一個(gè)月國產(chǎn)大模型的“降價(jià)”舉措,很大程度上僅僅是行為藝術(shù)罷了。尤其是對(duì)于B端客戶而言,無論大模型API的調(diào)用價(jià)格降到多低,關(guān)鍵在于能不能買到量,F(xiàn)在的問題就是“有價(jià)無市”:只有極小規(guī)模的采購才能以“刊例價(jià)”執(zhí)行,稍大規(guī)模的采購就必須找銷售人員單獨(dú)洽談并排隊(duì),實(shí)際成交價(jià)格難以預(yù)料(肯定遠(yuǎn)高于“刊例價(jià)”)。
不要說B端用戶,哪怕C端用戶也能感受到推理算力的緊張:國內(nèi)的幾個(gè)最流行的AI大模型應(yīng)用,免費(fèi)用戶在高峰期幾乎一定會(huì)遇到需要排隊(duì)的狀況,必須充值或打賞才能加快進(jìn)度。要知道,目前國內(nèi)主流生成式AI應(yīng)用的DAU普遍只有幾百萬量級(jí),推理算力就已經(jīng)如此匱乏;如果真的出現(xiàn)上億DAU的AI超級(jí)應(yīng)用,算力幾乎肯定是跟不上的——所以目前國內(nèi)不可能出現(xiàn)這樣的超級(jí)應(yīng)用。(注:文心一言和通義千問均自稱累計(jì)用戶超過1億、每日API調(diào)用次數(shù)超過1億,但是與1億DAU還差很遠(yuǎn);豆包估計(jì)也差很遠(yuǎn)。)
可以想象,比推理要求更高的訓(xùn)練算力更加緊缺。2024年2月,字節(jié)跳動(dòng)在一篇論文當(dāng)中公布了它于前一年9月組建的“萬卡集群”。遺憾的是,它是由1.2萬張(比較落后的)A100顯卡組成,而美國科技巨頭早已換上了由(更先進(jìn)的)H100組成的“萬卡集群”,例如Meta的LLaMA-3就是由2.5萬張H100組成的集群訓(xùn)練的;以亞馬遜為代表的云計(jì)算大廠正在積極轉(zhuǎn)向(更更先進(jìn)的)B100及GB200算力集群。A系列顯卡發(fā)布于2020年,當(dāng)時(shí)芯片禁令尚未出臺(tái),國內(nèi)采購沒有多大障礙;H系列發(fā)布于2022年,芯片禁令已經(jīng)出臺(tái),但是國內(nèi)仍然可以通過采購“專供版”(主要是H800)的方式繞過;B系列于2024年發(fā)布,此時(shí)繞過芯片禁令的途徑已經(jīng)非常狹窄、朝不保夕。
長期、嚴(yán)重的算力瓶頸,給國內(nèi)AI產(chǎn)業(yè)帶來了兩個(gè)深刻影響。首先,算力緊缺意味著算力價(jià)格高昂(無論以自購顯卡還是租用的形式),國內(nèi)所有大模型廠商的售價(jià)均無法覆蓋訓(xùn)練+推理成本,有些甚至無法覆蓋邊際推理成本,賣一單虧一單(最近一波降價(jià)之后可能虧的更嚴(yán)重)。其次,國內(nèi)大部分算力集中在少量科技大廠手中,創(chuàng)業(yè)公司高度依賴它們,十分渴望它們以算力的方式投資入股。 結(jié)論就是大模型創(chuàng)業(yè)在國內(nèi)是一門非常差的生意,遠(yuǎn)遠(yuǎn)比不上當(dāng)年的移動(dòng)互聯(lián)網(wǎng)創(chuàng)業(yè)。
下面我們不妨以問答的形式,進(jìn)一步說明國內(nèi)AI算力的現(xiàn)狀。問題是市場上最關(guān)心的那些問題,回答則不是來自我本人,而是來自我在云計(jì)算和AI行業(yè)的信賴的朋友,我只是總結(jié)他們的答案罷了。
問:目前國內(nèi)AI算力儲(chǔ)備及分布狀況大致如何?
答:先說訓(xùn)練使用的“大卡”。如果把A100-800、H100-800均算作“大卡”的話,那么國內(nèi)的“大卡”儲(chǔ)備肯定超過六位數(shù),甚至可能超過了20萬張。問題在于隨著技術(shù)進(jìn)步,A系列已經(jīng)很難再被視為“大卡”了。如果按照扎克伯格所謂的“H100等效算力”,國內(nèi)的儲(chǔ)備肯定不超過六位數(shù),而僅僅Meta一家的“H100等效算力”就已經(jīng)超過了30萬張,2024年底將突破65萬張,遠(yuǎn)遠(yuǎn)超過了國內(nèi)所有大廠的算力儲(chǔ)備之和。
具體到算力分布,有兩個(gè)標(biāo)準(zhǔn):第一是“掌握的算力”,第二是“能調(diào)用的算力”。阿里這樣的云計(jì)算大廠掌握了巨大的算力,但其中很大一部分要出租給客戶,自家大模型訓(xùn)練和推理能調(diào)用的算力未必有絕對(duì)優(yōu)勢。如果只計(jì)算“掌握的算力”,國內(nèi)第一的無疑是阿里,其次是百度、字節(jié)跳動(dòng),騰訊可能更少一點(diǎn)。掌握一兩千張大卡的互聯(lián)網(wǎng)公司很多,因?yàn)閮?nèi)容推薦算法、自動(dòng)駕駛訓(xùn)練等環(huán)節(jié)都需要。
至于推理算力的分布就更加駁雜了。上文提到過,云游戲使用的顯卡可以承擔(dān)一定的推理任務(wù),目前國內(nèi)的推理算力可能有很大一部分來自以前的云游戲算力。
問:怎么看AI算力的國產(chǎn)替代?
答:在訓(xùn)練端難度極大,哪怕某些國產(chǎn)顯卡自稱其技術(shù)參數(shù)能達(dá)到A100的水平,它們也不具備NVlink互聯(lián)技術(shù)和CUDA開發(fā)環(huán)境,從而無法承擔(dān)大模型訓(xùn)練使命。況且,A100是英偉達(dá)2020年發(fā)布的產(chǎn)品,在2024年“追上”前者四年前的水平并無先進(jìn)性可言。大模型不是原子彈,它是一種重視性價(jià)比的民用商品,使用非主流硬件開發(fā)出來的大模型可能毫無商業(yè)價(jià)值可言。
但是在推理端,不是完全沒有可能,因?yàn)橥评砜▽?duì)NVlink和CUDA的依賴程度很小。英偉達(dá)在推理端的城墻仍然很高,但是比起訓(xùn)練端就要差了不少。問題在于,推理算力的技術(shù)路線也在不斷變遷,技術(shù)變遷的領(lǐng)導(dǎo)者還是英偉達(dá)。假如有選擇的話,主流大廠肯定樂意采購英偉達(dá)的推理解決方案。國內(nèi)廠商的問題是在芯片禁令之下沒有選擇,在推理端進(jìn)行國產(chǎn)替代總歸比沒有強(qiáng)。
問:怎么看Groq以及國內(nèi)某些廠商推出的“遠(yuǎn)超英偉達(dá)”的推理卡?
答:在高度特化的技術(shù)路線下,確實(shí)有可能做出表觀技術(shù)遠(yuǎn)超英偉達(dá)同期產(chǎn)品的推理卡——但是付出的代價(jià)是應(yīng)用場景十分狹窄。這樣的顯卡不僅只勝任大模型推理,甚至可能僅勝任某一特定類型的推理。大廠建立數(shù)據(jù)中心需要考慮通用性以及后續(xù)升級(jí)需求,高度特化的顯卡無法滿足這些需求。上面提到過,云游戲使用的顯卡可以用于推理,但高度特化的推理卡可以執(zhí)行圖形渲染任務(wù)嗎?可以執(zhí)行自動(dòng)駕駛等非生成式的推理任務(wù)嗎?
而且,硅谷那些不差錢的大廠,現(xiàn)在流行以“大卡”同時(shí)執(zhí)行訓(xùn)練和推理任務(wù):速度更快、更具靈活性、管理起來更方便。你的訓(xùn)練任務(wù)在全年之中不是平均分布的,可能這三個(gè)月訓(xùn)練消耗的算力多一些,接下來推理消耗的算力多一些,統(tǒng)一組建“大卡”集群有助于提升靈活性。當(dāng)然,這樣做不夠經(jīng)濟(jì),所以推理任務(wù)主要還是得由推理卡去執(zhí)行。我只是想說,英偉達(dá)在訓(xùn)練端和推理端的護(hù)城河是相輔相成的,不是彼此孤立的。
問:繞過芯片禁令的可能性大嗎?目前大家的替代方案是什么?
答:很多人認(rèn)為,芯片禁令可以以“非正常”手段繞過。但他們忽視了兩點(diǎn):第一,英偉達(dá)高端顯卡近年來一直供不應(yīng)求,所以不存在龐大的二手及散貨市場,哪怕是海外大廠淘汰下來的顯卡一般也是內(nèi)部發(fā)揮余熱。第二,即便你能繞過英偉達(dá)官方銷售獲得一些顯卡,也無法獲得技術(shù)支持。
H系列和B系列訓(xùn)練卡都不是單片出售的,而是以服務(wù)器(訓(xùn)練機(jī))為單位出售。B系列訓(xùn)練機(jī)已經(jīng)非常像高端數(shù)控機(jī)床這樣的高精尖設(shè)備,內(nèi)部可以植入地理位置判斷系統(tǒng),發(fā)現(xiàn)地理位置偏移之后可以自動(dòng)停機(jī)。所以無論在理論上還是實(shí)踐中,只要英偉達(dá)愿意認(rèn)真執(zhí)行芯片禁令,就是很難繞過的。雖然英偉達(dá)肯定愿意多賣幾個(gè)客戶、開拓中國市場,但現(xiàn)在它的顯卡反正不愁賣,短期內(nèi)也不可能主動(dòng)承擔(dān)破壞禁令的風(fēng)險(xiǎn)。
當(dāng)然,一切都是可以談的。只要雙方都想認(rèn)真做生意,拿出一些東西做交換,沒有什么生意是一定做不成的。關(guān)鍵看大家做生意的意愿有多強(qiáng)烈了!我們不能低估解決問題的難度——因?yàn)橹挥谐浞止烙?jì)難度,才能站在現(xiàn)實(shí)角度解決問題。片面低估難度并裝做問題已經(jīng)解決是不可取的,相信真正的從業(yè)者不會(huì)這樣做。
原文標(biāo)題 : 對(duì)國內(nèi)AI算力緊缺問題的若干看法

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
6月20日立即下載>> 【白皮書】精準(zhǔn)測量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報(bào)告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過于簡單
- 10 一文看懂視覺語言動(dòng)作模型(VLA)及其應(yīng)用