聊聊大模型推理系統(tǒng)之 BlendServe:通過(guò)資源感知批處理策略,最大化硬件資源利用率和推理吞吐量
作者:InternLM、Qwen 等 LLM
全文約 2600 字,預(yù)計(jì)閱讀 7 分鐘
近年來(lái),大型語(yǔ)言模型(LLM)的廣泛應(yīng)用推動(dòng)了推理服務(wù)系統(tǒng)的不斷優(yōu)化。然而,在離線批量推理場(chǎng)景中,如何平衡計(jì)算資源利用效率和性能仍是一個(gè)亟待解決的問(wèn)題。
因此,今天我們來(lái)聊聊加州大學(xué)伯克利分校、華盛頓大學(xué)等團(tuán)隊(duì)聯(lián)合提出的一種名為BlendServe的系統(tǒng),通過(guò)創(chuàng)新的資源感知批處理策略,顯著提升了硬件利用率與推理吞吐量。本文將帶您快速了解這項(xiàng)研究的核心亮點(diǎn)、背景、方法創(chuàng)新及行業(yè)意義。
核心看點(diǎn)
BlendServe的核心目標(biāo)是通過(guò)重新排序和重疊請(qǐng)求來(lái)最大化硬件資源利用率,同時(shí)保持高前綴共享率。實(shí)驗(yàn)表明,該系統(tǒng)在多種合成多模態(tài)工作負(fù)載下表現(xiàn)出色:
吞吐量提升:相比現(xiàn)有的行業(yè)標(biāo)準(zhǔn)(如vLLM和SGLang),BlendServe實(shí)現(xiàn)了高達(dá)1.44 倍的吞吐量加速。資源重疊優(yōu)化:通過(guò)資源感知前綴樹的設(shè)計(jì),系統(tǒng)能夠有效結(jié)合計(jì)算密集型和內(nèi)存密集型請(qǐng)求,實(shí)現(xiàn)資源調(diào)度的最佳平衡。前綴共享保持:即使在優(yōu)化資源使用的同時(shí),BlendServe仍能保持接近最優(yōu)的前綴共享率(超過(guò) 97% )。通用性強(qiáng):無(wú)論是文本生成、視頻理解還是多模態(tài)任務(wù),BlendServe均展現(xiàn)出穩(wěn)定的性能優(yōu)勢(shì)。
這些突破為離線推理任務(wù)提供了全新的解決方案,特別是在大規(guī)模多模態(tài)數(shù)據(jù)處理中具有重要應(yīng)用價(jià)值。
研究背景
在傳統(tǒng)的在線推理服務(wù)中,低延遲是首要目標(biāo),因此系統(tǒng)設(shè)計(jì)通常采用嚴(yán)格的“先到先服務(wù)”策略(FCFS)。然而,在離線批量推理場(chǎng)景中,延遲要求相對(duì)寬松,這為更靈活的請(qǐng)求調(diào)度和資源優(yōu)化提供了可能。近年來(lái),隨著Transformer架構(gòu)的普及,模型的輸入輸出長(zhǎng)度變得更加多樣化,例如長(zhǎng)上下文推理(如Tree of Thoughts)、復(fù)雜推理鏈路(如Chain of Thought)以及多模態(tài)擴(kuò)展(如LWM、Unified-IO等)。
這種多樣性帶來(lái)了新的挑戰(zhàn):一方面,不同請(qǐng)求對(duì)計(jì)算資源(如 GPU 算力)和內(nèi)存帶寬的需求差異顯著;另一方面,現(xiàn)有技術(shù)(如NanoFlow)雖然嘗試通過(guò)操作級(jí)重疊優(yōu)化資源使用,但忽略了請(qǐng)求間的資源互補(bǔ)性,導(dǎo)致整體性能受限。因此,如何在離線推理中實(shí)現(xiàn)高效資源調(diào)度成為了一個(gè)關(guān)鍵問(wèn)題。
BlendServe正是從這一痛點(diǎn)切入,提出了一種兼顧資源重疊和前綴共享的全新調(diào)度方法,從而在保證高吞吐量的同時(shí)降低推理成本。
核心貢獻(xiàn)
方法創(chuàng)新:資源感知前綴樹
為了實(shí)現(xiàn)資源調(diào)度的全局優(yōu)化,BlendServe引入了一種新穎的資源感知前綴樹結(jié)構(gòu)。這一結(jié)構(gòu)不僅能夠捕獲請(qǐng)求之間的前綴共享關(guān)系,還能通過(guò)節(jié)點(diǎn)的計(jì)算密度值量化其資源需求特性。具體而言:
計(jì)算密度定義:計(jì)算密度(ρ(r))是計(jì)算時(shí)間與內(nèi)存綁定操作時(shí)間的比值。通過(guò)這一指標(biāo),系統(tǒng)能夠區(qū)分計(jì)算密集型和內(nèi)存密集型請(qǐng)求,并將其分別排列在樹的左側(cè)和右側(cè)。雙掃描算法:在排序后的前綴樹上,BlendServe采用一種啟發(fā)式雙掃描算法,從左至右和從右至左同時(shí)掃描葉子節(jié)點(diǎn),動(dòng)態(tài)構(gòu)建混合型請(qǐng)求批次。這種方法確保了計(jì)算與內(nèi)存資源的均衡使用,同時(shí)保留了高前綴共享率。
實(shí)驗(yàn)結(jié)果表明,相較于僅依賴深度優(yōu)先搜索(DFS)的傳統(tǒng)方法,BlendServe在吞吐量上平均提升了 20.84% (基準(zhǔn):NanoFlow-DFS)。
理論突破:前綴共享與資源重疊的權(quán)衡
傳統(tǒng)方法通常在前綴共享和資源重疊之間存在權(quán)衡:追求高前綴共享率可能導(dǎo)致資源分配不均,而單純優(yōu)化資源重疊則可能犧牲前綴共享帶來(lái)的性能增益。BlendServe通過(guò)理論建模解決了這一問(wèn)題:
首先,系統(tǒng)基于計(jì)算密度對(duì)請(qǐng)求進(jìn)行分層排序,確保計(jì)算密集型和內(nèi)存密集型請(qǐng)求的分布均勻。其次,通過(guò)動(dòng)態(tài)調(diào)整 GPU 內(nèi)存分區(qū),系統(tǒng)能夠在每個(gè)批次內(nèi)實(shí)現(xiàn)最佳資源重疊比例(即計(jì)算密度接近 1),從而最大化硬件利用率。
在實(shí)際測(cè)試中,BlendServe達(dá)到了 86.55% 的理論最優(yōu)吞吐量,顯著優(yōu)于現(xiàn)有基線。
實(shí)證成果:廣泛適用的性能提升
研究團(tuán)隊(duì)在多個(gè)合成工作負(fù)載上驗(yàn)證了BlendServe的性能,包括WildChat、ShareGPT、Azure-Trace和OpenVid等代表性數(shù)據(jù)集。結(jié)果顯示:
在高前綴共享率場(chǎng)景下,系統(tǒng)性能穩(wěn)定,吞吐量提升幅度達(dá) 19.34%-22.65% 。在低前綴共享率場(chǎng)景下,系統(tǒng)仍能通過(guò)高效的資源重疊策略實(shí)現(xiàn) 14%-34% 的性能提升。
此外,BlendServe的靈活性使其適用于分布式環(huán)境,能夠輕松擴(kuò)展至多 GPU 或多節(jié)點(diǎn)部署,契合當(dāng)前大規(guī)模推理服務(wù)的發(fā)展趨勢(shì)。
行業(yè)意義
BlendServe的研究成果不僅為離線推理任務(wù)提供了全新的思路,還對(duì)整個(gè) AI 推理服務(wù)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響:
推動(dòng)多模態(tài)推理發(fā)展:隨著多模態(tài)模型(如EMU、VILA-U)的興起,推理系統(tǒng)需要處理更加復(fù)雜的資源需求。BlendServe的資源感知機(jī)制為這類任務(wù)提供了高效解決方案,有助于進(jìn)一步降低計(jì)算成本。契合綠色計(jì)算趨勢(shì):通過(guò)提高硬件利用率,BlendServe能夠顯著減少推理任務(wù)的能耗,符合碳中和政策導(dǎo)向,助力綠色數(shù)據(jù)中心建設(shè)。引領(lǐng)技術(shù)變革:該研究為未來(lái)的推理系統(tǒng)設(shè)計(jì)提供了重要參考,特別是在分布式環(huán)境下的資源調(diào)度優(yōu)化方面,有望推動(dòng)新一代推理框架的誕生。結(jié)語(yǔ)
BlendServe以其獨(dú)特的資源感知批處理策略,成功突破了離線推理中的資源調(diào)度瓶頸,為多模態(tài)任務(wù)和大規(guī)模推理服務(wù)帶來(lái)了顯著的性能提升。未來(lái),隨著更多應(yīng)用場(chǎng)景的落地,這一技術(shù)有望成為 AI 推理領(lǐng)域的核心工具之一,為行業(yè)帶來(lái)更大的變革力量。
???? 論文鏈接:
https://arxiv.org/abs/2411.16102
第一作者Yilong Zhao和Shuo Yang深耕AI 系統(tǒng)優(yōu)化領(lǐng)域多年,曾參與多項(xiàng)高性能計(jì)算與機(jī)器學(xué)習(xí)系統(tǒng)的研究項(xiàng)目。本研究得到了加州大學(xué)伯克利分校、華盛頓大學(xué)以及 xAI 實(shí)驗(yàn)室的聯(lián)合支持。
-- 完 --
原文標(biāo)題 : 聊聊大模型推理系統(tǒng)之 BlendServe:通過(guò)資源感知批處理策略,最大化硬件資源利用率和推理吞吐量

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
6月20日立即下載>> 【白皮書】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語(yǔ)權(quán)
- 3 深度報(bào)告|中國(guó)AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰(shuí)在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過(guò)于簡(jiǎn)單
- 10 “搶灘”家用機(jī)器人領(lǐng)域,聯(lián)通、海爾、美的等紛紛入局