AMD RX 7900 XT Linux AI性能體驗(yàn)
一、ROCm:一個(gè)可移植、高性能的GPU計(jì)算平臺(tái)
隨著AI時(shí)代的來(lái)臨,顯卡的作用不再僅僅只局限于游戲,特別是在Stable Diffusion火爆全網(wǎng)之后,越來(lái)越多的玩家將顯卡當(dāng)成AIGC生產(chǎn)力工具。
只不過(guò),Stable Diffusion的早期版本對(duì)AMD顯卡支持不太友好,給大家造成了只有N卡才適合玩AI的錯(cuò)覺(jué)。
可能很多同學(xué)不知道的是,AMD的Radeon GPU也是能夠做深度學(xué)習(xí)的,而且性能也并不差。
去年12月份,AMD推出的ROCm 6.0開(kāi)發(fā)平臺(tái)進(jìn)一步優(yōu)化了RX 7000系列顯卡的AI性能,特別是Stable Diffusion的出圖效率更是獲得了翻倍提升。
這里先解釋一下什么是AMD ROCm!
ROCm (Radeon Open Compute Platform )是 AMD 基于開(kāi)源項(xiàng)目的 GPU計(jì)算生態(tài)系統(tǒng),類似于 NVIDIA 的 CUDA。
ROCm 支持多種編程語(yǔ)言、編譯器、庫(kù)和工具,以加速科學(xué)計(jì)算、自動(dòng)駕駛、人工智能和機(jī)器學(xué)習(xí)等領(lǐng)域的應(yīng)用。
ROCm還支持多種加速器廠商和架構(gòu),提供了開(kāi)放的可移植性和互操作性。
目前深度學(xué)習(xí)開(kāi)發(fā)一般都是使用Python,而大數(shù)據(jù)平臺(tái)往往都會(huì)部署在Linux操作系統(tǒng)之上。因此,AMD ROCm目前主要精力放在Linux系統(tǒng)上,Windows端則還有待完善。
得益于雙發(fā)射設(shè)計(jì)的流處理器單元,RX 7900 XT僅憑5376個(gè)流處理器就達(dá)到了52TFOPS的單精度浮點(diǎn)運(yùn)算性能,而擁有10240個(gè)流處理器的RTX 4080 Super浮點(diǎn)性能同樣則是55TFOPS。
至于RX 7900 XTX,其單精度浮點(diǎn)性能則接近60TFOPS。
Stable Diffusion主要依賴GPU的單精度浮點(diǎn)性能以及顯存容量與帶寬,這兩方面RX 7900 XT都不遜于RTX 4080 SUPER,甚至顯存容量還更大一些。
現(xiàn)在有了AMD ROCm 6.0的加持,終于可以發(fā)揮出這張頂級(jí)顯卡強(qiáng)大的AI算力。
二、Stable Diffusion出圖速度對(duì)比:Linux系統(tǒng)下出圖效率近乎翻倍
測(cè)試平臺(tái)如下:
本次我們主要對(duì)比RX 7900 XT/XTX在Ubuntu與windows系統(tǒng)下的出圖效率,看看AMD ROCm到底能帶來(lái)多大提升。
1、RX 7900 XT對(duì)比測(cè)試
首先是Windows 11系統(tǒng),打開(kāi)Stable Diffusion之后,我們?cè)O(shè)置DPN++ 2M Karras采樣、迭代步數(shù)50、Euler a采樣、1024x768分辨率、CFG為7、總批次10,單批數(shù)量1。
在Windows系統(tǒng)下,RX 7900 XT基于DirectML加速模式生成10張圖共計(jì)耗時(shí)9分51秒,也就是591秒。
進(jìn)入U(xiǎn)buntu 22.04.3 LTS系統(tǒng),設(shè)置好ROCm之后,同樣的參數(shù)與模型生成10張圖只用掉了5分05秒,即305秒。
對(duì)比之下,在Ubuntu 22.04.3 LTS系統(tǒng)下,RX 7900 XT的出圖效率相比Windows系統(tǒng)高了足足94%。
2、RX 7900 XTX對(duì)比測(cè)試
使用同樣的參數(shù)來(lái)測(cè)試RX 7900 XTX顯卡。
在Windows系統(tǒng)下,RX 7900 XTX基于DirectML加速模式生成10張圖總計(jì)耗時(shí)9分18秒,也就是558秒。
進(jìn)入U(xiǎn)buntu 22.04.3 LTS系統(tǒng),設(shè)置好ROCm之后,同樣的參數(shù)與模型生成10張圖只用掉了4分45秒,即285秒。
在Ubuntu 22.04.3 LTS系統(tǒng)下,RX 7900 XTX的出圖效率相比Windows系統(tǒng)領(lǐng)先了96%,也就是近乎翻倍的性能提升。
三、小結(jié):高性價(jià)比的AIGC顯卡
目前一張非公RX 7900 XT售價(jià)在5299元左右,對(duì)位的非公RTX 4080 Super售價(jià)則是8599元,N卡貴了60%。其實(shí)在游戲性能方面,這兩款顯卡并沒(méi)有太大差距。
現(xiàn)在AMD也意識(shí)到了AI應(yīng)用對(duì)于GPU的重要性,加大了對(duì)AMD ROCm平臺(tái)的投入,經(jīng)過(guò)不斷的更新,如今AMD ROCm 6.0在AI算力方面的提升早已超出了大多數(shù)玩家的認(rèn)知。
在我們的測(cè)試中,RX 7900 XT在Linux系統(tǒng)下使用Stable Diffusion ROCm 6.0版時(shí),其出圖效率幾乎是Windows系統(tǒng)的2倍。再加上55TFOPS的單精度浮點(diǎn)運(yùn)算性能以及20GB GDDR6X超大容量顯存,對(duì)于有較高專業(yè)AIGC應(yīng)用需求的專業(yè)用戶而言,在有限的預(yù)算下,RX 7900 XT可以說(shuō)是非常適合的選擇。
當(dāng)然,也希望AMD能夠繼續(xù)優(yōu)化ROCm在Windows系統(tǒng)下的性能表現(xiàn),讓更多的AMD用戶能擁有屬于自己的高性價(jià)比AIGC顯卡。
原文標(biāo)題 : ROCm加持出圖效率翻倍!AMD RX 7900 XT Linux AI性能體驗(yàn)

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-6.16立即報(bào)名>> 【在線會(huì)議】olution Talks |Computex 2025關(guān)鍵趨勢(shì)深讀
-
6月20日立即下載>> 【白皮書(shū)】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
推薦專題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語(yǔ)權(quán)
- 3 深度報(bào)告|中國(guó)AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰(shuí)在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過(guò)于簡(jiǎn)單
- 10 “搶灘”家用機(jī)器人領(lǐng)域,聯(lián)通、海爾、美的等紛紛入局