OpenAI提出Image GPT實現(xiàn)高質(zhì)量圖像補全和樣本生成
與先進(jìn)自監(jiān)督模型的比較,雖然需要更多的計算但是本文提出的模型還是能得到更具競爭力的結(jié)果。
由于像BERT這類基于掩膜的語言模型在眾多語言任務(wù)上超越了生成模型的結(jié)果,研究人員同時還利用BERT測評圖像模型。研究人員沒有調(diào)優(yōu)而是使用了15%的掩膜來去除像素,并從非掩膜的像素中來預(yù)測出這些結(jié)果。結(jié)果表明基于BERT模型的線性探測器具有明顯的劣勢但卻能在調(diào)優(yōu)下實現(xiàn)后來者居上。
BERT和iGPT-L預(yù)訓(xùn)練模型在32x32分辨率上的比較,可以看到生成模型在預(yù)訓(xùn)練階段得到的特征更好,而BERT模型在調(diào)優(yōu)后則迎頭趕上。
雖然非監(jiān)督學(xué)習(xí)無需人類標(biāo)記數(shù)據(jù),但近年來自監(jiān)督學(xué)習(xí)取得了長足的進(jìn)步,有效使用了有限的標(biāo)注數(shù)據(jù)。成功的半監(jiān)督學(xué)習(xí)方法都使用了像連續(xù)性正則、數(shù)據(jù)增強、準(zhǔn)標(biāo)簽等手段來實現(xiàn),純粹基于生成的方法近年來沒有顯示出有效的競爭力。iGPT-L在這一子領(lǐng)域?qū)鶞?zhǔn)數(shù)據(jù)進(jìn)行了評測,結(jié)果表明在沒有圖像增強的情況下性能超過了Mean Teacher和MixMatch,并接近FixMatch的水平。
與精心設(shè)計的半監(jiān)督方法不同,iGPT-L在沒有任何數(shù)據(jù)增強和調(diào)優(yōu)的情況下用于邏輯回歸分類器的擬合,實現(xiàn)了非常好的半監(jiān)督學(xué)習(xí)結(jié)果。
局限性
雖然iGPT在各種圖像任務(wù)上都很成功,但卻不得不提這種方法的局限性。由于使用了GPT-2中的通用序列遷移器架構(gòu),這種方法需要大規(guī)模的計算資源,iGPT-L典型情況下需要2500 V-100 GPU日的計算才能達(dá)到MoGo模型的水平,而后者只需要約70 V100 計算日的訓(xùn)練。
此外,這一基于transformer模型的輸入分辨率較低,而其他自監(jiān)督方法可以利用卷積編碼器輕松地處理高維度輸入。也許在未來需要構(gòu)建多尺度transformer的新架構(gòu)來處理輸入維度受限的問題。這一工作僅僅是大規(guī)模語言模型在新領(lǐng)域嘗試的原型驗證,無需領(lǐng)域知識的人工編碼。然而龐大的計算量消耗、卷積網(wǎng)絡(luò)的高精度表現(xiàn)使得這一方法在實際工作中并不實用。
最后,生成模型會受到訓(xùn)練序列中偏見的影響。有的對于構(gòu)建上下文關(guān)系十分有利,但有的卻會造成不好的結(jié)果。例如在訓(xùn)練數(shù)據(jù)中男性較多就會造成生成圖像中包含更多的或者完全都是男性,而不是有男有女的場景。在未來的研究中希望可以對數(shù)據(jù)進(jìn)行更有效的除偏處理,并更好的理解數(shù)據(jù)偏見與模型的關(guān)系。
利用語言模型GPT對圖像進(jìn)行處理的想法非常獨特,實驗也顯示了這種非監(jiān)督方法的對于全新領(lǐng)域的通用性,在提供足夠計算資源的情況下序列transformer也許能在未來為很多新領(lǐng)域提供解決問題新思路。
關(guān)于我“門”
將門是一家以專注于發(fā)掘、加速及投資技術(shù)驅(qū)動型創(chuàng)業(yè)公司的新型創(chuàng)投機構(gòu),旗下涵蓋將門創(chuàng)新服務(wù)、將門技術(shù)社群以及將門創(chuàng)投基金。將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
將門創(chuàng)新服務(wù)專注于使創(chuàng)新的技術(shù)落地于真正的應(yīng)用場景,激活和實現(xiàn)全新的商業(yè)價值,服務(wù)于行業(yè)領(lǐng)先企業(yè)和技術(shù)創(chuàng)新型創(chuàng)業(yè)公司。
將門技術(shù)社群專注于幫助技術(shù)創(chuàng)新型的創(chuàng)業(yè)公司提供來自產(chǎn)、學(xué)、研、創(chuàng)領(lǐng)域的核心技術(shù)專家的技術(shù)分享和學(xué)習(xí)內(nèi)容,使創(chuàng)新成為持續(xù)的核心競爭力。
將門創(chuàng)投基金專注于投資通過技術(shù)創(chuàng)新激活商業(yè)場景,實現(xiàn)商業(yè)價值的初創(chuàng)企業(yè),關(guān)注技術(shù)領(lǐng)域包括機器智能、物聯(lián)網(wǎng)、自然人機交互、企業(yè)計算。在近四年的時間里,將門創(chuàng)投基金已經(jīng)投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數(shù)科技、迪英加科技等數(shù)十家具有高成長潛力的技術(shù)型創(chuàng)業(yè)公司。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機器人
- 5 一文看懂視覺語言動作模型(VLA)及其應(yīng)用
- 6 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領(lǐng)跑?
- 10 格斗大賽出圈!人形機器人致命短板曝光:頭腦過于簡單