極鏈科技HPAIC人類蛋白質圖譜分類挑戰(zhàn)賽金牌經(jīng)驗分享
模型
我們最終使用的基礎模型有Inceptionv3,Inceptionv4以及Xception三種,比賽前期我們測試了VGG,ResNet,ResNext,SeNet,但是效果不是很好,因此比賽末期沒有再進行進一步測試。
我們使用了512,650和800三種尺度來增加網(wǎng)絡對圖像的理解,另外每個尺度進行10折交叉驗證,保證驗證集的劃分對網(wǎng)絡整體的影響,以及用驗證集來評估模型預測的好壞和選擇模型及其對應的參數(shù)。不同模型交叉驗證時使用不同的隨機種子劃分驗證集和訓練集,以盡可能多的學到不同的樣本組合。
Inceptionv3和Inceptionv4的512的結果不好(0.55+ public leaderboard 閾值0.15),因此沒有做交叉驗證,只是用512尺度訓練了基礎模型,并用在650和800的微調中。
模型修改:
1.第一層卷積的輸入通道數(shù)由3修改為4,保持其他卷積參數(shù)不變,從而使網(wǎng)絡應對4通道輸入;
2.修改最后一的池化層為全局池化層,保證在多尺度時可以使用同一個網(wǎng)絡;
3.全局池化后增加一層128的全連接,然后接一層28的全連接。
訓練
訓練過程的參數(shù)如下:
loss: MultiLabelSoftMarginLoss
lr: 0.05(512,imagenet 預訓練),0.01(650和800,512預訓練);
lrscheduler: steplr(gamma=0.1,step=6)
optimizer: SGD (adam,rms not well)
epochs: 25, 600和800一般在12-20直接提前結束,取loss最低的模型
10 folds CV
sampling weights:[1.0, 5.97, 2.89, 5.75, 4.64, 4.27, 5.46, 3.2, 14.48, 14.84, 15.14, 6.92, 6.86, 8.12, 6.32, 19.24, 8.48, 11.93, 7.32, 5.48, 11.99, 2.39, 6.3, 3.0, 12.06, 1.0, 10.39, 16.5]
scale:512,600,800
獨立閾值
為每一個類別找到一個合適的閾值是一件很困難的事,但是多閾值是提升分數(shù)的關鍵,對我來說,大概可以提升0.005~0.008。 我們使用驗證集來找閾值,我們訓練單模型xception 512 ,驗證集占13%。調整每一類的閾值使得f1 score達到最優(yōu),不過我們發(fā)現(xiàn)稀有類別的閾值普遍很高,public lb會變差,因此我們只調整了驗證集1000張以上的類別,稀有類別控制閾值為0.15 通過這種方法找到的閾值在其他模型或者集成的時候同樣有效。
測試
比賽結束以后我們將比賽中訓練的模型重新提交查看private leaderboard成績,得到如下結果:
比賽過程中我們發(fā)現(xiàn)做了10 fold ensemble不一定比single fold好,因此我們在最終集成的時候部分模型只選擇了部分fold (根據(jù)loss選擇)。
檢索
我們使用檢索的方法(特征使用inceptionv4 800 的128維特征)查找test與hpa相似的圖片,使用余弦相似度進行度量,我們發(fā)現(xiàn)了許多相似的甚至相同的圖片,直接使用相似度最高的300張圖片的結果進行替換,分數(shù)在public lb上提升0.01~0.015,不過在private LB中并沒有效果,官方在比賽過程中也說明部分test圖像由于與HPA中部分圖像重合,不再進行分數(shù)計算。
集成
我們將inceptionv3 inceptionv4以及xception 800的10fold 模型的特征進行concat(先進行l(wèi)2),得到3840維的新特征,并在此基礎上設計了2層的全連接網(wǎng)絡進行訓練, 并做10 fold CV,訓練過程中使用不容參數(shù)訓練過程如圖所示,我們取了loss最低的參數(shù)。結果融合后private lb:0.55150 public lb:0.62791。
雖然上面方法在public lb上分數(shù)較高,但是當與其他模型結果融合時,public LB的分數(shù)反而降了,因此我們降低了這個模型的權重。
最后的結果是通過加權融合的方式得到的,權重根據(jù)模型的public lb分數(shù)設置, inceptionv4 800和inceptionv3 800的權重最高,xception 650 最低,同時也用到了inceptionv4、xception其他尺度的部分fold。

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權
- 3 深度報告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機器人
- 5 一文看懂視覺語言動作模型(VLA)及其應用
- 6 國家數(shù)據(jù)局局長劉烈宏調研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領跑?
- 10 格斗大賽出圈!人形機器人致命短板曝光:頭腦過于簡單