一文詳解不帶Anchors和NMS的目標(biāo)檢測
前言:
目標(biāo)檢測是計(jì)算機(jī)視覺中的一項(xiàng)傳統(tǒng)任務(wù)。自2015年以來,人們傾向于使用現(xiàn)代深度學(xué)習(xí)技術(shù)來提高目標(biāo)檢測的性能。雖然模型的準(zhǔn)確性越來越高,但模型的復(fù)雜性也增加了,主要是由于在訓(xùn)練和NMS后處理過程中的各種動態(tài)標(biāo)記。這種復(fù)雜性不僅使目標(biāo)檢測模型的實(shí)現(xiàn)更加困難,而且也阻礙了它從端到端風(fēng)格的模型設(shè)計(jì)。
本文來源于公眾號CV技術(shù)指南的技術(shù)總結(jié)系列。
更多內(nèi)容請關(guān)注公眾號CV技術(shù)指南,專注于計(jì)算機(jī)視覺的技術(shù)總結(jié),最新技術(shù)跟蹤。
早期方法 (2015-2019)
自2015年以來,人們提出了各種深度學(xué)習(xí)中的目標(biāo)檢測方法,給該領(lǐng)域帶來了巨大的影響。這些方法主要分為一階段方法和兩階段方法兩類。其一般處理過程包括:
1.使用CNN主干提取深度特征圖
2.為特征映射的每個像素生成各種錨點(diǎn)
3.計(jì)算錨點(diǎn)和ground truth之間的IoU,選擇其中的一部分進(jìn)行訓(xùn)練
4.使用回歸(IoU和L1)和分類(框內(nèi)的對象類)的loss對模型進(jìn)行訓(xùn)練
5.使用非極大值抑制(NMS)對推理結(jié)果進(jìn)行過程后處理,以刪除重復(fù)的預(yù)測框
在上述一般過程中,one-stage和two-stages方法的唯一區(qū)別是在訓(xùn)練過程中是否為region proposal動態(tài)標(biāo)記anchors。例如,在Faster-RCNN中,根據(jù)錨和ground truth之間的IoU給anchors作正或負(fù)的標(biāo)記。如果IoU足夠大,比如0.7,錨給正標(biāo)簽,否則如果IoU足夠小,比如0.3,給出負(fù)標(biāo)簽。因此,在推理期間,只將正錨定用于目標(biāo)檢測處理。這種技術(shù)在原論文中被稱為區(qū)域建議網(wǎng)絡(luò)(RPN)。
在像SSD、YOLO和RetinaNet這樣的one-stage方法中,不存在RPN,以便在推理過程中處理所有的錨點(diǎn)。分類置信度的閾值用于過濾大多數(shù)錨,而只有具有高分類可能性的錨被保留用于最終的后處理。
在訓(xùn)練過程中,錨的數(shù)量非常巨大。在two-stages的方法中,RPN幫助集中關(guān)注正錨點(diǎn),這節(jié)省了計(jì)算時間和資源。然而,RPN是復(fù)雜的,訓(xùn)練它也需要時間和資源。在one-stage的方法中,盡管必須處理所有的錨點(diǎn),但總的計(jì)算時間仍然更小。
由于two-stages方法的復(fù)雜性和速度較低,人們傾向于開發(fā)出更容易實(shí)現(xiàn)、更有效的新的one-stage方法。
什么是NMS以及為什么需要它
在上述早期的方法中,錨被用來與ground truth相匹配。因此,可能會發(fā)生多對一的匹配:幾個錨與一個ground truth相匹配。如上所述,在一階段和兩階段的方法中,幾種不同的錨可能與同一個ground truth有較大的IoU。在推理過程中,它們也可以回歸到具有高分類置信度的同一對象。因此,刪除重復(fù)anchor,NMS后處理是必要的。
NMS處理過程:
1.預(yù)測的anchors根據(jù)分類置信度進(jìn)行排序
2.選擇最大置信度的anchor
3.刪除所有與所選anchor的IoU大于預(yù)定義閾值的其它anchor
4.從1開始重復(fù),直到不存在anchors
在推理結(jié)果中,許多與許多目標(biāo)對應(yīng)的anchor被混合在一起。一旦以置信度進(jìn)行排序,可能會發(fā)生以下情況:
其中為兩個對象A和B預(yù)測三個anchor。三個anchor的編號為1、2、3,分類置信度分別為0.8、0.75、0.7。在這里,為同一對象A預(yù)測兩個anchor,因此應(yīng)該移除一個具有較低可信度的anchor。在這種情況下,去除anchor 2,anchor 1和3用于最終預(yù)測。
為什么會發(fā)生這種情況?回想一下訓(xùn)練過程中的多對一匹配:anchor 1和2同時與對象A匹配,計(jì)算損失并反向傳播梯度,告訴模型anchor 1和2都是對象A的有效候選對象。然后這個模型只是預(yù)測它被訓(xùn)練成什么。
因此,如果我們將多對一修改為一對一,并且在訓(xùn)練過程中只使用一個anchor來匹配一個ground truth,推理結(jié)果會有所不同嗎?回想一下,在多對一范式中,對于一個對象,會選擇具有大IoU的anchor來與它進(jìn)行匹配。想想一對一的范式,其中只選擇IoU最高的anchor進(jìn)行匹配,而所有其他anchors都是負(fù)的,并與背景匹配。我們是否可以得到一個模型,它能夠以一對一的匹配風(fēng)格直接預(yù)測所有對象的所有anchor,而不需要NMS后處理?
最近的新方法(2019-2020)
幸運(yùn)的是,上述問題的答案是肯定的。最近,人們一直在開發(fā)新的one-stage方法,使目標(biāo)檢測比以前更容易。主要思想有兩方面:
1.不要使用anchor,而使用每像素預(yù)測
2.不要使用NMS后處理,改為使用一對一的訓(xùn)練
人們不會使用根據(jù)空間比例和對象大小而變化的anchors,而是傾向于通過使用語義分割等每像素的預(yù)測來降低復(fù)雜性。一種典型的方法是FCOS,其中最終特征圖中的每個像素都用一個對象框進(jìn)行預(yù)測,使其成為一個完全卷積網(wǎng)絡(luò)(FCN)。用于目標(biāo)檢測的FCN不僅簡化了任務(wù)本身,而且還將其與語義分割、關(guān)鍵點(diǎn)檢測等其他FCN任務(wù)結(jié)合起來,用于多任務(wù)的應(yīng)用。
我們可以看到,對于ground truth框內(nèi)的每個像素,都可以分配一個標(biāo)簽:(l、r、t、b),表示ground truth框向左、右、上、下邊界的像素之間的距離。因此,訓(xùn)練仍然是多對一的,NMS后處理仍然需要得到最終的預(yù)測結(jié)果。雖然FCOS簡化了目標(biāo)檢測并性能良好,但它仍然不是端到端的。
為了使目標(biāo)檢測任務(wù)端到端,人們必須有不同的思考。自2020年以來,隨著transformer的普及,人們傾向于用Vision Transformer進(jìn)行目標(biāo)檢測,結(jié)果也很好。一個典型的方法是DETR,本文將不會討論它。我將在這里討論的是另一個并行的工作:OneNet,它將FCOS擴(kuò)展為用于目標(biāo)檢測的端到端FCN。
如上所述,為什么NMS是必要的主要原因是在訓(xùn)練中使用了多對一范式。為了使它端到端沒有NMS,應(yīng)該使用一對一的訓(xùn)練范式來代替。
回想一下,在早期的方法中,預(yù)測和ground truth是匹配的,它們之間只有幾何損失(IoU和L1)用于反向傳播。因此,為了增加訓(xùn)練數(shù)據(jù)的方差,需要多對一匹配,因?yàn)榭梢哉业皆S多幾何損失相似的候選對象,并匹配相應(yīng)的ground truth。這個候選框并不是唯一的。另一方面,如果我們堅(jiān)持使用幾何損失最低的候選模型進(jìn)行一對一匹配,該模型可能會過擬合,并且根本不具備很好的泛化能力。
OneNet的作者認(rèn)識到了這個問題,并使用了兩種損失:幾何損失和分類損失,以將候選框與ground truth相匹配。
與幾何損失不同,分類損失對相應(yīng)的ground truth是唯一的。例如,在目標(biāo)的高級深度特征圖中,我們可以找到一個最能表示目標(biāo)類的唯一像素。雖然許多像素的幾何損失與相應(yīng)的ground truth相似的幾何損失,但最佳分類損失的像素是唯一的。因此,我們可以將這兩種損失結(jié)合起來,得到訓(xùn)練中唯一一個綜合損失最低的候選框。
如原論文所述,只有具有最小損失的候選框才能匹配相應(yīng)的目標(biāo),其他目標(biāo)都是負(fù)的,并與背景匹配。
預(yù)測結(jié)果比較
多對一的結(jié)果
一對一的結(jié)果
第一行是早期多對一模型的預(yù)測結(jié)果,而第二行是一對一模型(OneNet)的預(yù)測結(jié)果。我們可以清楚地看到,許多冗余的預(yù)測框存在于多個一對一的結(jié)果中,而它們則在一對一的結(jié)果中消失。
討論
利用一對一的訓(xùn)練范式,OneNet首先實(shí)現(xiàn)了端到端的目標(biāo)檢測。這一進(jìn)展被認(rèn)為是對損失和模型優(yōu)化的深刻理解,這也有助于提高深度學(xué)習(xí)的可解釋性。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
6月20日立即下載>> 【白皮書】精準(zhǔn)測量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動力電池技術(shù)應(yīng)用大會
-
免費(fèi)參會立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報(bào)告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過于簡單
- 10 一文看懂視覺語言動作模型(VLA)及其應(yīng)用