深蘭科技|目標(biāo)檢測二十年間的那些事兒
本文主要參考自文獻(xiàn)[1]:Zhengxia Zou, Zhenwei Shi, Member, IEEE, Yuhong Guo, and Jieping Ye, Object Detection in 20 Years: A Survey Senior Member, IEEE
過去二十年中與 “ 目標(biāo)檢測 ” 相關(guān)的出版物數(shù)量的增長
二十年
在計(jì)算機(jī)視覺領(lǐng)域中有幾個基本的任務(wù):圖像分類[3]、目標(biāo)檢測[4]、實(shí)例分割[5]及語義分割[6],其中目標(biāo)檢測作為計(jì)算機(jī)視覺中最基本的任務(wù)在近年來引起了廣泛關(guān)注。某種意義上,它在過去二十年內(nèi)的發(fā)展也是計(jì)算機(jī)視覺發(fā)展史的縮影。如果我們將今天基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)比作一場“熱兵器革命”,那么回顧20年前的技術(shù)時即可窺探“冷兵器”時代的智慧。
目標(biāo)檢測是一項(xiàng)計(jì)算機(jī)視覺任務(wù)。正如視覺對于人的作用一樣,目標(biāo)檢測旨在解決計(jì)算機(jī)視覺應(yīng)用中兩個最基本的問題:1. 該物體是什么?2. 該物體在哪里?當(dāng)然,聰明的人可能會立即想到第三個問題:“該物體在干什么?”這即是更進(jìn)一步的邏輯及認(rèn)知推理,這一點(diǎn)在近年來的目標(biāo)檢測技術(shù)中也越來越被重視。不管怎樣,作為計(jì)算機(jī)視覺的基本任務(wù),它也是其他計(jì)算機(jī)視覺任務(wù)的主要成分,如實(shí)例分割、圖像字幕、目標(biāo)跟蹤等。
從應(yīng)用的角度來看,目標(biāo)檢測可以被分為兩個研究主題:“ 通用目標(biāo)檢測(General Object Detection) ” 及 “檢測應(yīng)用(Detection Applications)” ,前者旨在探索在統(tǒng)一的框架下檢測不同類型物體的方法,以模擬人類的視覺和認(rèn)知;后者是指特定應(yīng)用場景下的檢測,如行人檢測、人臉檢測、文本檢測等。
近年來,隨著深度學(xué)習(xí)技術(shù)[7]的快速發(fā)展,為目標(biāo)檢測注入了新鮮血液,取得了顯著的突破,也將其推向了一個前所未有的研究熱點(diǎn)。目前,目標(biāo)檢測已廣泛應(yīng)用于自動駕駛、機(jī)器人視覺、視頻監(jiān)控等領(lǐng)域。
二十年間的發(fā)展
如下圖所示,以2014年為分水嶺,目標(biāo)檢測在過去的二十年中可大致分為兩個時期:2014年前的“傳統(tǒng)目標(biāo)檢測期”及之后的“基于深度學(xué)習(xí)的目標(biāo)檢測期”。接下來我們詳細(xì)談?wù)搩蓚時期的發(fā)展。
傳統(tǒng)檢測
早期的目標(biāo)檢測算法大多是基于手工特征構(gòu)建的。由于當(dāng)時缺乏有效的圖像表示,人們別無選擇,只能設(shè)計(jì)復(fù)雜的特征表示及各種加速技術(shù)對有限的計(jì)算資源物盡其用。
(1) Viola Jones檢測器
18年前,P. Viola和M. Jones在沒有任何約束(如膚色分割)的情況下首次實(shí)現(xiàn)了人臉的實(shí)時檢測[8][9]。他們所設(shè)計(jì)的檢測器在一臺配備700MHz Pentium III CPU的電腦上運(yùn)行,在保持同等檢測精度的條件下的運(yùn)算速度是其他算法的數(shù)十甚至數(shù)百倍。這種檢測算法以共同作者的名字命名為“Viola-Jones (VJ) 檢測器”以紀(jì)念他們的重大貢獻(xiàn)。
VJ檢測器采用最直接的檢測方法,即滑動窗口(slide window):查看一張圖像中所有可能的窗口尺寸和位置并判斷是否有窗口包含人臉。這一過程雖然聽上去簡單,但它背后所需的計(jì)算量遠(yuǎn)遠(yuǎn)超出了當(dāng)時計(jì)算機(jī)的算力。VJ檢測器結(jié)合了 “ 積分圖像 ”、“ 特征選擇 ” 和 “ 檢測級聯(lián) ” 三種重要技術(shù),大大提高了檢測速度。
1)積分圖像:這是一種計(jì)算方法,以加快盒濾波或卷積過程。與當(dāng)時的其他目標(biāo)檢測算法一樣[10],在VJ檢測器中使用Haar小波作為圖像的特征表示。積分圖像使得VJ檢測器中每個窗口的計(jì)算復(fù)雜度與其窗口大小無關(guān)。
2)特征選擇:作者沒有使用一組手動選擇的Haar基過濾器,而是使用Adaboost算法從一組巨大的隨機(jī)特征池 (大約18萬維) 中選擇一組對人臉檢測最有幫助的小特征。
3)檢測級聯(lián):在VJ檢測器中引入了一個多級檢測范例 ( 又稱“檢測級聯(lián)”,detection cascades ),通過減少對背景窗口的計(jì)算,而增加對人臉目標(biāo)的計(jì)算,從而減少了計(jì)算開銷。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
6月20日立即下載>> 【白皮書】精準(zhǔn)測量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動力電池技術(shù)應(yīng)用大會
-
免費(fèi)參會立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報(bào)告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過于簡單
- 10 一文看懂視覺語言動作模型(VLA)及其應(yīng)用