Holopix50k發(fā)布: 最多最豐富的雙目數(shù)據(jù)集大幅提升多個相關任務性能?
隨著配備雙目攝像頭的智能手機逐步增加,利用計算機視覺處理立體信息的需求也變得越來越重要。但現(xiàn)有的立體視覺數(shù)據(jù)集無論在數(shù)量和多樣性上都不足以支持豐富場景的雙目立體應用。
為了解決這一問題,來自Leia公司的研究人員們構建了一個包含49368對圖像的立體視覺數(shù)據(jù)集Holopix50k,這一數(shù)據(jù)集從大小和多樣性上都超過了現(xiàn)有的公開數(shù)據(jù)集,在立體圖像超分辨、單目深度估計等任務上都取得了非常大的性能提升。
立體視覺的及其廣泛應用
近年來隨著硬件的發(fā)展,立體視覺已經(jīng)在智能手機中普及。通過雙目攝像頭不同視角的拍攝下能夠得到場景的立體信息,對于3D照片、虛擬現(xiàn)實和交互等應用有著重要的作用。此外移動機器人和自動駕駛的迅速發(fā)展,也為立體視覺算法提出了更高的要求,需要在更為復雜的場景、多樣的真實環(huán)境中有效工作。
立體視覺的主要任務包括立體視差估計、基于自監(jiān)督或者無監(jiān)督方法對單張圖像輸入進行單目深度估計和基于立體圖像提升分辨率的圖像超分辨等任務。這些任務都需要高質量的大規(guī)模雙目/深度數(shù)據(jù)集來進行訓練。
目前人工智能領域的深度學習算法在多個領域取得重大的進展,但大規(guī)模的、多樣性的數(shù)據(jù)需求卻成為了立體視覺領域開發(fā)出優(yōu)秀算法的阻礙!大規(guī)模的立體數(shù)據(jù)集是提升算法性能的關鍵之一。
目前立體視覺領域的數(shù)據(jù)集主要包括像KITTI,Middlebury、NYU Indoor等較為流行的真實數(shù)據(jù)集、還包括Make3D、ETH3D、CMLA和Cityscape等針對特定領域的數(shù)據(jù)集,近年來還出現(xiàn)了像Flickr1024和WSVD等場景更為豐富的數(shù)據(jù)集,但這些數(shù)據(jù)集在數(shù)量和相關指標上并沒有良好的結果。
此外為了克服真實世界中數(shù)據(jù)收集的困難,研究人員還提出了利用圖形學渲染的方法來渲染獲取大量的雙目數(shù)據(jù),主要包括MPI Sintel、SceneFlow、UnrealStereo和3D Ken Burns等數(shù)據(jù),但合成數(shù)據(jù)應用于真實場景會受到域遷移問題的影響,同時還需要很大的努力來構建豐富的數(shù)字化場景。而Holopix50k的目的就在于綜合解決這些存在的問題。
Holopix50k
這一數(shù)據(jù)集主要從社交媒體平臺上收集而來,Holopix是目前最主流的3D攝影共享平臺,包含了大量的多視角立體視覺照片并可以利用視差效應來顯示出三維效果。這里匯集了世界上最為豐富的立體視覺社交媒體圖像,用戶只需要上傳兩個或多個視角,就可以在光場顯示設備上獲取多視角圖像,也可以在普通設備上獲取基于移動的模擬立體圖像。
在Holopix平臺上RED Hydrogen One拍攝的圖像最多,作為第一款集成光場性能的消費級手機,它可以提供四個視角的多角度顯示。它擁有兩個水平排列的相機,同時對圖像進行了校正并收斂于立體圖像的平均視差。與Flickr1024不同的是,這種方法并沒有對圖像進行剪切來使得圖像片收斂于無窮遠處的立體視差。
在最開始的階段,研究人員首先從Holopix上收集了約70k適合于作為數(shù)據(jù)集的立體視覺圖像對,針對左右圖像分辨率不匹配的情況會將兩張圖像的分辨率統(tǒng)一為其中較小的分辨率,利用高斯平滑和雙三次插值來將分辨率較高的圖像進行下采樣。

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權
- 3 深度報告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機器人
- 5 國家數(shù)據(jù)局局長劉烈宏調研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領跑?
- 9 格斗大賽出圈!人形機器人致命短板曝光:頭腦過于簡單
- 10 一文看懂視覺語言動作模型(VLA)及其應用