機器也能看圖說話
基于 Image Captioning 的 VQA(視覺問答)
Image Captioning是實現(xiàn)視覺認知的一個重要方面,現(xiàn)在基于上文提及的谷歌提出的Image Captioning模型來構造對場景的理解,并進行問答。
問題:地面上覆蓋著什么?
模型回答:積雪
問題:地面上覆蓋著什么?模型回答:積雪情況變得不那么樂觀了
深度學習系統(tǒng),例如用于VQA的系統(tǒng),可能會發(fā)展出類似的“作弊”方法,表面上似乎“解決了”任務,而無需學習潛在的推理過程。 例如,模型可以正確回答“地面覆蓋著什么?”這個問題,不是因為它理解了場景,而是因為有偏差的數(shù)據(jù)集經(jīng)常在積雪時提出有關地面的問題。 我們怎樣才能確定一個系統(tǒng)是否能夠進行復雜的推理而不僅僅是利用數(shù)據(jù)的偏差?模型即使給出了正確的回答,我們仍然要明確重要一點:這個正確答案是模型真正通過一步一步推理得到的,還是通過對圖像和問題的膚淺理解,利用數(shù)據(jù)集偏差,得到的統(tǒng)計結果。 因此就需要在圖像感知基礎上進行理解、推理、認知,并構建數(shù)據(jù)集。
Visual Genome(視覺基因組)
這是斯坦福李飛飛團隊構建的數(shù)據(jù)集,它就是嘗試解決這樣的問題。
現(xiàn)有模型能夠檢測照片中的離散對象(人或物);但無法解釋它們之間的交互(interactions)或它們之間的關系; 大多數(shù)模型停留在感知智能階段; 對視覺世界的推理與認知理解 要求計算機不僅具有檢測對象的能力,還要具有描述這些對象的能力,并理解它們在場景中的相互作用。
采用自然語言對圖像內容進行描述,加進去人類的認知理解構造訓練集。進一步通過知識圖譜工程(關系抽取、實體鏈接等等),標注出對象(Objects)、屬性(Attribute)和關系(Relationships)。 構造視覺概念到語義層面的數(shù)據(jù)集: 提供目標對象的交互和屬性的詳細標注;對人、事、物、關系進一步密集標注;將注釋詞匯映射到WordNet中實現(xiàn)規(guī)范化;對每個區(qū)域構建一個組織關系圖;聯(lián)結一張圖片上的所有區(qū)域圖,構成一個完整的場景圖。
然而,上述數(shù)據(jù)集構造人力成本大,下面介紹生成式推理數(shù)據(jù)集CLEVR。
生成式推理數(shù)據(jù)集CLEVR
CLEVR是一個診斷數(shù)據(jù)集,用于構成語言和基本視覺推理的場景,由斯坦福李飛飛團隊和Facebook AI研究所合作研發(fā)。 CLEVR 數(shù)據(jù)集包含:
10萬幅渲染圖像;
100萬條自動生成的問題,其中85.3萬條獨一無二的問題。
它具有挑戰(zhàn)性的圖像和問題對,可以測試視覺推理能力,如計數(shù)、比較、邏輯推理和在記憶中存儲信息。 下面是來自CLEVR的示例圖像和問題,問題測試視覺推理的方面,例如屬性識別、計數(shù)、比較、多重注意和邏輯操作。
問:大型物體和金屬球體的數(shù)量是否相等?問:大球體左邊的棕色金屬物體的左邊的圓柱體是什么尺寸的?問:有一個和金屬立方體大小相同的球體,它是由和小紅球相同的材料制成的嗎?問:有多少物體是小圓柱體還是紅色的?
CLEVR數(shù)據(jù)集優(yōu)于其他數(shù)據(jù)集的兩點:
(1)CLEVR最大限度地減少了先前VQA數(shù)據(jù)集的偏差,避免學習系統(tǒng)在沒有視覺推理的情況下就可以正確回答問題的情況;(2)CLEVR的合成性質和詳細注釋有助于深入分析現(xiàn)有數(shù)據(jù)集無法實現(xiàn)的推理能力。 下圖可以直觀呈現(xiàn)出CLEVR數(shù)據(jù)集是如何生成的。
CLEVR中的每個問題都與一個可以在圖像的場景圖(Scene Graph) 上執(zhí)行的功能程序(Functional Program) 相關聯(lián),從而得到問題的答案。 CLEVR中的每個問題都以自然語言和功能性程序表示。功能程序表示精確確定回答每個問題所需的推理技能。
我們使用問題族的方法,以最小化問題條件偏差的方式將功能程序轉換為自然語言。 CLEVR包含總共90個問題族,每個族都有一個程序模板和平均四個文本模板;文本模板是通過為每個族手動編寫一個或兩個模板然后眾包問題重寫生成的;為了進一步增加語言多樣性,我們對每種形狀,顏色和材料使用一組同義詞;每個模板最多有19個參數(shù),少數(shù)族可以生成大量獨特的問題; 右圖顯示了CLEVR中近一百萬個問題,超過85.3萬個是獨一無二的。通過添加新的問題族可以輕松擴展CLEVR。 CLEVR數(shù)據(jù)集上六種VQA方法:在每個問題類型的準確度(越高越好)
Q-typemode:該Baseline 對于每個問題類型預測最常見的訓練集答案。
LSTM:問題是用學習得到的單詞嵌入和單詞級LSTM進行處理的。最終的LSTM隱藏狀態(tài)被傳遞給多層感知器(MLP),以預測可能答案的分布。此方法不使用圖像信息,因此它只能建模了(學習了)問題條件偏差。
CNN+ BoW:BoW( Bag of Words, 詞袋), 問題中的每個單詞的詞向量求平均來編碼該問題,并且使用卷積網(wǎng)絡(CNN)提取的圖像特征對圖像進行編碼。問題和圖像特征被級聯(lián)然后傳遞給多層感知器(MLP),MLP預測可能答案的分布。我們使用在Google-News語料庫中訓練的詞向量; 這些在訓練期間沒有經(jīng)過微調。
CNN+LSTM:圖像和問題分別使用CNN特征和LSTM的最終隱藏狀態(tài)進行編碼,這些特征被級聯(lián)并傳遞給MLP以預測答案分布。

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權
- 3 深度報告|中國AI產業(yè)正在崛起成全球力量,市場潛力和關鍵挑戰(zhàn)有哪些?
- 4 一文看懂視覺語言動作模型(VLA)及其應用
- 5 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機器人
- 6 國家數(shù)據(jù)局局長劉烈宏調研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產元年誰在領跑?
- 10 格斗大賽出圈!人形機器人致命短板曝光:頭腦過于簡單