人工智能技術自動生成數(shù)據(jù)標簽方面所做的工作
本文想與大家分享一下我們在使用人工智能技術自動生成數(shù)據(jù)標簽方面所做的工作。
在我們深入了解我們的方法之前,首先讓我們了解一下數(shù)據(jù)標簽是什么。
在機器學習中,數(shù)據(jù)標記只是識別原始數(shù)據(jù)(圖像、視頻、音頻文件、文本文件等)的過程,并添加一個或多個有意義且信息豐富的標簽以提供上下文,以便機器學習模型可以從中學習和推斷。
大多數(shù)最先進的機器學習模型高度依賴于大量標記數(shù)據(jù)的可用性,這是監(jiān)督任務中必不可少的一步。各種用例都需要數(shù)據(jù)標簽,包括計算機視覺、自然語言處理和語音識別。
傳統(tǒng)上,到目前為止,標記數(shù)據(jù)的這一繁瑣而平凡的過程主要是由人類完成的。為了幫助人類從零開始盡可能減少數(shù)據(jù)標記的工作和努力,我們提出了一種自動化算法解決方案,旨在減少大量手動工作。
在這里,將討論計算機視覺任務。計算機視覺僅僅是復制人類視覺(人眼視覺)的復雜性和對周圍環(huán)境的理解。
計算機視覺任務包括獲取、處理、分析和理解數(shù)字圖像的方法,以及從現(xiàn)實世界中提取高維數(shù)據(jù)以產生數(shù)字或符號信息的方法,例如以決策的形式。在計算機視覺領域,有許多不同的任務。將不詳細介紹這些任務,例如分類、檢測、分割等。但是,下圖提供了這些任務的清晰概述和目標,并給出了上下文中對象的示例——“香蕉”。
一個示例上下文-標記數(shù)據(jù)的需求
對于檢測對象“香蕉”的監(jiān)督模型,注釋標簽被饋送到模型,以便它可以學習香蕉像素的表示,并在上下文中對其進行定位,然后可以使用上下文來推斷不可見/新數(shù)據(jù)。
實例分割任務旨在檢測對象,定位這些對象,并提供它們的數(shù)量、大小和形狀信息。
我們使用這樣一種最先進的實例分割模型——“Mask R-CNN”作為我們框架的核心主干,但在這里,我們可以根據(jù)其需求和目標使用任何其他網絡體系結構。
我們堅持使用mask R-CNN,因為它可以有效地檢測圖像中的對象,同時為每個對象生成高質量的分段掩碼。對于我們檢測到的新冠病毒感染的特定測試用例,感染區(qū)域的精確位置至關重要,因此像素級檢測在這種情況下更合適。
我們的方法
我們工具的管道如下圖所示,主要由檢測器和跟蹤器、自動標簽模塊和I/O模塊組成,用于將機器注釋標簽輸出并保存到磁盤。
步驟1:-目標檢測和跟蹤以進行像素級分類
一個定制的弱訓練mask-RCNN模型用于檢測極少數(shù)標記實例(<10個樣本)的新冠病毒感染。
為了標記感染區(qū)域,我們使用VGG圖像注釋器(VIA)圖像注釋工具。這是一個簡單和獨立注釋圖像,音頻和視頻的軟件。
VIA在web瀏覽器中運行,不需要任何安裝或設置。完整的VIA軟件可以放在一個獨立的HTML頁面中,頁面大小小于400KB,在大多數(shù)現(xiàn)代web瀏覽器中作為離線應用程序運行。VIA是一個完全基于HTML、Javascript和CSS(不依賴于外部庫)的開源項目。
VIA由Visual Geometry Group(VGG)開發(fā),根據(jù)BSD-2條款許可證發(fā)布,可用于學術項目和商業(yè)應用。
檢測器用于獲取本地化的掩碼、邊界框和類。接下來,為了沿著輸入視頻數(shù)據(jù)流對多個感染區(qū)域進行統(tǒng)一跟蹤和標記,我們使用了中心點跟蹤算法。下面給出了我們的mask RCNN covid檢測器的一個片段。
步驟2:-逐幀數(shù)據(jù)標記
來自預訓練的檢測器模型的推理用于獲取邊界框的位置,并創(chuàng)建json元數(shù)據(jù)。
一旦使用Mask RCNN對幀進行分割,就會生成相應的感興趣區(qū)域(ROI)。此外,生成每個ROI的掩碼,然后在整個圖像幀上進行輪廓檢測。然后,從輪廓中提。▁,y)坐標。最后,這些形狀、區(qū)域和坐標屬性逐幀保存到磁盤中。
下面給出了我們的自動標記算法的片段。
示例-新冠病毒-19感染檢測和自動標記
我們測試了我們的方法,目的是為新冠病毒感染區(qū)域自動生成計算機標簽。機器生成標簽和人工標注標簽的結果如下所示?梢钥闯觯詣幼⑨屢嫔傻暮铣蓸撕炠|量相當好,可用于重新訓練對象檢測模型或生成更多可用于不同任務的注釋數(shù)據(jù)。
總結
數(shù)據(jù)標記是一項非常重要的任務,也是有監(jiān)督學習管道的關鍵組成部分之一。
這是一項需要大量手動操作的任務。那么,我們就可以讓這些平凡的、勞動密集型的、耗時的工作中的大部分由機器自主驅動,從而最大限度地減少人類的大部分任務。
注意:-我們的工具目前處于alpha測試階段。目前,我們設計的框架基于mask R-CNN和VIA注釋格式。
我們還希望將我們的原型推廣到包括不同的最先進的檢測器,例如YOLO和相應的YOLO兼容注釋格式。此外,我們還計劃集成COCO注釋格式。它值得將所有不同的圖像注釋集成為我們框架的一部分,同時為設施提供不同的庫,即Torch、TensorFlow、Caffe等。

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權
- 3 深度報告|中國AI產業(yè)正在崛起成全球力量,市場潛力和關鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機器人
- 5 國家數(shù)據(jù)局局長劉烈宏調研格創(chuàng)東智
- 6 一文看懂視覺語言動作模型(VLA)及其應用
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產元年誰在領跑?
- 10 格斗大賽出圈!人形機器人致命短板曝光:頭腦過于簡單