中文字幕se无码,91噜噜噜在线观看

<noscript id="rzd5o"></noscript>

<mark id="rzd5o"><table id="rzd5o"><meter id="rzd5o"></meter></table></mark>

<noscript id="rzd5o"><progress id="rzd5o"><small id="rzd5o"></small></progress></noscript>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 計(jì)算機(jī)視覺 > 正文

用于大規(guī)模圖像縮放識(shí)別的Vision Transformer

2020-10-31 11:09

磐創(chuàng)AI

在本文中，我想在不作太多技術(shù)細(xì)節(jié)的情況下，解釋作者提交給2021 ICLR會(huì)議的新論文“an－image－is－worth－16x16－words－transformers－for－image－recognition－at－scale”的研究成果（目前為止匿名）。自1960年以來深度學(xué)習(xí)就已經(jīng)問世，但促使深度學(xué)習(xí)真正來到了前列的，是2012年的AlexNet模型，一個(gè)卷積網(wǎng)絡(luò)，由Alex Krizhevsky設(shè)計(jì)，贏得了年度ImageNet圖像分類競(jìng)賽的冠軍。在接下來的幾年里，深度計(jì)算機(jī)視覺技術(shù)經(jīng)歷了一場(chǎng)真正的革命，每年都會(huì)出現(xiàn)新的卷積體系結(jié)構(gòu)（GoogleNet、ResNet、DenseNet、EfficientNet等），以在ImageNet和其他基準(zhǔn)數(shù)據(jù)集（如CIFAR－10、CIFAR－100）上創(chuàng)下新的精度記錄。下圖顯示了自2011年以來ImageNet數(shù)據(jù)集上機(jī)器學(xué)習(xí)模型的最高精度的進(jìn)展情況。

然而，在過去的幾年里，深度學(xué)習(xí)最有趣的發(fā)展不是在圖像領(lǐng)域，而是在自然語言處理（NLP）中，特別是注意力機(jī)制，這是由Ashish Vaswani等人在2017年的論文“Attention Is All You Need”中首次提出的。注意力機(jī)制的思想，指的是可訓(xùn)練的權(quán)重，模擬輸入句子不同部分之間的每個(gè)連接的重要性，它對(duì)NLP的影響類似于計(jì)算機(jī)視覺中的卷積網(wǎng)絡(luò)，極大地提高了機(jī)器學(xué)習(xí)模型對(duì)各種語言任務(wù)（如自然語言理解）的效果還有機(jī)器翻譯的效果。注意力之所以對(duì)語言數(shù)據(jù)特別有效，是因?yàn)槔斫馊祟愓Z言通常需要跟蹤長(zhǎng)期依賴關(guān)系。我們可能會(huì)先說“我們到達(dá)了紐約”，然后說“城市的天氣很好”，對(duì)于任何人類讀者來說，應(yīng)該很清楚，最后一句話中的“城市”指的是“紐約”，但對(duì)于一個(gè)只基于在附近數(shù)據(jù)（如卷積網(wǎng)絡(luò)）中找到模式的模型來說，這種聯(lián)系可能無法檢測(cè)。長(zhǎng)期依賴性的問題可以通過使用遞歸網(wǎng)絡(luò)來解決，例如LSTMs，在Transformer之前，LSTMs實(shí)際上是NLP中的頂級(jí)模型，但即使是這些模型，也很難匹配特定的單詞。Transformer中的全局注意力機(jī)制衡量了文本中任意兩個(gè)單詞之間每一個(gè)連接的重要性，這解釋了它們性能的優(yōu)越之處。對(duì)于注意力不那么重要的序列數(shù)據(jù)類型（例如，日銷售額或股票價(jià)格等時(shí)域數(shù)據(jù)），遞歸網(wǎng)絡(luò)仍然具有很強(qiáng)的競(jìng)爭(zhēng)力，可能仍是最佳選擇。雖然在NLP等序列模型中，遠(yuǎn)距離對(duì)象之間的依賴關(guān)系可能具有特殊的意義，但在圖像任務(wù)中，它們同樣也不能被忽略，要形成一幅完整的圖畫，通常需要了解圖像的各個(gè)部分。到目前為止，注意力機(jī)制在計(jì)算機(jī)視覺中一直表現(xiàn)不佳的原因在于縮放它們的難度（它們的縮放比例為N?，因此1000x1000圖像的像素之間的全套注意力權(quán)重將具有一百萬項(xiàng)）。也許更重要的是，圖片中的各個(gè)像素本身并不是很有意義，因此通過注意力將它們連接起來并沒有太大作用。這篇新論文提出了一種方法，即不關(guān)注像素點(diǎn)，而是關(guān)注圖像的小塊區(qū)域（可能是標(biāo)題中的16x16，盡管最佳塊尺寸實(shí)際上取決于模型的圖像尺寸和內(nèi)容）。

上面的圖片（摘自論文）顯示了Vision Transformer的工作方式。通過使用線性投影矩陣將輸入圖像中的每個(gè)色塊展平，并向其添加位置嵌入（學(xué)習(xí)的數(shù)值，其中包含有關(guān)該色塊最初在圖像中的位置信息），這是必需的，因?yàn)門ransformer會(huì)處理所有輸入，而不考慮其順序，所以擁有此位置信息有助于模型正確評(píng)估注意力權(quán)重。額外的類標(biāo)記連接到輸入（圖像中的位置0），作為要在分類任務(wù)中預(yù)測(cè)的類的占位符。類似于2017版，該Transformer編碼器由多個(gè)注意力，規(guī)范化和完全連接的層組成，這些層具有殘差（跳過）連接，如圖中的右半部分所示。在每個(gè)關(guān)注區(qū)域中，多個(gè)頭部可以捕獲不同的連接模式。如果你有興趣了解有關(guān)Transformer的更多信息，我建議閱讀Jay Alammar撰寫的這篇出色的文章。輸出端完全連接的MLP頭可提供所需的類別預(yù)測(cè)，主模型可以在大型圖像數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練，然后可以通過標(biāo)準(zhǔn)的遷移學(xué)習(xí)方法將最終的MLP頭微調(diào)為特定任務(wù)。新模型的一個(gè)特點(diǎn)是，盡管根據(jù)本文的研究，它比卷積方法更有效地以更少的計(jì)算量獲得相同的預(yù)測(cè)精度，但隨著它接受越來越多的數(shù)據(jù)訓(xùn)練，其性能似乎在不斷提高，這比其他模型更甚。這篇文章的作者在一個(gè)包含3億的私有g(shù)ooglejft－300M數(shù)據(jù)集上訓(xùn)練了Vision Transformer圖像，從而在許多基準(zhǔn)測(cè)試中都獲得了最先進(jìn)的準(zhǔn)確性。我們可以期待這個(gè)預(yù)先訓(xùn)練過的模型很快就會(huì)發(fā)布出來，以便我們都可以試用�？吹缴窠�(jīng)注意力在計(jì)算機(jī)視覺領(lǐng)域的新應(yīng)用，實(shí)在太令人興奮了！希望在未來的幾年里，在這種發(fā)展的基礎(chǔ)上，能取得更大的進(jìn)步！
☆ END ☆如果看到這里，說明你喜歡這篇文章，請(qǐng)轉(zhuǎn)發(fā)、點(diǎn)贊。

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無評(píng)論

暫無評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

6月20日
立即下載>> 【白皮書】精準(zhǔn)測(cè)量安全高效——福祿克光伏行業(yè)解決方案
7月3日
立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
7月22-29日
立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
7.30-8.1
火熱報(bào)名中>> 全數(shù)會(huì)2025（第六屆）機(jī)器人及智能工廠展
7月31日
免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
免費(fèi)參會(huì)
立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

99久久免费精品国产对白

中文字字幕在线中文乱码6互动交流久久久性爱视频性久久久久美女黄免费 97久久精品人人

<mark id="45fpi"><pre id="45fpi"></pre></mark>