計算機(jī)視覺簡史:被稱為“人臉識別”的計算機(jī)視覺經(jīng)歷了什么?
導(dǎo)語:發(fā)展60多年來,機(jī)器視覺作為AI技術(shù)的急先鋒,經(jīng)歷了幾輪起落,終于迎來技術(shù)上的爆發(fā)。但隨著技術(shù)進(jìn)入深水區(qū),尋找合適的商業(yè)模式真正成為了機(jī)器視覺這門技術(shù)的最大難點。
1999年上映的《黑客帝國》雖然不是人類關(guān)于人工智能的第一次影視化探索,卻可以說是最有影響力的一次。
電影講述的是基努李維斯飾演的網(wǎng)絡(luò)黑客尼奧發(fā)現(xiàn)自己生活的世界被某種外部力量控制并通過調(diào)查發(fā)現(xiàn)自己活在人工智能的虛擬世界里,之后同一個反抗者組織奮起而抗?fàn)幍墓适隆?/p>
在《黑客帝國》設(shè)定的真實世界中,他們的肉體早已被當(dāng)作被養(yǎng)殖的作物,為母體供應(yīng)能量,只有意識在母體Matrix中活動,誤以為自己還在過正常生活。
2011年,英劇《黑鏡》第一季上線,之后連續(xù)推出四季,這是一部探討科技對人類生活改變的電影,其中也包含諸多人工智能對于人類生活的改變與顛覆故事。
2016年,HBO發(fā)行的科幻類美劇《西部世界》上線,講述了由一座巨型高科技以西部世界為主題的成人樂園,提供機(jī)器人接待員給游客,讓他們實現(xiàn)殺戮與性欲的滿足;但后來隨著接待員有了自主意識和思維,他們開始懷疑這個世界的本質(zhì),進(jìn)而覺醒并反抗人類的故事。
這些電影,講述的多是人工智能發(fā)展的高級階段,更是最近大家討論的“元宇宙”的形象化表現(xiàn)。
拋開道德上的善惡對錯不談,回到人工智能技術(shù)本身,在達(dá)成這些了不起的成就之前,在計算機(jī)能夠“思考”之前,最早需要開始學(xué)習(xí)的技能是“感知”,其中最重要部分之一就是學(xué)會“看”,這也幾乎是公認(rèn)的人工智能第一步。
就在《黑鏡》上映的同一年——2011年,如今被稱為“AI四小龍”之一的曠視科技在三個天才少年的帶領(lǐng)下成立了,隨后四年間,商湯科技、依圖科技和云從科技業(yè)全部拔地而起,所選擇的賽道都是“人臉識別”,其實本質(zhì)就是讓計算機(jī)看圖。
最近,在經(jīng)過多年的奮戰(zhàn)之后,基于搶占賽道或者搶占資金的想法,他們?nèi)缃窠K于走進(jìn)了資本市場的視野。除了依圖科技已經(jīng)撤回上市申請之外,其他三家都離上市僅一步之遙了。
這些年,被稱為“人臉識別”的計算機(jī)視覺都經(jīng)歷了什么?
起步階段:人類對教會機(jī)器“看”的執(zhí)念
在我們講述計算機(jī)視覺之前,先要了解目前人工智能所處的階段,那就是“感知智能”,無論是AI四小龍的“人臉識別”還是科大訊飛的“語音識別”,都落在這一階段。
在此之前,我們還只是用計算機(jī)來計算數(shù)據(jù)、運(yùn)行代碼,但這只是初級的“計算智能”階段,F(xiàn)在計算機(jī)已經(jīng)學(xué)會了“感知”,不過距離計算機(jī)“能理解、會思考”的認(rèn)知智能階段,也就是最開始講的那些電影里能達(dá)到的最終水平,還差得很遠(yuǎn)。
讓計算機(jī)學(xué)會“感知”,最重要的一步就是”看“了。
眼睛,是人類用來觀察這個世界的最重要器官,也是唯一的視覺器官。在佛家所謂的六根——眼耳鼻舌身意中,眼睛也排在首位。
用眼睛看,是人類與生俱來的能力,剛出生的嬰兒只需要幾天的時間就能學(xué)會模仿父母的表情,人們能從復(fù)雜結(jié)構(gòu)的圖片中找到關(guān)注重點、在昏暗的環(huán)境下認(rèn)出熟人。
人類對眼睛的功能是有執(zhí)念的。
為了將自己看到的東西保存下來,人類發(fā)明了照相機(jī)。最早的真正照相機(jī)來自1839年1月,當(dāng)時中國還在清朝的道光年間。攝影師達(dá)蓋爾在巴黎沙龍上展示了銀板照相法,將涂有碘化銀的銅片暴露在光線下,然后通過汞蒸汽和食鹽溶液來顯影,震驚了法國科學(xué)院,并于當(dāng)年推廣開來。
銀板照相法所使用的就是這種用木箱子裝的相機(jī)。
自此人類終于學(xué)會長時間保存眼睛看到的圖像了,之后又有了膠卷和即顯攝影。
但似乎對于人類來說,光是記錄并不夠,我們還想讓機(jī)器自己去看,并且告訴我它們看到了什么。
為了讓機(jī)器學(xué)會如何去“看”,就有了計算機(jī)視覺,當(dāng)然,它更為大家所熟知的名稱是“人臉識別”。
最初的探討發(fā)生在1956年左右。在當(dāng)年的達(dá)特茅斯會議上,約翰麥卡錫、馬文閔斯基、克勞德香農(nóng)、艾倫紐厄爾和赫伯特西蒙等科學(xué)家聚在一起,討論著一個完全不食人間煙火的主題:用機(jī)器來模仿人類學(xué)習(xí)以及其他方面的智能。
會議一共開了兩個月的時間,雖然大家沒有達(dá)成普遍的共識,但是卻為會議討論的內(nèi)容起了一個名字:人工智能。因此,1956年也就成為了人工智能元年。
1957年春天,美國國家標(biāo)準(zhǔn)局的科學(xué)家拉塞爾·基爾希為他的兒子瓦爾登拍了一張照,并將其掃描到了東部標(biāo)準(zhǔn)自動計算機(jī)(SEAC)中。為了使圖片可以放進(jìn)SEAC有限的存儲空間中,他將圖片分割成176176的網(wǎng)格——共30976位二進(jìn)制,并進(jìn)行了多次掃描。這張邊長5厘米的正方形圖片就是歷史上第一張數(shù)字圖像,從某種意義上來講它甚至是CT掃描、衛(wèi)星圖像和數(shù)碼攝影的鼻祖。
1959年,神經(jīng)生理學(xué)家大衛(wèi)·休伯爾和托斯坦·維厄瑟爾通過貓的視覺實驗,首次發(fā)現(xiàn)了視覺初級皮層神經(jīng)元對于移動邊緣刺激敏感,發(fā)現(xiàn)了視功能柱結(jié)構(gòu),為視覺神經(jīng)研究奠定了基礎(chǔ)——促成了計算機(jī)視覺技術(shù)40年后的突破性發(fā)展,奠定了深度學(xué)習(xí)的核心準(zhǔn)則。
到了60年代,勞倫斯羅伯茨在《三維固體的機(jī)器感知》描述了從二維圖片中推導(dǎo)三維信息的過程,成為計算機(jī)視覺的前導(dǎo)之一,開創(chuàng)了理解三維場景為目的的計算機(jī)視覺研究。這個研究給世界帶來了很大啟發(fā),并且對邊緣、線條、明暗等各種特征建立了各種數(shù)據(jù)結(jié)構(gòu)和推理規(guī)則。
1969年秋天,貝爾實驗室的兩位科學(xué)家韋拉德博伊爾和喬治史密斯正忙于電荷耦合器件(CCD)的研發(fā)。它是一種將光子轉(zhuǎn)化為電脈沖的器件,很快成為了高質(zhì)量數(shù)字圖像采集任務(wù)的新寵,逐漸應(yīng)用于工業(yè)相機(jī)傳感器,標(biāo)志著計算機(jī)視覺走上應(yīng)用舞臺,投入到工業(yè)機(jī)器視覺中。
70年代是人工智能發(fā)展的低潮期。
80年代后計算機(jī)視覺成為一門獨立學(xué)科,并開始從實驗室走向應(yīng)用。80年日本科學(xué)家福島邦彥建立了第一個神經(jīng)網(wǎng)絡(luò),82年大衛(wèi)馬爾發(fā)表了一篇非常有影響力的論文,介紹了處理視覺數(shù)據(jù)的算法框架,同年《Vision》這本書問世,標(biāo)志著計算機(jī)視覺正式成為了一門獨立學(xué)科。
大發(fā)展:卷積神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)
90年代計算機(jī)視覺的發(fā)展整體比較落寞,因為訓(xùn)練神經(jīng)網(wǎng)絡(luò)是一項資源非常密集、并且進(jìn)展極為緩慢的工作。
一直到2005年之后,才又迎來快速發(fā)展階段。
2006年左右,杰弗里·希爾頓(Geoffrey Hilton)和他的學(xué)生首次提出了深度置信網(wǎng)絡(luò)(DBN)的概念。他給多層神經(jīng)網(wǎng)絡(luò)相關(guān)的學(xué)習(xí)方法賦予了一個新名詞–“深度學(xué)習(xí)”(Deep Learning)。
人腦視覺系統(tǒng)的信息處理是分層的。簡單來說,就是要先從功能相對低級的區(qū)域分辨出朝向、空間位置和運(yùn)動方向,然后到下一個區(qū)域再去處理形狀和顏色等信息。
比如當(dāng)你看《黑客帝國》時,你是先看到一個人朝著鏡頭走過來,然后才分出這個人的臉型和各種面部特征、穿著的衣服顏色,根據(jù)這些信息和你大腦中原有的海量信息做匹配,你就能夠判斷出來這個正在運(yùn)動的人是基努里維斯。
所以在大腦中,對一個形象的判別是分層次處理的,并不是一股腦把所有信息交給某個部分,然后它突然得出結(jié)論這個人是里維斯。
而深度學(xué)習(xí)就是借鑒人腦的信息處理過程,對信息進(jìn)行分層處理,進(jìn)行特征提取和分類。深度學(xué)習(xí)的實質(zhì),是通過構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,從而最終提升分類的準(zhǔn)確性。
計算機(jī)需要學(xué)習(xí)足夠的數(shù)據(jù),才能訓(xùn)練出一個能夠用于識別的模型。
數(shù)據(jù)量很重要,對你的大腦也是一樣。一個不是特別恰當(dāng)?shù)睦邮?如果你沒見過里維斯,你就算看到了這個五官、清晰地分別出頭發(fā)和瞳孔顏色,也沒有辦法判斷他到底是誰。
這也是為什么,在網(wǎng)絡(luò)數(shù)據(jù)受限的情況下,深度學(xué)習(xí)的資源就不夠。
此外,神經(jīng)網(wǎng)絡(luò)的分層也是在不斷進(jìn)步的。
2005 年以前提出的人工神經(jīng)網(wǎng)絡(luò)只是一種淺層模型,只含有一層隱層節(jié)點,但這比人腦簡化太多了,效果也就差得多。
而用深度置信網(wǎng)絡(luò)解決來這個問題,可以構(gòu)建更多層的模型,更接近人的視覺神經(jīng)系統(tǒng)的結(jié)構(gòu)。
不過隨著時間的推移,深度置信模型(DBP)也有一些問題,包括計算量太大、樣本量太大等等。卷積神經(jīng)網(wǎng)絡(luò)(CNN)又可以解決這個問題,它將每一層信息僅通過一個“卷積核”相連。
你可以理解兩個平面之間,前者是需要每個點直接相連,現(xiàn)在只需要中間的一個點直接相連。
等于DBN需要計算機(jī)一次性看完整張圖,全局對比;但CNN可以一步一步一塊一塊地對比小特征,和分布式系統(tǒng)的感覺有點像。
這樣處理樣本的速度就顯著加快了。
據(jù)廣證恒生在2019年的研究報告,美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)公布了全球權(quán)威人臉識別比賽(FRVT)最新報告,從前十名企業(yè)在千分之一的誤報率下的識 別準(zhǔn)確率來看,其平均能達(dá)到 99.69%,在千萬分之一誤報下的識別準(zhǔn)確率超過 99%,意味著機(jī)器幾乎可 以做到在 1000 萬人的規(guī)模下準(zhǔn)確識別每一個人。
而人腦記憶100個人的身份都有可能出錯。
這幾年,無論是安防中的人臉識別,還是高鐵閘機(jī)上的人臉識別,抑或是證券在線開戶、交易等,大家都開始自由地使用人臉作為個人識別的特征。
當(dāng)技術(shù)不再困難的時候,在討論倫理之前,創(chuàng)業(yè)公司們卻首先迎來了商業(yè)化的難題。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
6月20日立即下載>> 【白皮書】精準(zhǔn)測量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報名>> 【在線會議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報名中>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費預(yù)約>> OFweek 2025具身機(jī)器人動力電池技術(shù)應(yīng)用大會
-
免費參會立即報名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 一文看懂視覺語言動作模型(VLA)及其應(yīng)用
- 5 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 6 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領(lǐng)跑?
- 10 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過于簡單