華捷艾米沈瑄:視覺+語音,人機交互的未來
近年來,在人工智能的浪潮下,AR與VR發(fā)展迅速,并逐漸形成了完整的產(chǎn)業(yè)鏈。值此背景之下,華捷艾米軟件科技有限公司憑借3D視覺感知、自然語言交互以及AR體感等技術,打破了微軟以及蘋果在AR領域的壟斷產(chǎn)業(yè),一躍成為全球第三家AR攝像頭研發(fā)企業(yè)。為此,OFweek人工智能網(wǎng)編輯特別采訪了華捷艾米軟件科技有限公司COO沈瑄,以華捷艾米所面臨的難點為引,共同探討AR體感人機交互未來的發(fā)展趨勢。以下為采訪文字實錄:
華捷艾米軟件科技有限公司在高交會的展臺
短短數(shù)年,華捷艾米便在AR體感人機交互和人工智能領域取得了快速發(fā)展,受到業(yè)界認可。那么,華捷艾米在這方面做了哪些努力?您認為主要的難點問題是什么?
沈瑄:現(xiàn)階段人工智能產(chǎn)業(yè)的主要的難點有三個,一是資金,在深度學習的骨架模型方面,我們前期共投入1.5億元人民幣,包括數(shù)據(jù)采集、數(shù)據(jù)標記和模型訓練、以及芯片的設計流片等等;二是時間,在2000年至2010年之間,我們借助清華大學的大型計算機對模型進行訓練后,便將樣本導入其中,然后再次訓練兩個半月,形成了基本的算法,這是第一部分。第二部分,我們需要將算法固化成芯片,芯片生產(chǎn)有一次流片和二次流片,其流片的良率較低,每一次流片跨度需要3至6個月左右,且每一次流片都需要幾千萬的投入;第三是供應鏈的整合,由于是新興的技術,那就需要我們自己來整合上下游的供應鏈。
華捷艾米軟件科技有限公司COO沈瑄
目前,華捷艾米公司主要產(chǎn)品有哪些?其市場表現(xiàn)如何?在技術方面有哪些積累和突破?
沈瑄:我們公司的產(chǎn)品主要有三類,第一個是相關項目;第二是整機產(chǎn)品,我們將OTT盒子和攝像頭做成了一體,主要應用于教育或者學習領域;其三,小型化手機模組,AR攝像頭應用于手機領域的市場是應用于TV市場的十倍。由于手機集成化很高,如果想添加體感技術這一功能,則相對較難。相比之下,AR體感技術嵌入TV則比較簡單,嵌入良率高達98%,所以短期之內(nèi),我們先推出嵌入TV的產(chǎn)品,將其做好之后,逐步向手機領域拓展。
華捷艾米公司目前和國內(nèi)一些廠商合作情況如何?對于未來發(fā)展有何具體規(guī)劃?
沈瑄:目前,我們正在和華為以及小米等國內(nèi)手機廠商溝通。與此同時,我們體感技術的參數(shù),如分辨率、幀率以及使用的距離等都和目前最先進的技術接近,而未來我們將會重點提升產(chǎn)品的產(chǎn)能與良率。對于未來我們有短期規(guī)劃和詳細規(guī)劃兩部分,短期規(guī)劃為:加大在3D-AR與AI技術方面的研發(fā)資金投入,拓展其在手機、智能安防、機器人、醫(yī)療康復等領域的應用,并在各領域成立相關的技術方案公司。詳細規(guī)劃如下:2018年成立AI研究院,專注視覺、聽覺、交互等人工智能感知技術的基礎研究;推出全球首款全能感知通用芯片;2019年嵌入式模組研發(fā)商業(yè)化完成,智能感知算法的全部硬件化IC,嵌入式平板/手機方案國際領先,推出針對各行業(yè)的智能感知解決方案;2020年成為國內(nèi)第一人工智能感知方案供應商。
華捷艾米軟件科技有限公司AR攝像頭
面臨技術難點,華捷艾米是如何突破的?未來的挑戰(zhàn)與應對措施如何?
沈瑄:在一些技術難點方面,我們也是通過與清華、中科院、武漢大學以及華東理工等高校合作方式共同解決。至于未來的挑戰(zhàn)主要有兩個方面,其一,在目前AI的風口下,規(guī)模過小以及高端人才不足乃是我們公司的短板。當然,我們現(xiàn)在也通過融資方式去籌集更多的資金,以擴大企業(yè)規(guī)模,同時,我們也會去招募更高級的優(yōu)秀人才;其二,公司在游戲進入手機行業(yè)方面的良率較低,所以我們在融資的時候會稍微注重考慮上游一些,通過產(chǎn)業(yè)鏈上的產(chǎn)業(yè)基金提供的資源,使我們的產(chǎn)能能夠大幅度提升。
目前,人工智能已經(jīng)成為全球關注的焦點方向,您認為人工智能帶來的顛覆效應主要表現(xiàn)在哪些方面?目前國內(nèi)現(xiàn)狀如何?未來在哪些領域更具前景?
沈瑄:從目前的發(fā)展情況來看,人工智能帶來的顛覆性主要體現(xiàn)在面部識別這一方面。在人工智能交互方面,以科大訊飛合作為例,我們通過手勢、人臉識別或者語音形成一種新的人機交互方式。事實上,現(xiàn)在的人機交互已經(jīng)跨越了多次數(shù)字浪潮,而數(shù)字浪潮至今則經(jīng)歷了四個階段,第一階段則是DOS操作界面,純文本的形式;第二階段,基于Windows的出現(xiàn),其鼠標、鍵盤以及瀏覽器窗口形成了一種交互方式;第三階段,以手機、移動端、觸摸屏為導向,包括近年來的語音+觸摸屏交互方式等;第四階段,則以VR模式為主,通過人臉識別或者語音的形式形成新的交互方式。而未來人機之間則將通過視覺+語音交互方式,如同人與人之間交流般,回歸最樸質(zhì)自然溝通方式。
未來應用領域則比較廣泛,畢竟在應用領域方面它需要一點點滲透,而在目前,由于機器視覺是比較基礎的基礎,它可以應用的場景很多,比如電視、游戲健身、教育培訓、機器人、醫(yī)療康復、智能安防以及IOT物聯(lián)網(wǎng)等領域。
作為機器視覺技術的領軍者,華捷艾米在未來的發(fā)展方向是什么?是否有進軍海外市場的打算?
沈瑄:目前,我們的主要發(fā)展TV或者OTT盒子業(yè)務,明年我們會發(fā)力嵌入式設備。應用場景也會逐漸向游戲、健身以及幼兒教育方面發(fā)展,以此提升用戶體驗感與接受度。
在海外市場,目前我們主推幼兒教育。另外,在國內(nèi)我們將會有更大的市場空間,因為更加了解整個產(chǎn)業(yè)鏈。如目前很多電視劇生產(chǎn)商都在中國,這也為我們提供了一個很好的運營渠道,而這些運營渠道在海外則無法實現(xiàn)。隨著國家相關政策的不斷實施,我們也會借此機會逐步向國外市場發(fā)展。

最新活動更多
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權
- 3 深度報告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機器人
- 5 一文看懂視覺語言動作模型(VLA)及其應用
- 6 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領跑?
- 10 格斗大賽出圈!人形機器人致命短板曝光:頭腦過于簡單