智能語音簡史:這場技術革命從哪開始?
1952年,貝爾實驗室(Bell Labs)制造一臺6英尺高自動數(shù)字識別機“Audrey”,它可以識別數(shù)字0~9的發(fā)音,且準確度高達90%以上。并且它對熟人的精準度高,而對陌生人則偏低。
1956年,普林斯頓大學RCA實驗室開發(fā)了單音節(jié)詞識別系統(tǒng),能夠識別特定人的十個單音節(jié)詞中所包含的不同音節(jié)。
1959年,MIT的林肯實驗室開發(fā)了針對十個元音的非特定人語音識別系統(tǒng)。
二十世紀六十年代初,東京無線電實驗室、京都大學和NEC實驗室在語音識別領域取得了開拓性的進展,各自先后制作了能夠進行語音識別的專用硬件。
1964年的世界博覽會上,IBM向世人展示了數(shù)字語音識別的“shoe box recognizer”。
二十世紀七十年代,語音識別的研究取得了突破性的進展,研究重心仍然是孤立詞語語音識別。
1971年,美國國防部研究所(Darpa)贊助了五年期限的語音理解研究項目,希望將識別的單詞量提升到1000以上。參與該項目的公司和學術機構包括IBM、卡內(nèi)基梅隆大學(CMU)、斯坦福研究院。就這樣,Harpy在CMU誕生了。不像之前的識別器,Harpy可以識別整句話。
二十世紀八十年代,NEC提出了二階動態(tài)規(guī)劃算法,Bell實驗室提出了分層構造算法,以及幀同步分層構造算法等。同時,連接詞和大詞匯量連續(xù)語音的識別得到了較大發(fā)展,統(tǒng)計模型逐步取代模板匹配的方法,隱馬爾科夫模型(HMM)成為語音識別系統(tǒng)的基礎模型。
八十年代中期,IBM創(chuàng)造了一個語音控制的打字機—Tangora,能夠處理大約20000單詞。IBM的研究就是基于隱形馬爾科夫鏈模型(hidden Markov model),在信號處理技術中加入統(tǒng)計信息。這種方法使得在給定音素情況下,很有可能預測下一個因素。
1984年,IBM發(fā)布的語音識別系統(tǒng)在5000個詞匯量級上達到了95%的識別率。
1985年AT&T貝爾實驗室建造了第一個智能麥克風系統(tǒng),用來研究大室內(nèi)空間的聲源位置追蹤問題。
1987年開始,國家開始執(zhí)行963計劃后,國家863智能計算機主題專家組為語音識別研究立項,每兩年一次。
1987年12月,李開復開發(fā)出世界上第一個“非特定人連續(xù)語音識別系統(tǒng)”。
1988年,卡耐基梅隆大學結合矢量量化技術(VQ),用VQ/HMM方法開發(fā)了世界上第一個非特定人大詞匯量連續(xù)語音識別系統(tǒng)SPHINX,能夠識別包括997個詞匯的4200個連續(xù)語句。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權
- 3 深度報告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機器人
- 5 國家數(shù)據(jù)局局長劉烈宏調研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領跑?
- 9 格斗大賽出圈!人形機器人致命短板曝光:頭腦過于簡單
- 10 一文看懂視覺語言動作模型(VLA)及其應用