92国产精品午夜福利无毒不卡,A级内射毛片免费的

<bdo id="g3rt5"><pre id="g3rt5"><strike id="g3rt5"></strike></pre></bdo>

<ruby id="g3rt5"></ruby>

<ruby id="g3rt5"></ruby>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 語(yǔ)音識(shí)別 > 正文

語(yǔ)音識(shí)別技術(shù)分享

2021-01-06 10:34

金翅創(chuàng)客

一

語(yǔ)音的識(shí)別過(guò)程

1

語(yǔ)音識(shí)別基本流程

語(yǔ)音信號(hào)的特征提取:在開(kāi)始語(yǔ)音識(shí)別之前,有時(shí)需要把首尾端的靜音切除。接著對(duì)音頻進(jìn)行分幀。在語(yǔ)音識(shí)別中,常用25ms作為幀長(zhǎng)。為了捕捉語(yǔ)音信號(hào)的連續(xù)變幻,避免幀之間的特征突變,每隔10ms取一幀,即幀移為10ms。工程上通常使用移動(dòng)窗函數(shù)對(duì)語(yǔ)音進(jìn)行分幀。對(duì)每一幀進(jìn)行傅里葉變換轉(zhuǎn)化成為語(yǔ)譜圖。語(yǔ)譜圖經(jīng)過(guò)三角濾波器和MFCC變換,形成MFCC圖。多幀的MFCC組合形成MFCC序列,這就是經(jīng)過(guò)特征提取的特征序列。語(yǔ)音特征提取如下圖所示。

2

語(yǔ)音識(shí)別的一般簡(jiǎn)單原理(基于貝葉斯定理)

(1) 假設(shè)Y是輸入的音頻信號(hào),W是單詞序列,在概率模型下公式表示為:

這就語(yǔ)音識(shí)別的目的公式。正常情況下,這個(gè)概率執(zhí)行相當(dāng)困難。我們可以采用貝葉斯定理對(duì)上述公式進(jìn)行轉(zhuǎn)換:

因?yàn)?P(Y)不會(huì)影響最終概率最大化,因此概率模型轉(zhuǎn)變?yōu)閍rg max{P(Y|W)P(W)}。其中概率P(Y|W)的含義是,給定單詞序列W,得到特定音頻信號(hào)Y的概率,在語(yǔ)音識(shí)別系統(tǒng)中一般被稱(chēng)作聲學(xué)模型。概率P(W)的含義是,給定單詞序列W的概率,在語(yǔ)音識(shí)別系統(tǒng)中一般被稱(chēng)作語(yǔ)言模型。

(2) 對(duì)于聲學(xué)特性來(lái)說(shuō),單詞是一個(gè)比較大的建模單元,因此聲學(xué)模型P(Y|W)中的單詞序列W會(huì)進(jìn)一步拆分成一個(gè)音素序列。通常情況下,一個(gè)音素包含很多幀。

二

經(jīng)典的GMM-HMM模型

1

GMM-HMM產(chǎn)生過(guò)程

(1) 每一句話(huà)包含多個(gè)字或詞,每一個(gè)字包含多個(gè)音素。一般情況下,英語(yǔ)的音素是輔音,元音等;漢語(yǔ)的音素是聲母,韻母,聲調(diào)。

(2) 初始,每一個(gè)特征序列都由許多幀構(gòu)成。待識(shí)別語(yǔ)音的特征序列與已有模板的特征序列相匹配。幀與幀之間依據(jù)相似度進(jìn)行對(duì)齊,然后使用DTW算法進(jìn)行對(duì)齊即相似度匹配。例如下圖所示。

(1) 通常情況下,同一個(gè)字或詞會(huì)依據(jù)人,環(huán)境等情況有多種聲音波形,進(jìn)而造成多種特征序列即模板。多個(gè)模板根據(jù)幀的相似性組成一個(gè)又一個(gè)的狀態(tài)。然后使用混合高斯模型來(lái)擬合每一個(gè)狀態(tài)的特征向量,通過(guò)計(jì)算概率密度來(lái)判斷相似性,這就是觀察概率。如下圖所示,每一個(gè)圓圈所代表的就是一個(gè)狀態(tài),一個(gè)狀態(tài)包含多個(gè)幀�；旌细咚鼓Ｐ途褪嵌鄠€(gè)有不同均值和協(xié)方差的多元高斯模型混合在一起。

(2) 通常情況下,我們對(duì)音素進(jìn)行建模。多個(gè)狀態(tài)對(duì)應(yīng)一個(gè)音素,多個(gè)音素對(duì)應(yīng)一個(gè)字。對(duì)音素持續(xù)時(shí)間進(jìn)行建模,增加了狀態(tài)間的轉(zhuǎn)移概率即該狀態(tài)變?yōu)橄乱粋€(gè)狀態(tài)的概率的大小。然后就形成了如下的GMM-HMM示意圖。基本流程也同樣會(huì)發(fā)生變化。

(3) 轉(zhuǎn)移概率=轉(zhuǎn)移到下一個(gè)狀態(tài)+轉(zhuǎn)移到自身的概率=1。最終聲學(xué)模型概率的計(jì)算w = 觀察概率*轉(zhuǎn)移到下一個(gè)狀態(tài)的概率*轉(zhuǎn)移到自身狀態(tài)的概率。每一個(gè)狀態(tài)的轉(zhuǎn)移概率和觀察概率都由該狀態(tài)自身決定。對(duì)于GMM-HMM模型的訓(xùn)練參數(shù)就是轉(zhuǎn)移概率和觀察概率的相關(guān)參數(shù)求解。待識(shí)別語(yǔ)音特征序列需要與狀態(tài)進(jìn)行對(duì)齊匹配。對(duì)齊匹配方式有很多種,優(yōu)化參數(shù)的目的就是找到一種最恰當(dāng)?shù)膶?duì)齊方式,使其計(jì)算概率最大。

(4) 優(yōu)化參數(shù)的思路:先假設(shè)一種對(duì)齊方式,由此求出模型參數(shù),然后更新對(duì)齊方式,循環(huán)直至收斂。

2

GMM-HMM基本模型

基本模型如下圖所示。

(1) GMM-HMM模型就組成了語(yǔ)音識(shí)別的聲學(xué)模型。語(yǔ)言模型基于語(yǔ)料庫(kù)使用馬爾可夫模型進(jìn)行建模。例如求句子“西安電子科技大學(xué)”的概率。

這就是語(yǔ)音模型的先驗(yàn)概率。語(yǔ)言模型的搭建依賴(lài)于語(yǔ)料庫(kù)的字詞句的豐富性。語(yǔ)料庫(kù)越豐富,求出的概率越精確。這述所示例子使用了最常用的Bigram即每一個(gè)字只與前一個(gè)字有關(guān)。當(dāng)然馬爾可夫模型看似不精確,但是在實(shí)際實(shí)驗(yàn)還是很好用的。

(2) 圖中S1,S2,S3,S4代表的是每一個(gè)HMM狀態(tài)。上圖只是一個(gè)HMM模型。一個(gè)HMM狀態(tài)的參數(shù)由初始概率、轉(zhuǎn)移概率和觀察概率三部分構(gòu)成。。初始概率對(duì)識(shí)別結(jié)果的影響很小,甚至有時(shí)可以忽略,且模型是單向的,所以初始概率不必考慮。聲學(xué)模型包含的信息主要是狀態(tài)定義和各狀態(tài)的觀察概率分布。對(duì)觀察概率分布使用GMM建模就形成了GMM-HMM模型�；谏窠�(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別一般就是使用DNN模型取代GMM模型,進(jìn)而形成DNN-HMM模型。

(3) 對(duì)每一個(gè)音素建立一個(gè)HMM模型。音素HMM按詞典拼接成單詞HMM,單詞HMM與語(yǔ)言模型復(fù)合成語(yǔ)言HMM。通常情況下,單詞的訓(xùn)練樣本都是提前標(biāo)注好的。當(dāng)有了這些訓(xùn)練樣本,就可以使用EM算法來(lái)訓(xùn)練GMM-HMM模型的全部參數(shù)。最終概率的計(jì)算依據(jù)arg max{P(Y|W)P(W)},識(shí)別結(jié)果 = 觀測(cè)概率*轉(zhuǎn)移概率*語(yǔ)言模型的先驗(yàn)概率。

(4) 解碼的過(guò)程就是選擇最佳的對(duì)齊方式。多個(gè)HMM狀態(tài)組合成概率最大的音素、音素組成字、字組成句子,然后根據(jù)語(yǔ)言模型選擇概率最大的字、詞和句子。

三

端到端的語(yǔ)音識(shí)別

1

神經(jīng)網(wǎng)絡(luò)入局語(yǔ)音識(shí)別

神經(jīng)網(wǎng)絡(luò)開(kāi)始進(jìn)入到語(yǔ)音識(shí)別中。2012年,DNN取代了如人工特征提取方法MFCC,神經(jīng)網(wǎng)絡(luò)可以更好地提取特征。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,DNN取代了GMM模型,神經(jīng)網(wǎng)絡(luò)進(jìn)一步發(fā)展。隨著深度學(xué)習(xí)的發(fā)展,HMM模型被循環(huán)神經(jīng)網(wǎng)絡(luò)RNN取代。至此,GMM-HMM模型被取代,但是系統(tǒng)訓(xùn)練過(guò)程仍然需要GMM-HMM模型提供音素起止時(shí)間和標(biāo)準(zhǔn)答案。直至CTC、Transducer和注意力轉(zhuǎn)移機(jī)制出現(xiàn)。

2

端到端語(yǔ)音識(shí)別框架

端到端語(yǔ)音識(shí)別框架是一種將輸入的聲學(xué)特征序列直接映射為字或詞序列的系統(tǒng)。端到端語(yǔ)音識(shí)別技術(shù)目前主要分為:連接時(shí)序分類(lèi)算法 (Connectionist Temporal Classification,CTC)、循環(huán)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換器算法 (Recurrent Neural Network Transducer,RNN-T) 和基于注意力 (Attention) 機(jī)制的編碼-解碼方法 (Encoder-Decoder)。

3

CTC、Transducer和注意力轉(zhuǎn)移機(jī)制

(1) CTC解決的核心問(wèn)題是輸入序列與輸出序列的對(duì)齊。對(duì)于語(yǔ)音識(shí)別,我們有一個(gè)聲音片段和對(duì)應(yīng)校正后的轉(zhuǎn)寫(xiě)文本數(shù)據(jù)集。我們不知道如何將文字記錄中的字符與音頻對(duì)齊,這使得訓(xùn)練語(yǔ)音識(shí)別器比最開(kāi)始想的看起來(lái)更難。連接時(shí)序分類(lèi)(CTC)是一種不知道輸入和輸出之間的對(duì)齊方式。CTC模型引入了一種空符號(hào),對(duì)于音素的輸入只需要按順序輸出即可。實(shí)際上,大部分幀的輸出都是空�；贑TC模型實(shí)現(xiàn)了端到端的輸出。通俗來(lái)看,CTC就是一個(gè)目標(biāo)函數(shù)。

圖片標(biāo)題

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫(xiě)，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

登錄登錄即可訪(fǎng)問(wèn)所有OFweek服務(wù)

用戶(hù)名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

6月20日
立即下載>> 【白皮書(shū)】精準(zhǔn)測(cè)量安全高效——福祿克光伏行業(yè)解決方案
7月3日
立即報(bào)名>> 【在線(xiàn)會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
7月22-29日
立即報(bào)名>> 【線(xiàn)下論壇】第三屆安富利汽車(chē)生態(tài)圈峰會(huì)
7.30-8.1
火熱報(bào)名中>> 全數(shù)會(huì)2025（第六屆）機(jī)器人及智能工廠(chǎng)展
7月31日
免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
免費(fèi)參會(huì)
立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

99久久免费精品国产对白

中文字字幕在线中文乱码6互动交流久久久性爱视频性久久久久美女黄免费 97久久精品人人

<ruby id="c0yls"><table id="c0yls"><legend id="c0yls"></legend></table></ruby>