japan黑人极大黑炮,久久久久久精品免费久久18,8一级毛片八点影院

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

“聲音復(fù)刻”來了，克隆的聲音可以喚醒聲紋嗎？

2021-09-29 17:14

來源：粵訊

“聲音復(fù)刻”又稱“聲音克隆”，是語音合成技術(shù)（TTS ，Text To Speech）的個性化應(yīng)用，用戶可通過少量的錄音進行模型訓(xùn)練，得到與用戶本人在音色和發(fā)音風(fēng)格上非常相似的聲音模型，快速“復(fù)刻”個性化聲音，該“復(fù)刻”聲音可使用在講故事、播天氣、讀小說、導(dǎo)航播報等功能場景。

“聲音復(fù)刻”來了，克隆的聲音可以喚醒聲紋嗎？

TTS（Text－To－Speech，語音合成）對比熟悉的ASR（語音識別）技術(shù)，是將文字轉(zhuǎn)化為聲音“朗讀出來”，常見的Siri、小愛同學(xué)等語音助手的聲音，都是TTS技術(shù)的“杰作”。

近日，思必馳DUI開放平臺上線“聲音復(fù)刻”技術(shù)服務(wù)，支持男聲、女聲、童聲的復(fù)刻，支持中、英文文本，支持UTF－8等多種文本格式，支持SSML標(biāo)簽控制。同時，該服務(wù)支持8k、16k、32k等多種采樣率，支持合成mp3、wav、pcm等多種音頻格式……

快速定制專屬音色

如果想用愛豆或親人的聲音做終端設(shè)備的語音播報，用戶只需要錄制≤5分鐘語音內(nèi)容，等待10分鐘左右即可獲得“專屬音色”。

思必馳語音合成技術(shù)是如何通過少量的數(shù)據(jù)，訓(xùn)練出一個高還原度的聲音模型呢？

思必馳TTS技術(shù)，基于多年累積的多說話人的聲學(xué)特征，將新數(shù)據(jù)輸入既有的模型參數(shù)里進行遷移學(xué)習(xí)和精調(diào)，通過20句錄音等少量語料，就可訓(xùn)練出高相似度的聲音模型。模型通過短時間訓(xùn)練完成“克隆”，保持了較高的MOS值（中文普通話場景下，相似度≥90％），還原度高。TTS技術(shù)上線DUI開放平臺后，使用更便捷，提供API、SDK接入方式，滿足標(biāo)準(zhǔn)化的服務(wù)要求。

技術(shù)的升級是漸進的，思必馳充分利用基于Attention的機制，及遷移學(xué)習(xí)技術(shù)，提升了聲音復(fù)刻的效果，改善用戶體驗。受限于較少的數(shù)據(jù)量，如何保證穩(wěn)定輸出是訓(xùn)練模型時要面對的挑戰(zhàn)。但在未來，少樣本音色克隆仍是研究趨勢。

復(fù)刻的聲音還安全嗎？

以智能語音技術(shù)的另一項黑科技——“聲紋識別”來作為參照。人的“聲紋”是類比指紋一樣獨一無二的存在，常被用作身份驗證和解鎖。常見的支付寶、微信的聲音鎖背后都是聲紋技術(shù)。

“克隆”的聲音可以 “瞞過”聲紋喚醒嗎？是否會有安全隱患？

常規(guī)聲紋解鎖，使用“復(fù)刻”的聲音確實能解鎖設(shè)備。但當(dāng)思必馳在聲紋技術(shù)中增加了反欺詐技術(shù)后，聲音復(fù)刻便無法闖關(guān)帶有防欺詐的聲紋，安全性得到保障。

“克隆”專屬聲音，不僅是新鮮感、娛樂性，更是AI技術(shù)拓展應(yīng)用惠及到了普通大眾，能克隆出媽媽聲音的音箱帶給了孩子更多陪伴。