【我們為什麼挑選這篇文章】 你是不是也曾經用過語音朗讀功能?而且也不只一次想過「這聲音怎麼這麼假、這麼難聽」?

現在這個使用錄音切割小塊再拼貼的 TTS 語音合成系統要被淘汰了!Google 最新發布的 WaveNet 不只讓音檔生成速度加快 1000 倍、聲音更為逼真,而且已經正式用於 Google Assistant。

這篇文章編譯自 Deepmind 官方部落格,詳細告訴你 WaveNet 究竟是如何使用卷積神經網絡,創造語音合成系統的最大突破?並且也列舉出為何 WaveNet 的出現將如何幫助機器學習快速發展?(責任編輯:劉庭瑋)

2017 年 10 月 4 日,Deepmind 發表 Blog 稱,其一年前提出的生成原始音頻波形的深層神經網絡模型 WaveNet 已正式商用於 Google Assistant 中,該模型比起一年前的原始模型效率提高 1000 倍,且能比目前的方案更好地模擬自然語音。

以下為 Deepmind Blog 所宣布的詳細訊息,雷鋒網摘編如下

一年之前,我們提出了一種用於生成原始音頻波形的深層神經網絡模型 WaveNet,可以產生比目前技術更好和更逼真的語音。當時,這個模型是一個原型,如果用在消費級產品中的計算量就太大了。

在過去 12 個月中,我們一直在努力大幅度提高這一模型的速度和質量,而今天,我們自豪地宣布,WaveNet 的更新版本已被集成到 Google Assistant 中,用於生成各平台上的所有英語和日語語音。

新的 WaveNet 模型可以為 Google Assistant 提供一系列更自然的聲音。

傳統 TTS 語音合成系統為何被捨棄?

為了理解 WaveNet 如何提升語音生成,我們需要先了解當前文本到語音(Text-to-Speech,TTS)或語音合成系統的工作原理。

目前的主流做法是基於所謂的拼接 TTS,它使用由單個配音演員的高質量錄音大數據庫,通常有數個小時的數據。這些錄音被分割成小塊,然後可以將其進行組合以形成完整的話語。然而,這一做法可能導致聲音在連接時不自然,並且也難以修改,因為每當需要一整套的改變(例如新的情緒或語調)時需要用到全新的數據庫。

另一方案是使用參數 TTS,該方案不需要利用諸如語法、嘴型移動的規則和參數來指導計算機生成語音並進行語音拼接。這種方法即便宜又快捷,但這種方法生成的語音不是那麼自然。

WaveNet 究竟強在哪?

WaveNet 採取完全不同的方法。在原始論文中,我們描述了一個深層的生成模型,可以以每秒處理 16000 個樣本、每次處理一個樣本黨的方式構建單個波形,實現各個聲音之間的無縫轉換。

 

用卷積神經網絡建構

WaveNet 使用卷積神經網絡構建,在大量語音樣本數據集上進行了訓練。在訓練階段,網絡確定了語音的底層結構,比如哪些音調相互依存,什麼樣的波形是真實的以及哪些波形是不自然的。訓練好的網絡每次合成一個樣本,每個生成的樣本都考慮前一個樣本的屬性,所產生的聲音包含自然語調和如嘴唇形態等參數。它的「口音」取決於它接受訓練時的聲音口音,而且可以從混合數據集中創建任何獨特聲音。與 TTS 系統一樣,WaveNet 使用文本輸入來告訴它應該產生哪些字以響應查詢。

原始模型以建立高保真聲音為目的,需要大量的計算。這意味著 WaveNet 在理論上可以做到完美模擬,但難以用於現實商用。在過去 12 個月裡,我們團隊一直在努力開發一種能夠更快地生成聲波的新模型。該模型適合大規模部署,並且是第一個在 Google 最新的 TPU 雲基礎設施上應用的產品。

 

(新的模型一秒鐘能生成20秒的音頻信號,比原始方法快 1000倍)

生成音檔速度加快 1000 倍

WaveNet 團隊目前正在準備一份能詳細介紹新模型背後研究的論文,但我們認為,結果自己會說話。改進版的 WaveNet 模型仍然生成原始波形,但速度比原始模型快 1000 倍,每創建一秒鐘的語音只需要 50 毫秒。該模型不僅僅速度更快,而且保真度更高,每秒可以產生 24,000 個採樣波形,同時我們還將每個樣本的分辨率從 8bit 增加到 16bit,與光盤中使用的分辨率相同。

用「聲音波型」接合,讓發聲更自然

這些改進使得新模型在人類聽眾的測試中顯得發聲更為自然。新的模型生成的第一組美式英語語音得到的平均意見得分(MOS)為 4.347(滿分 5 分),而真實人類語音的評分只有 4.667。

有助快速「生產」高音質聲音,讓語音 AI 模型訓練更方便

新模式還保留了原始 WaveNet 的靈活性,使我們能夠在訓練階段更好地利用大量數據。具體來說,我們可以使用來自多個語音的數據來訓練網絡。這可以用於生成高質量和具有細節層次的聲音,即使在所需輸出語音中幾乎沒有訓練數據可用。

我們相信對於 WaveNet 來說這只是個開始。我們為所有世界語言的語音界面所能展開的無限可能而興奮不已。

TO 編按:以下 YouTube 影片是 WaveNet 的簡易介紹,另外附上 Deepmind Blog 連結,可以直接聽到 TTS 和 WaveNet 生成音檔差異度有多大!

(本文經合作夥伴 雷鋒網  授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈Deepmind語音生成模型WaveNet正式商用:效率提高1000倍〉。)

延伸閱讀

為何 Google 耳機能即時翻譯 40 國語言? Google Brain 讓演算法「自動更新」,提升翻譯準確度
【遊戲工程師要失業了?】人工智慧只「看」2 分鐘超級瑪莉歐,就能完美複製它
IBM 牽手 MIT 發展人工智慧:雙強合作投入 72 億台幣,要用量子計算機顛覆 AI 運算
 終結阿茲海默症!人工智慧提早 10 年「認出」失智症患者,準確率高達 84%
 不用再學 SQL 語言啦!人工智慧發展下第一波失業的工程師:資料庫工程師