Google AI 自動過濾惱人環境音,這功能精密程度可比人耳!

【我們為什麼挑選這篇文章】你有想過在人聲吵雜的咖啡廳,為什麼我們的耳朵可以專注眼前說話的朋友,而不是整間咖啡廳的人聲?這個特異功能以前只有人耳辦得到,現在 Google AI 也學會了!一起了解有哪些多功應用跟這項技術有關。(責任編輯:楊采翎)

在吵雜、人潮多的場所中,當人們談論到自己的名字或感興趣的議題時,我們可以自動遮蔽其他噪音,只關注在欲得知的事物上,這是人類擁有的能力之一,被稱之為「雞尾酒會效應」,近日 Google AI 也學會了這項特技。

儘管近年語音辨識技術已有顯著進步,但是雞尾酒會效應(cocktail party effect)仍是一道跨不過去的坎,原因在於機器若無法擷取單獨音訊,自然沒辦法分辨語音內容。好消息是,近日 Google 終於有了新突破,並將該技術稱之為「Looking to Listen」

Google 研究團隊打造出一個深度學習視聽模型,仿照雞尾酒會效應,從混合音訊中分離出單一音訊,例如以增強特定對象的人聲、降低環境音等方式等,讓模型專注於辨識單一特定的人聲。

該模型最大的突破在於,讓它同時判讀影像和音訊,透過視覺特徵來辨識當下正在說話的人,具體來說透過嘴型和聲音,協助判斷影片中的人物與聲音的對應,再經過音訊分離模型之後,輸出個別聲音資料,這樣的效果比起單純語音辨識更加準確。

為了訓練模型,Google 收集了 YouTube上 10 萬筆的演講影片,從中截取出 2000 個小時只有講者聲音沒有任何雜音的「乾淨」影音,再將這些片段合成出人工雞尾酒派對資料庫,並與其他資料庫結合,作為深度學習的數據。運作的成果,能分離不同的聲音,辨識獨立的人聲。

這項技術的應用領域相當廣泛,例如提供更準確的自動生成字幕,會議或吵雜環境的影音後期處理等。目前 Google 也公布利用該模型,進行人聲增強、分隔語音的示範影片。

——

(本文經合作夥伴 智慧機器人網 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈影/七嘴八舌聽不清?Google AI 新技能─獨立特定音訊 跟惱人環境音說掰〉,首圖來源: YouTube截圖。)

延伸閱讀

還在用人工打逐字稿?4 款中、英文語音辨識軟體讓你提早下班
AI 辨識+語音助理:美國新創 Aira 打造出一副幫盲人看清世界的眼鏡
【Google 潮。設計】只要台幣 750 讓你手作會「打 pass」語音助手,堪稱最實用聖誕禮物!

AD