讓 AI 狂聽 60 小時的 Youtube 影片,MIT 人工智慧終於領悟人耳才會的「分離音源」

【我們為什麼挑選這篇文章】人有個天生技能,我們能夠在吵雜的會議、宴會中,清楚聽到自己的名字或是旁人的談話。這都是因為人腦會降低周遭不重要的音頻,並將注意力轉到正在談話的對象上。不過,這對 AI 來說一直是個大困難。

麻省理工研究團隊要如何解決這個所謂「雞尾酒會問題」呢?(責任編輯:陳伯安)

麻省理工學院的研究團隊使用音樂錄影帶來訓練深度學習神經網路,以區分出其中的各種聲音。

MIT 用 MV 訓練機器「分離音源」

未來將採用人工智慧來解決經典的雞尾酒會問題,即如何從多種背景噪音裡篩選出特定的聲音。

人耳十分擅長從喧鬧的環境聲裡解讀出各種聲音,大腦可以將注意力集中在我們想聽到的內容上。不過使用機器來「分離音源」一事,多年來始終困擾著工程師。

麻省理工學院的研究團隊則是使用音樂錄影帶來訓練神經網路,以求更準確地指出音源。

用人工智慧加速 2019 企業營運效率!
2019 企業雲端應用調查,找出你的 AI 必勝技

麻省理工學院的研究員,過去也曾在 NVIDIA 擔任研究實習生的 Hang Zhao 表示,該團隊的深度學習系統「直接使用大量未標記的 YouTube 影片進行學習,以理解哪些物體發出什麼聲音。」

Hang Zhao 說這是一項具有突破性的研究,在語音、聽力學、音樂及機器人技術方面將會有著廣泛的應用方式。

714 個 Youtube 影片做深度學習,AI 能在 MV 中辨識出 20 多種樂器聲

麻省理工學院使用了一種新方法來解決雞尾酒會的問題:使用 YouTube 影片裡的影像和聲音來訓練深度學習神經網路,目的是讓神經網路學習如何在發出聲音的影片裡進行精準影像定位,而且是深入到像素的程度。

麻省理工學院的研究團隊使用 YouTube 上 60 個小時的音樂錄影帶內容來訓練這套名為「PixelPlayer」的系統,目前它可以辨識出二十多種樂器的聲音。

來自麻省理工學院電腦科學與人工智慧實驗室的這支研究團隊 ,開發出三套卷積神經網路,三者共同運作以產生結果。第一個對視覺輸入內容進行編碼,第二個對聲音輸入內容進行編碼,第三個則是按照視覺和聲音輸入內容合成輸出內容。

PixelPlayer 的訓練資料集由 714 支 YouTube 影片組成。「卷積神經網路在四個 NVIDIA TITAN V GPU 上運行,能以超高速度來處理資料,在一天內便學會了。」Zhao 說。

PixelPlayer 為自我監督式神經網路,無需人為對樂器或聲音內容加入註釋,反而是系統學習低音號和小號等樂器的外觀、聲音及移動方式。

用 AI 抓出影片背景發生什麼事

PixelPlayer 在音樂錄影帶裡對各音源進行定位後,便會區分出各音源的波形,目前能找出兩三種樂器,該研究團隊的目標是在短時間內找出更多樂器。Zhao 在找出樂器的過程中,表示:「我們將一個 MP3 檔案分成多個 MP3 檔案。」

音訊工程師可以使用 PixelPlayer 音樂應用程式的人工智慧技術,改善樂器聲音太小的情況,或是關掉背景裡的某些聲音。Zhao 說此舉可以幫助音訊工程師改善現場錄音或重新錄製音樂。

研究人員不斷研究將深度學習用於解決雞尾酒會問題,目的也是為了改善助聽器。

它還能用在音樂和聽力學以外的地方,辨識我們四周的各種聲音,像是從森林的聲音裡找出稀有鳥類的鳴叫聲。「機器人可以使用這套系統來理解環境裡的聲音。」Zhao 說。

麻省理工學院的研究團隊九月時將出席在慕尼黑舉行的 歐洲電腦視覺大會(European Conference of Computer Vision),並且介紹他們的研究成果。

(本文經合作夥伴 NVIDIA 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈聲聲入耳:運用人工智慧來解決「雞尾酒會」問題 〉,首圖來源:Pxhere, CC Licensed。)

延伸閱讀

波音、空中巴士全都「MIT」:十年苦熬出頭天,漢翔如何成為台灣飛機零件之王?
世界頭號駭客 Kevin Mitnick:「區塊鏈無法打倒駭客,只會讓我們更嗨」
【喪心病狂的機器學習】MIT 訓練出暗黑 AI,恐怖程度可比希區考克《驚魂記》殺人狂


我們正在找夥伴!

2019 年我們的團隊正在大舉擴張,需要你的加入跟我們一起找出台灣創新原動力! 我們正在徵 《採訪社群編輯》、《助理編輯》,詳細職缺與應徵辦法 請點我

點關鍵字看更多相關文章: