為什麼人工智慧公司,要開始像瘋子一樣狂砸玻璃?

你能夠靠聽力辨識外面正在吠叫的是你家的狗,還是鄰居的嗎?或是聽見關門聲,可以馬上知道是大門還是房門被關上?或許你辦得到,但這對 AI 來說十分困難,他們還是 聲音辨識的初學者

現有 AI 領域常見文字、視覺、影像辨識的機器學習,只要餵大量數據、圖像給 AI 即可,像是臉部辨識、寫新聞等應用早已不是新鮮事,但聲音要怎麼從生活的雜音中分離,再丟給 AI 處理?

訓練 AI 聽力從土法煉鋼的方式開始最快

英國人工智慧公司 Audio Analytic 的倉庫中,一個團隊正瘋狂用不同工具砸數千個不同形狀和大小的窗玻璃和門,記錄每種玻璃與器具撞擊的的獨特破碎聲。他們不是工作壓力大,是正在培訓聽覺機器學習系統。

正處於起步階段的聽覺辨識人工智慧從數據的抓取就是一項挑戰。以 Audio Analytic 公司砸玻璃為例,首先須具備精準的聲音探測器與集音器,並且大量提供聲音範本,確保 AI 正確收到聲音的內容。而在搜集碎玻璃的過程,也會發生不必要的意外事故,如割傷腳等。

另一家 Cambridge Consultants 公司教 AI 辨識不同類型的鋼琴音樂,用了幾百個小時的鋼琴演奏,包括專業錄音和從 YouTube 拍攝的業餘練習視頻。為了模擬真實複雜的音樂現場,團隊故意,讓演奏不和諧,例如音量改變、拍子不穩等。結果證明是一種很好的方式,可以教 AI 識別複雜數據的演奏模式。

音頻人工智慧的應用超乎想像

既然聽覺辨識人工智慧這麼搞剛(費事),為何人工智慧公司還是堅持要走在前端?因為「看到」可能為時已晚。

智慧家庭語音助理 如 Alexa Guard 而言,建立了識別聲音的能力後 ,當歹徒闖入家中,他可以即刻辨識方位。同樣可以辨識小孩的哭聲,提醒家長小孩需要什麼幫助,讓使用者輕鬆快速地對家中發生的事情作出反應。

除了家庭語音助理,在 智慧醫療(eHealth) 方面,聲音辨識人工智慧也是一大功臣。元智大學開發病理嗓音偵測系統,透過與亞東醫院合作蒐集了近千位患者的聲音資料,只要在安靜的空間對著麥克風發出「啊」的聲音 5 秒,AI 就會透過演算法分析聲紋,判斷喉部是否異常。這個正確率突破 94% 的聲音人工智慧系統,甚至已獲得台灣專利。

看來 AI 不只觀察這個世界,他也正在學習聆聽一舉一動。

——
參考資料來源:
BBC〈 Why an AI firm is busy smashing thousands of windows
CEpro〈Amazon’s New Alexa Guard: Huge Implications for Sound Recognition in Security; ADT Stock up 7%
CTIMES〈利用 AI 分析哭聲來診察新生兒窒息風險
Yahoo! 奇摩新聞 〈 對麥克風「啊」5 秒 AI 辨識喉嚨有無疾病

(本文提供合作夥伴轉載,首圖來源:Pxhere,CC Licensed。)

延伸閱讀

四支 AI 設計的廣告被批慘不忍睹,漢堡王坦承:好啦,是廣告公司

【AI 秒解決】PM、策展人無言時刻:花 2 小時刪老闆醜照、找客戶照片

【被手指給出賣】全新 AI 演算法:從指尖動作就能猜出喜怒哀樂,說好的隱私權去哪了?

 


點關鍵字看更多相關文章: