【我們為什麼挑選這篇文章】人工智慧結合語言學的自然語言處理(Natural Language Processing, NLP)又有新研究問世了!一個利用 AI、電極開發的模型,可以檢測出你嘴型念出、卻沒發出聲的話… 往好的方向想,這個或許可以應用在醫療上,試圖和聽障朋友溝通,但另一方面,是不是連在辦公室講老闆壞話都有可以被抓到?(責任編輯:賴佩萱)
本文經 AI 新媒體量子位(公眾號 ID:QbitAI)授權轉載,轉載請連繫出處
作者:量子位
吃飯的時候,想要和對面聊聊天,然而周遭嘈雜的聲音,讓你根本不知道 TA 在說什麼?又或者,想與聽障人士交流,然而對方聽不見你的聲音?
現在,檢測臉部肌肉變化的 AI 來了,只要你動了嘴,哪怕沒出聲,它也能知道你在說什麼。
這是 EMNLP 2020 的 最佳論文 ,來自 UC 伯克利的兩位作者,用 AI 和電極做了個「沉默語音」的檢測模型,可以檢測到你想說、但沒說出聲的話。
用電極收集無聲的語音
其中的原理究竟是什麼,我們來一探究竟。
「無聲語音」的本質,是人在說話時臉部、頸部肌肉的變化。說白了,你在對口型時雖然沒有出聲,但你的臉和脖子「出賣」了你。
而能夠檢測「無聲語音」的 AI,也正是這麼被做出來的。
在收集數據時,研究者會先在實驗者的臉上等部位貼 8 個貼片,每個貼片都是一個「監視肌肉變化」的傳感器,像這樣:
在這之後,需要錄製一段實驗者的有聲語音,並與肌電圖進行對應,如下圖(會錄製兩種語音數據,一種每句話 4 個詞左右,另一種每句話 16 個詞左右):
這種方法能夠將肌肉的變化情況、和語音的類型對應起來。在記錄數據的過程中,還要再錄製一段「對口型」的肌電圖,但不需要發聲,也就是「沉默語音」。
之所以要收集兩份肌電圖,是 因為人在無聲說話時,肌肉的變化與發聲說話時的變化有些區別,例如部分發音部位的肌肉震顫幅度會變小,語速也有所變化 。
但如果要在無聲環境下,根據肌肉變化識別出想說的語音,就只能用對口型時的無聲肌電圖。
顯然,這些原因使得 AI 的訓練變得非常困難。
為了盡可能將識別準確率放大,研究人員額外採用了一種結構來降低模型損失。
不到 20 小時的語音集訓練,效果怎麼樣?
那麼,經由這種方法訓練出來的模型,效果怎麼樣?
研究人員分別在封閉詞集(Closed Vocabulary Condition)和開放詞集(Open Vocabulary Condition)上,對這種模型進行了測試。
其中,封閉詞集主要指介詞、限定詞、連詞等詞彙(如 of、and),這種詞彙集合少,容易訓練,AI 也容易形成「肌肉記憶」。
而開放詞集的範圍,就要廣泛得多了,包含名詞、形容詞等等詞彙,目前的詞語可以說是不計其數,想要讓 AI 會認這些詞彙,難度就要高得多。
判定的方式,是 WER,具體的計算方式是這樣的(原理類似於計算原句的出錯率):
目前,這個 AI 在封閉詞集上的訓練水平已經達到了 3.6% 的 WER(越小越好):
至於開放詞集的檢測,AI 經過訓練後,WER 也從高達 88% 的水平下降到了 68%。
雖然在開放詞集上的檢測,看起來效果並不完美,但別忘了,這個模型所用的數據集並不大。封閉檢測數據集,一共只有不到 1 小時的語音數據;開放檢測數據集,也只有 18.6 個小時的語音集。
而且,這些語音集還是無聲、有聲數據的合集。
不到 20 個小時的語音數據,訓練效果就已經達到了種水平。如果能獲得更大的數據樣本,模型的效果還會進一步提升。
認識神人作者
一作 David Gaddy,來自 UC 柏克萊的 NLP 組。平時的研究方向是無監督學習、語法分析和無聲演講。
Daniel Klein,一作的導師,研究方向主要是無監督學習、語法分析、訊息提取和機器翻譯。
NLP 新研究:諷刺檢測模型
這屆 EMNLP 的各種 NLP 研究,簡直不留活路:來自北京中科院、北京訊息工程學院的研究者,還發明了一種諷刺檢測模型。
這種 AI 模型會透過同時檢測文本和圖像,進行多模態語義理解,從而檢測出一個人在社交媒體上發出的動態,是否有諷刺的意思。
就像這句話:「這可真是場座無虛席的比賽,而且我們居然還搶到了位置。」表面上,這是句再正常不過的話,然而在配上圖片後,畫風頓時變得詭異了起來:
又例如這句話:「看起來就好吃極了。」
然而當看到散落在盒子邊緣的起司和餡料時,顯然這又是一句充滿諷刺意味的語句。
現在,這些語義訊息都已經被拿來餵給 了 AI,並訓練出了一個「懂得聽諷刺話」的模型。
目前這個模型,已經在推特這樣的社交媒體上進行了驗證,取得了 84.33% 的好效果。
看了這個 AI 模型,你還敢偷偷說老闆壞話嗎?
(本文經 量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈就算是戴上口罩,AI 也知道你在說什麼丨 EMNLP 2020 最佳論文 〉。)
你可能會有興趣
- 如何用 Python,寫出 Siri 和 Alexa 的自然語言處理演算法?
- 【NLP 工程師殺手級工具】Google 開源 LIT 分析軟體,快速測出「AI 精準度下降主因」
- 2020 Google 拿出什麼好菜?神經網路、機器學習,還有自然語言強化搜尋引擎!