【我們為什麼挑選這篇文章】人工智慧結合語言學的自然語言處理(Natural Language Processing, NLP)又有新研究問世了!一個利用 AI、電極開發的模型,可以檢測出你嘴型念出、卻沒發出聲的話…往好的方向想,這個或許可以應用在醫療上,試圖和聽障朋友溝通,但另一方面,是不是連在辦公室講老闆壞話都有可以被抓到?(責任編輯:賴佩萱)

本文經 AI 新媒體量子位(公眾號 ID:QbitAI)授權轉載,轉載請連繫出處

作者:量子位

吃飯的時候,想要和對面聊聊天,然而周遭嘈雜的聲音,讓你根本不知道 TA 在說什麼?又或者,想與聽障人士交流,然而對方聽不見你的聲音?

現在,檢測臉部肌肉變化的 AI 來了,只要你動了嘴,哪怕沒出聲,它也能知道你在說什麼。

這是 EMNLP 2020 的最佳論文,來自 UC 伯克利的兩位作者,用 AI 和電極做了個「沉默語音」的檢測模型,可以檢測到你想說、但沒說出聲的話。

用電極收集無聲的語音

其中的原理究竟是什麼,我們來一探究竟。

「無聲語音」的本質,是人在說話時臉部、頸部肌肉的變化。說白了,你在對口型時雖然沒有出聲,但你的臉和脖子「出賣」了你。

而能夠檢測「無聲語音」的 AI,也正是這麼被做出來的。

在收集數據時,研究者會先在實驗者的臉上等部位貼 8 個貼片,每個貼片都是一個「監視肌肉變化」的傳感器,像這樣:

在這之後,需要錄製一段實驗者的有聲語音,並與肌電圖進行對應,如下圖(會錄製兩種語音數據,一種每句話 4 個詞左右,另一種每句話 16 個詞左右):

這種方法能夠將肌肉的變化情況、和語音的類型對應起來。在記錄數據的過程中,還要再錄製一段「對口型」的肌電圖,但不需要發聲,也就是「沉默語音」。

之所以要收集兩份肌電圖,是因為人在無聲說話時,肌肉的變化與發聲說話時的變化有些區別,例如部分發音部位的肌肉震顫幅度會變小,語速也有所變化

但如果要在無聲環境下,根據肌肉變化識別出想說的語音,就只能用對口型時的無聲肌電圖。

顯然,這些原因使得 AI 的訓練變得非常困難。

為了盡可能將識別準確率放大,研究人員額外採用了一種結構來降低模型損失。

不到 20 小時的語音集訓練,效果怎麼樣?

那麼,經由這種方法訓練出來的模型,效果怎麼樣?

研究人員分別在封閉詞集 (Closed Vocabulary Condition)和開放詞集 (Open Vocabulary Condition)上,對這種模型進行了測試。

其中,封閉詞集主要指介詞、限定詞、連詞等詞彙(如 of、and),這種詞彙集合少,容易訓練,AI 也容易形成「肌肉記憶」。

而開放詞集的範圍,就要廣泛得多了,包含名詞、形容詞等等詞彙,目前的詞語可以說是不計其數,想要讓 AI 會認這些詞彙,難度就要高得多。

判定的方式,是 WER,具體的計算方式是這樣的(原理類似於計算原句的出錯率):

目前,這個 AI 在封閉詞集上的訓練水平已經達到了 3.6% 的 WER(越小越好):

 

至於開放詞集的檢測,AI 經過訓練後,WER 也從高達 88% 的水平下降到了 68%。

雖然在開放詞集上的檢測,看起來效果並不完美,但別忘了,這個模型所用的數據集並不大。封閉檢測數據集,一共只有不到 1 小時的語音數據;開放檢測數據集,也只有 18.6 個小時的語音集。

而且,這些語音集還是無聲、有聲數據的合集。

不到 20 個小時的語音數據,訓練效果就已經達到了種水平。如果能獲得更大的數據樣本,模型的效果還會進一步提升。

認識神人作者

一作 David Gaddy,來自 UC 柏克萊的 NLP 組。平時的研究方向是無監督學習、語法分析和無聲演講。

Daniel Klein,一作的導師,研究方向主要是無監督學習、語法分析、訊息提取和機器翻譯。

NLP 新研究:諷刺檢測模型

這屆 EMNLP 的各種 NLP 研究,簡直不留活路:來自北京中科院、北京訊息工程學院的研究者,還發明了一種諷刺檢測模型。

這種 AI 模型會透過同時檢測文本和圖像,進行多模態語義理解,從而檢測出一個人在社交媒體上發出的動態,是否有諷刺的意思。

就像這句話:「這可真是場座無虛席的比賽,而且我們居然還搶到了位置。」表面上,這是句再正常不過的話,然而在配上圖片後,畫風頓時變得詭異了起來:

又例如這句話:「看起來就好吃極了。」

然而當看到散落在盒子邊緣的起司和餡料時,顯然這又是一句充滿諷刺意味的語句。

現在,這些語義訊息都已經被拿來餵給 了 AI,並訓練出了一個「懂得聽諷刺話」的模型。

目前這個模型,已經在推特這樣的社交媒體上進行了驗證,取得了 84.33% 的好效果。

看了這個 AI 模型,你還敢偷偷說老闆壞話嗎?

(本文經 量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為〈就算是戴上口罩,AI 也知道你在說什麼丨EMNLP 2020 最佳論文〉。)

你可能會有興趣