人類成功用「腦波」說話,且有 70% 母語測試者聽得懂內容

【為什麼我們要挑選這篇文章】不用動嘴,機器就能直接讀腦發聲。打破歷史的腦機介面將如何改變全球醫護產業?(責任編輯:陳伯安)

這是人類歷史上第一次,直接從大腦中輸出完整的口語句子。

425 日, Nature 雜誌發表了一項新成果, 神經科學家設計了一種可以將大腦信號轉換為語音的設備。通過最先進的腦機界面,根據大腦活動控制的虛擬聲道來產生自然合成的合成語音。簡單來說,就是通過解碼人類嘴唇、下巴、舌頭和喉頭等腦信號,將其轉換成患者想表達的語音

「這是第一次,我們可以根據個人的大腦活動生成完整的口語句子。」加州大學舊金山分校神經外科教授,也是該成果的主要研究員 Edward Chang 說。

華裔教授 Edward Chang,加州大學舊金山分校神經外科教授,重點研究方向為言語、運動和人類情感的大腦機制。圖片來源 UCSF

不再需要透過臉部動作拼字

語音障礙者廣泛存在。由於各類事故、中風或神經退行性疾病(如肌萎縮側索硬化症或肌萎縮側索硬化症)中受傷而導致言語能力喪失,成千上萬的人無法進行正常的交流。

用外部設備生成輔助語音輸出早已有之。我們之前所熟知的,例如霍金使用的語音合成器,是通過人類眼睛和面部動作來拼寫單詞,在理想情況下,可以幫助癱瘓者每分鐘輸出多達 8 個單詞。

來源:The Guardian

這些技術已經給失語患者帶來了一些生活改善,但與自然語音每分鐘 150 個單詞的平均速度比起來,通過外部接口進行輸出的速度還是太慢了。

Nature 最新發佈的這項實驗成果則將溝通恢復能力直接提升了一個層級:直接讀取大腦信號合成語音。相比逐字錄入,更加高效,並且可以解決現有技術語音輸出的很多問題,比如靠單個音節蹦字導致的語音語調缺失。如果可以應用到臨床,可以大大改善語音障礙患者的溝通能力。

儘管腦電波產生的內容相比自然語音依然頗為模糊, 但是已經是整句的輸出,並且保留了句子的斷句感和語調 。據該研究稱,多達 70%的英語母語測試者認為可以聽懂相關內容。

其實去年年初, Science 雜誌也報道過 Edward Chang 團隊在腦機接口上作出的 重要進展 ,當時的研究還停留在單個數字的記錄上:研究者讓測試者聽口述數字,並基於其聽到數字時腦活動的記錄,進行電腦重建語音。當時的數字雖然也可辨認,但是只停留在單個詞語的輸出。

而對比最新放出的聲音檔, 僅僅一年多的時間 ,已經可以輸出完整的語句了。據 Edward Chang 稱,這一技術目前已經「觸手可及」,「我們應該能夠在失去語言能力的患者中,構建一種具有臨床可行性的設備。」

想看論文: 點這

要精準解讀大腦可不容易

對於因神經損傷而無法溝通的人來說,將神經活動轉化為語言的技術將具有變革性的意義。

從神經活動中解碼語音是具有挑戰性的,因為說話需要對聲道咬合架進行非常精確和快速的多維控制。Chang 教授他們設計的神經解碼器,明確地利用人類皮質活動中編碼的運動和聲音表示來合成可聽語音。遞歸神經網路首先將記錄的皮質活動直接解碼為關節運動的表示,然後將這些表示轉換為語音聲學。

來源:Nature

在封閉的詞彙測試中,聽眾可以很容易地識別和轉錄從皮層活動合成的語音。即使數據有限,中間關節動力學也能提高性能。這些發現提高了使用語音神經假體技術恢復口語交流的臨床可行性。雖然,此次實驗是在具有完整語言功能的志願者中進行,但在未來,該技術有望恢復由於癱瘓和其他形式的神經損傷而失去說話能力的人的聲音。

實際的實驗過程

該團隊招募了五名即將接受癲癇神經外科手術的志願者。為了準備手術,醫生們在大腦中暫時植入電極來繪制患者癲癇發作的來源。當電極就位時,志願者被要求大聲讀出數百個句子,而科學家則記錄了已知涉及言語產生的大腦區域的活動。

僅需兩步即可解碼語音:將大腦中的電信號轉換為聲音運動,然後將這些運動轉換為語音。

他們不需要收集第二步的數據,因為其他研究人員之前已經編制了一個大型數據庫,顯示了聲音運動與語音的關聯。他們可以用它來逆向設計患者的聲音運動。

然後,他們訓練機器學習算法,以便能夠將大腦中的電活動模式與這將產生的聲音運動相匹配,例如將嘴唇壓在一起,收緊聲帶並將舌尖移到嘴的頂部。他們將這項技術描述為「虛擬聲道」,可以直接由大腦控制,從而產生與人聲的合成近似。

為了測試合成語音的可懂度,科學家們通過亞馬遜 Mechanical Turk 平台,邀請了數百人進行樣本轉錄。

在測試中,每次給出 100 個句子和 25 個單詞,包括目標詞和隨機詞。聽眾辨識的準確率達 43%

一些發音,如「sh」和「z」被精確合成,對於「b」和「p」的發音解碼器還不能完全分清。

但這些並不影響正常地溝通,在日常生活中,我們也會漸漸熟悉一個人的發音方式,並對他們想要表達的話進行推測。

目前,該實驗算法還不能解碼未經訓練的句子, 要成為一個可行的臨床語言合成腦機接口,還有很長的路要走。

馬斯克也對「機腦介面」感興趣

其實早在去年年初,Science 雜誌就報道過 Edward Chang 團隊以及來自哥倫比亞大學(Columbia University)和德國不萊梅大學(Bremen)在腦機介面上作出的重要進展:通過手術,他們在大腦上放置電極,蒐集電極產生的數據,再將其通過電腦變成語音信息;接著通過神經網路模型,他們重建了在某些情況下,可以被人類聽眾所理解的單詞和語句。

圖片來自 Science

當時,來自哥倫比亞的研究者試圖找出在不同時間點,大腦打開與關閉神經元的模式,並由此推斷語音內容。雖然這些模型將在非常精確的數據上表現最好 —— 而蒐集這些精准的數據需要打開我們的頭蓋骨。

研究人員只能在極少數情況下才會進行此類危險性記錄:一種情況是在移除腦腫瘤期間,暴露在外的大腦產生的電讀數能夠幫助外科醫生定位以避開關鍵的語音及運動區;另一種情況是在手術前為癲癇患者植入電極並保持數天以確定癲癇發作起因。

當時,Edward Chang 就和他的團隊,根據由三名癲癇患者大聲朗讀語音引起的、從語言及運動區域捕獲的大腦活動,重建了整個句子。

在線上測試中,有 166 人聽懂了其中一個句子,並從 10 項文字選項中進行選擇。超過 80%的情況下模型都能夠正確識別句子。研究人員還進一步改進了模型:他們使用它根據人類的唇語來重新創建句子。

當時的研究者也放出了一段實驗錄音,他們讓一組聽眾會在電腦「說出」數字同時對其進行評估;其精確度大約為 75%。聲音聽起來有些可怕,但是仔細聽仍可以辨認出數字。

此外,鋼鐵俠「馬斯克」也對這個領域頗感興趣,除了電動車和太空探索,他也早早涉足了腦機介面這個領域,2016 年創立了腦機介面研發公司 Neuralink,與多位加州大學知名神經科學家合作,其短期目標是治癒嚴重的腦部疾病,如老年痴呆症和帕金森症,並且最終通過「與 AI 的融合」來增強大腦。

機器學習、語言學、AI 一起推動人類進步

該項目的研究人員目前正在試驗更高密度的電極陣列和更先進的機器學習算法,他們希望這些算法能夠進一步改善合成語音。該技術的接下來的目標,是將這個系統應用到一個不會說話的人身上,在無法用他們自己的聲音進行訓練的前提下,測試是否可以學習如何使用該系統,並將其推廣,讓他們能夠說出想說的任何內容。

Josh Chartier,Chang 實驗室的生物工程研究生。圖片來自 UCSF

該團隊的一位研究參與者表示,研究人員基於解剖學可以解碼和合成來自參與者大腦活動的新句子,以及算法訓練的句子。即使研究人員提供了記錄大腦活動數據的算法,而一個參與者只是在沒有聲音的情況下講話,系統仍然能夠在說話者的聲音中產生可理解的合併版本的混合句子。

研究人員還發現,聲音運動的神經代碼在參與者之間部分重疊,並且一個研究對象的聲道模擬可以響應從另一個參與者的大腦記錄的神經指令。總之,這些研究結果表明,由於神經功能障礙導致語言障礙的個體,很有可能學會使用這個系統,並以錄入聲音為模型的語音假體。

「肢體殘障者人已經學會用大腦控制機器人肢體,」Chang 實驗室的生物工程研究生 Chartier 說。「我們希望有一天,有語言障礙的人能夠學會用這種腦控制的人工聲道再次說話。」

另一位研究者 Anumanchipalli 補充說:「我很自豪能夠將神經科學,語言學和機器學習的專業知識作為幫助神經殘疾患者,這是一個重要的里程碑。」

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈告别“霍金音”:华裔科学家设计脑机新设备,人类首次直接用脑波“说话”〉,首圖截自 Youtube。)

你可能感興趣

寫程式不再崩潰!介紹 5 個 Google 工程師都在用的好習慣

法國人別怕!這「十億數據點」完美紀錄燒毀前的巴黎聖母院

GitHub 上破 10 萬顆星!工程師寫程式控訴中國「996」血汗加班制度


我們正在找夥伴!

2019 年我們的團隊正在大舉擴張,需要你的加入跟我們一起找出台灣創新原動力! 我們正在徵 《採訪社群編輯》、《助理編輯》,詳細職缺與應徵辦法 請點我

點關鍵字看更多相關文章: