【真正的宇宙通用翻譯機】卡內基美隆大學研發,超越 Google 神經網路的翻譯法!

 史上第一次,AI 能夠自學翻譯地球上的任何語言了 。

【我們為什麼挑選這篇文章】想必大家都用過 Google 翻譯來拯救自己的 蔡英文 菜英文跟菜日文,而 Google 翻譯確實也是目前市面上免費服務中,翻譯最好用,結果也最像人類語言的服務,然而,Google 翻譯目前使用的技術,依然仰賴人工文本的事前比對與資料庫建立。

現在,由西班牙 UPV 與美國卡內基梅隆大學分別研發的 AI 系統將改變這一切,使用了與 Google 不同的 AI 技術,無須任何事前的翻譯資料庫,就可無師自通「推理」出新語言的意思,這是如何辦到的?(責任編輯:林厚勳)

機器翻譯發展驚人,但是地球上還是有數以億計的人無法享受它的好處——因為他們的語言在翻譯器的下拉菜單中根本找不到。

現在,兩個新的人工智慧(AI)系統—— 一個來自西班牙的 delPaísVasco 大學(UPV),另一個來自 卡內基梅隆大學(Carnegie Mellon University,CMU)——承諾會改變這一切,為像《星艦迷航記》(Star Trek)中那樣的真正的宇宙通用翻譯機(universal translator)的到來打開大門。

Google:平行文本比對,翻譯品質會越來越好

要瞭解這些新系統的潛力,首先要瞭解當前的機器翻譯是如何工作的。 目前機器翻譯的事實標竿是 Google 翻譯,這個系統涵蓋了從南非語到祖魯語的 103 種語言,包括世界上前 10 種語言—— 順序 為漢語,西班牙語,英語,印度語,孟加拉語,葡萄牙語,俄語,日語,德語, 和爪哇語。

Google 的系統使用人類監督的神經網路,比較平行文本——以前由人類翻譯過的書籍和文章。 通過比較這些平行文本中的大量數據,Google 翻譯可以學習任意兩種指定語言之間的對等關係,從而獲得在它們之間快速轉換的能力。

有時候翻譯結果會很有趣,可能並不能真正反映原文的意思,但總體來說,這些翻譯是功能性的,隨著時間的推移,他們會越來越好。

Google 翻譯並非全球適用

Google 的做法很好,而且很有效。但不幸的是,它並不是全球通用。

這是因為有監督的培訓需要很長的時間以及很多監督人員——因為太多了,Google 使用了眾包——也因為並非世界所有語言之間都有足夠多的並行翻譯文本。

想想看: 根據世界語言民族學目錄 ,地球上有 6,909 種生活語言。其中 414 種的使用人數占人類總數的 94%。由於 Google 翻譯涵蓋了 103 個,因此會留下 6,806 種語言沒有機器翻譯——其中有 311 種語言的使用人數超過百萬。

綜合以上結論 ,至少有八億人不能享受機器自動翻譯的好處。

全新 AI 系統:免文本、免監督,自動找出語言結構

這兩個新的系統——可以在任何語言之間翻譯單詞和句子——無需通過比較大量由人類翻譯的平行文本來學習。他們也不需要監督。 相反,他們使用未監督的機器學習,並比較不同語言的隨機文本。

這是如何運作的?由於語言的詞語分類是相似的,所以系統猜測這些詞是否相等,用這些訊息構建翻譯詞典。他們從中找出句子結構,通過在不同的語言之間來回翻譯來評估他們猜測的結果。

正如 UPV 的研究員 Mikel Artetxe 所描述的那樣 :「想像一下,你給了一個人很多的中文書籍和阿拉伯語書籍——這些書都不重疊——然後這個人必須學會把中文翻譯成阿拉伯語。 這似乎是不可能的,對吧?」

事實上,這看起來實在太不可能了,以至於微軟人工智慧專家 Di He(這兩個研究項目的啟發者)告訴 《科學》雜誌 ,他得知「即使沒有人工監控,電腦也可以學習翻譯」的時候,整個人都震驚了。

要先說的是,這個系統並不像目前的平行文本深度學習系統那麼精確——但是正如 Di He 指出的那樣,電腦能夠在沒有任何人類指導的情況下猜測所有這些事實(未知語言的代表意義),這一事實本身就很不可思議。

我們只是接觸到了這種新的學習方法的表面。看起來,可能很快就有一個真正的通用翻譯,讓我們能夠與任何人用對方的母語交談,這將不再僅僅是科幻的東西。

(本文經合作夥伴 雷鋒網 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈 史上第一次,AI 能夠自學翻譯地球上的任何語言了 〉。)

除了 AI 翻譯之外,你應該也會感興趣的文章

【巴別塔要蓋好囉】Facebook 翻譯術神躍進,世界溝通無礙日近了?
【糟了,是巴別塔】Google 翻譯人工智慧大躍進,全世界語言統一的日子近了?
【身體力行支持 Pornhub】色情網站用機器學習,一秒辨認女優、體位!
不會寫程式也能做「機器學習」專案:Google 新開源項目,讓你用瀏覽器就能成為 AI 工程師!

點關鍵字看更多相關文章: