【糟了,是巴別塔】Google 翻譯人工智慧大躍進,全世界語言統一的日子近了?

巴別塔,出現在舊約全書中的一個故事,說的是人們之所以產生不同語言的由來。

在這個故事中,人們一開始只有一種語言,而且團結無比,在齊心協力的氛圍下打算打造一座「通往天上的高塔」。這個舉動嚇壞上帝了,「怎麼可以隨便搭梯子來我家呢?」,便下凡把人類的語言打亂,讓大家再也無法明白對方的意思,高塔工程也無限期延宕。

從此之後,找尋、發明一種人類「共通的語言」,像是一個大秘寶,全世界都嘗試追求卻遙不可及。

而 Google 現在正在前往巴別塔的路上。

挑戰:用人話講解 Google 翻譯到底厲害在哪?

Google 團隊在 2016 年底,悄悄釋出了一篇有關 Google 翻譯的論文,並沒有引起過大的迴響。我們也有轉載過相關的文章《Google 翻譯又變態了,這次連沒看過的語言也能翻譯》、《不用學英文了?Google 翻譯導入類神經機器學習,Google 小姐變聰明啦》。儘管大致上解釋了 Google 在翻譯領域的躍進,講的卻好像是克林貢語,讓許多沒有修過人工智慧課程的讀者一頭霧水,只能抱著一種「快點頭,不然別人以為我看不懂」的心態。

今天我們就要試著挑戰用人話來講解 Google 翻譯到底哪裡進步又厲害在哪裡!

過去的 Google 翻譯

在 2016 年年底以前的 Google 翻譯,可以把它簡單想像成一間間正方形的圖書館,有韓文圖書館、日文圖書館、中文圖書館、英文圖書館 …… 在每一間圖書館的牆上有兩個窗口,一個叫做輸入;另一個則為輸出。

而圖書館中有一個金髮雙馬尾的圖書館館員,示意圖如下:

假設金髮雙馬尾的圖書館管理員是負責日文圖書館,而你在輸入的窗口交給他一張寫著中文「爸爸」的紙條,該名圖書館管理員則會在偌大的圖書館中找尋相對應「爸爸」的日文單字。

一個字對應一個字;一個片語對應一個片語。超出這個範疇,抱歉,那圖書館管理員就會給你一些奇怪的答案。在這個機制中, 金髮雙馬尾的圖書館管理員可以不懂日文,也不懂中文,反正只要在圖書館裡面找到對應的字元就可以了

現在的 Google 翻譯

在理解現在的 Google 翻譯之前,不妨想像圖書館管理員突然有了智商。

在輸入與輸出的窗口間,Google 接上了一些神經元。這些神經元就像人腦一樣,不只能進行單向的查詢,更能夠雙向的偵錯與記憶。

用個貼近的例子來理解看看,我們小時候學到了「狗」這個詞彙與概念,之後週末回阿公家學到了「告(台語的狗)」這個全新語言的詞彙。在我們小小腦海中,會自動將兩者聯結起來,當我們聽到「告」,會自動出現「狗」這個概念。過了不久我們上了小學,新學到了「dog」,同樣的我們腦中出現的是「狗」這個概念。這代表我們只要學一次「狗」,我們後續所學的第二、第三外語,甚至圖像,都可以一再喚醒腦中「狗」的概念。

我們的問題在於記不住第二、第三外語,而不是忘記「狗」這個概念。

現在把鏡頭轉到 Google 圖書館管理員,同樣的事情如果讓 舊有的 圖書館管理員來做,它會推導出以下的內容:「狗」=「告」而且「告」=「dog」,所以「狗」=「dog」。

不過現在,它嘗試這樣做:「狗」=「i420」、「告」=「i420」、「dog」=「i420」,只要提到「i420」,就能帶出「狗」這個概念。

*注意,現實情況並沒有這麼簡單,背後仍有十分複雜的運作。

好,讓我們踏入 Google 的思考領域

現在你可以嘗試理解下面這張圖,藍色的線為 Google 翻譯原本的做法,單字對單字、片語對片語。不過在經過訓練與記憶之後,大家可以共享這些資料,即使面對較少對應到的語言也可以順利翻譯。

首先我們進行「英文與韓文」的雙向訓練與「英文與日文」的雙向訓練。接著就算我們從未進行過「日文與韓文」的翻譯訓練,我們仍可靠著前面兩者訓練過後的中間神經元達到良好的訓練結果。

Google 將其稱為 Zero-Shot Translation,指的就是完成兩種語言的翻譯訓練後,第三種語言對應前兩種不需要再經過學習。

講這麼多,跟巴別塔有什麼關係?

上述 Zero-shot 的成功與第二段圖書館管理員的概念,引申出了一個重要的問題,我們有可能打造一種「世界通用語」嗎?

世界上的語言被驗證出許多共通點,像是許多語言共同擁有如「p、c、k、t」與「s、f」類似的發音。如果 Google 的神經網路可以參透全世界的語言,或者是世界上流行的大部分語言,是否有可能製作出全世界都通用的「通用語」呢?

如上述所說的,我們就以「i420」當作「狗」名稱,全世界看到「i420」都知道是「狗」。就目前來說似乎還沒有到達這個地步,因為 Google 的神經元並不是真正「創造」一種新的語言,更像是在每個單字上添加了只有自己能看懂的「標籤」。

想要造訪上帝之家?我們還有很長一段路要走。

參考資料來源》
freeCodeCamp: The mind-blowing AI announcement from Google that you probably missed.
Google Research Blog: Zero-Shot Translation with Google’s Multilingual Neural Machine Translation System

 圖片來源: 萌娘百科 、火鳳燎原

——

延伸閱讀

研究生的大福音,終於有幫助寫論文的人工智慧出現啦!
你還以為 Prisma 只是個濾鏡 App?其實「AI 人工智慧」才是它的本體

點關鍵字看更多相關文章: