Google 翻譯原理大揭秘!兩張圖就搞懂 Google 翻譯為何不會搞混字義?

Photo credit: Robert Scoble via Visualhunt.com / CC BY

【我們為什麼挑選這篇文章】DeepL 是來自德國的翻譯,目前剛剛上線。創辦人先前在 Google 擔任翻譯研究員,後來自己出來開公司,  稱實現了 NMT 技術的新突破,打造出「世界上最精確、語言組織最自然的機器翻譯系統」。厲害的是,DeepL 的翻譯已經能夠支援英、德、法、西等 42 門歐洲語言,目前正在訓練其系統學習漢、日、俄等語言,而且還計劃將來發表一款 API,讓開發者能將 DeepL 翻譯整合入其應用。

 Google 最新的翻譯算法非常有趣,但是這技術卻完全不被 DeepL 放在眼裡?(責任編輯:劉庭瑋)

I arrived at the bank after crossing the street.
I arrived at the bank after crossing the river.
拿到這兩句話,你會怎麼翻譯呢?你覺得機器翻譯又會怎麼處理呢?

機器翻譯的缺點

機器翻譯雖然是一大利器,但也有一些缺點,比如說:按照「一個字一個字」順序翻譯的機器翻譯模型往往會導致嚴重錯誤發生。

谷歌在其研究日誌(Research blog)中發表了一篇趣味十足的文章,詳細分析了這個問題並給出解決方案。

谷歌自然語言處理部門的 Jakob Uszkoreit 用以下兩句話闡釋了這個問題:

I arrived at the bank after crossing the street. 過了這條街,就到銀行了
I arrived at the bank after crossing the river. 過了這條河,就到對岸了。
(譯者加註:「bank」為多義詞,兼有「銀行」和「河岸」之意。)

顯而易見,「bank」一詞在兩句話中含義截然不同,但是後台算法很容易處理錯-因為不讀完整個句子就無法判定句中「bank」的確切含義。類似這種多義詞的現像比比皆是。

如果讓我去翻譯這句話,我一眼就能看出這兩句話中「bank」的區別,但這對翻譯系統來說就沒那麼簡單了。如果修改神經網絡,使其翻譯完一句話後再檢查是否有誤,有問題的話就再重來一遍,就未免效率太低。

解決方法

為此,Google 提出了在轉換器(Transformer)中建立關注機制(attention mechanism)作為解決方案。

該機制會將單詞逐一與句中其他單詞進行比對,並檢查是否會影響其他詞的詞義 ,比如,檢查說話人是「他」還是「她」,或者像「bank」這樣的多義詞在句中的確切含義。

在構建譯文的過程中,關注機制會把句子中的每個單詞與所有其他單詞逐一比對。下圖在一定程度上說明了這個比對過程的工作機制。

有意思的是,Google 的方法也讓我們有機會一窺其系統的內部邏輯: 因為轉換器(Transformer)會為每個單詞與其他詞的關係按對逐一打分 ,所以你可以看到 它認為哪些詞是相關的,或至少可能相關的

(譯者註:以上兩句話的意思分別是:

那隻動物沒有穿過街道因為它太累了。
那隻動物沒有穿過街道因為它太寬了。
「it」這個單詞在兩句話裡面分別指代「動物」和「街道」。)

酷吧?我覺得超酷啊。這是另一種多義詞的情形:「it」既可能指代街道或也可能指代動物,而只有讀到最後一個單詞(「累」或者「寬」)才能明白到底指代的是什麼。我們人類自動就能分辨,而機器仍需練習。看起來 Google 的這一系統已經學得相當好了。

最後,如果你覺得「關注機制」這個詞眼熟,那你之前一定已經讀過了 Techcrunch 對 DeepL 的報導。

DeepL 是一家機器翻譯的初創公司。在報導中公司聯合創始人表示他們致力於關注機制,甚至表示 Google 的日誌是基於《關注就是一切》(Attention Is All You Need)這篇文章的,Google 作了一定的修改。

然而,這位聯合創始人還認為他們公司的辦法非常有效—— 甚至比谷歌的還好用。

如果你想進一步了解「關注機制」,不妨閱讀 DeepL 發表的論文 Attention Is All You Need(https://arxiv.org/abs/1706.03762)。

(本文經合作夥伴 大數據文摘    授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈 谷歌翻譯最新突破,“關注機制”讓機器讀懂詞與詞的聯繫 〉。)

延伸閱讀

其實我們都被綁架了!Google 前核心設計師力譴:YouTube、臉書毫無道德得讓我們成癮
Google AI 技巧全公開!不只開源語音數據資料庫,連模型建立秘訣都教你
讓 Google 一年損失 30 億台幣的神秘按鈕!搜尋首頁那個「好手氣」按鈕到底是啥
全球 AI 晶片爭霸戰來了!Nvidia、Intel、Google、IBM、微軟 AI 晶片特色一次報你知


科技報橘 LinkedIn 上線!

最新科技產業動態、技術新突破、專業職能技巧提升 ....... 鎖定 TO  LinkedIn 專業品牌,提升職能與產業 Know-how,躋身產業菁英之列 https://www.linkedin.com/showcase/techorange

點關鍵字看更多相關文章: