fychangecolor

【我們為什麼挑選這篇文章】我自己是所謂的 90 後,同時身處於早期沒有網路的時代,並見證了光速進步的科技。而 Google 翻譯從一開始只拿來做單字翻譯,到可以小句小句翻,現在,Google 讓它更進一步地進化。很快的,說不定就不用學英文了。

(責任編輯:Matthew Chen)

昨日,Google 在 ArXiv.org 上發表論文《Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》介紹 Google 的神經機器翻譯系統(GNMT),當日機器之心就對該論文進行了摘要翻譯並推薦到網站(www.jiqizhixin.com)上。今日,Google Research Blog 發布文章對該研究進行了介紹,還宣布將 GNMT 投入到了非常困難的漢語-英語語言對的翻譯生產中,引起了業內的極大的關注。

十年:Google 翻譯也進步了不少

十年前,我們發布了 Google Translate(Google 翻譯),這項服務背後的核心算法是基於短語的機器翻譯(PBMT: Phrase-Based Machine Translation)。自那時起,機器智能的快速發展已經給我們的語音識別和圖像識別能力帶來了巨大的提升,但改進機器翻譯仍然是一個高難度的目標。

今天,我們宣布發布 Google 神經機器翻譯(GNMT:Google Neural Machine Translation)系統,該系統使用了當前最先進的訓練技術,能夠實現到目前為止機器翻譯質量的最大提升。我們的全部研究結果詳情請參閱我們的論文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》。

幾年之前,我們開始使用循環神經網絡(RNN:Recurrent Neural Networks)來直接學習一個輸入序列(如一種語言的一個句子)到一個輸出序列(另一種語言的同一個句子)的映射。其中基於短語的機器學習(PBMT)將輸入句子分解成詞和短語,然後很大程度上對它們進行獨立地翻譯,而神經機器翻譯(NMT)則將整個輸入句子視作翻譯的基本單元。這種方法的優點是:相比於之前的基於短語的翻譯系統,這種方法所需的工程設計更少。當其首次被提出時,NMT 在中等規模的公共基準數據集上就達到了可與基於短語的翻譯系統媲美的準確度。

自那以後,研究者已經提出了很多改進 NMT 的技術,其中包括模擬外部對準模型(external alignment model)來處理罕見詞,使用注意(attention)來對準輸入詞和輸出詞以及將詞分解成更小的單元以應對罕見詞。儘管有這些進步,但 NMT 的速度和準確度還沒能達到成為 Google Translate 這樣的生產系統的要求。我們的新論文描述了我們怎樣克服了讓 NMT 在非常大型的數據集上工作的許多挑戰,以及我們如何打造了一個在速度和準確度上都已經足夠能為 Google 的用戶和服務帶來更好的翻譯的系統。

來自對比評估的數據,其中人類評估者對給定源句子的翻譯質量進行比較評分。得分範圍是 0 到 6,其中 0 表示「完全沒有意義的翻譯」,6 表示「完美的翻譯」。

article-cover

誤差降低了 50% 以上!

下面的可視化圖展示了 GNMT 將一個漢語句子翻譯成英語句子的過程。首先,該網絡將該漢語句子的詞編碼成一個向量列表,其中每個向量都表徵了到目前為止所有被讀取到的詞的含義(「編碼器(Encoder)」)。一旦讀取完整個句子,解碼器就開始工作——一次生成英語句子的一個詞(「解碼器(Decoder)」。為了在每一步都生成翻譯正確的詞,解碼器重點注意了與生成英語詞最相關的編碼的漢語向量的權重分佈(「注意(Attention)」,藍色鏈接的透明度表示解碼器對一個被編碼的詞的注意程度)。

article-cover-GIF

使用人類評估的並排比較作為一項標準,GNMT 系統得出的翻譯相比於之前的基於短語的生產系統實現了極大的提升。在雙語人類評估者的幫助下,我們在來自維基百科和新聞網站的樣本句子上測定發現:GNMT 在多個主要語言對的翻譯中將翻譯誤差降低了 55%-85% 以上。

art3

我們的系統產出一個翻譯案例,其輸入句子採樣自一個新聞網站。點擊這個地址可以看到更多隨機採樣自新聞網站和書籍的輸入句子翻譯樣本。

今天除了發布這份研究論文之外,我們還宣布將 GNMT 投入到了一個非常困難的語言對(漢語-英語)的翻譯的生產中。

現在,移動版和網頁版的 Google Translate 的漢英翻譯已經在 100% 使用 GNMT 機器翻譯了——每天大約 1800 萬條翻譯。GNMT 的生產部署是使用我們公開開放的機器學習工具套件 TensorFlow 和我們的張量處理單元(TPU:Tensor Processing Units),它們為部署這些強大的 GNMT 模型提供了足夠的計算算力,同時也滿足了 Google Translate 產品的嚴格的延遲要求。

漢語到英語的翻譯是 Google Translate 所支持的超過 10000 種語言對中的一種,在未來幾個月,我們還將繼續將我們的 GNMT 擴展到遠遠更多的語言對上。

機器翻譯還遠未得到完全解決。GNMT 仍然會做出一些人類翻譯者永遠不出做出的重大錯誤,例如漏詞和錯誤翻譯專有名詞或罕見術語,以及將句子單獨進行翻譯而不考慮其段落或頁面的上下文。為了給我們的用戶帶來更好的服務,我們還有更多的工作要做。

但是,GNMT 代表著一個重大的里程碑。我們希望與過去幾年在這個研究方向上有所貢獻的許多研究者和工程師一起慶祝它——不管是來自 Google 還是更廣泛的社區。

Google Brain 團隊和 Google Translate 團隊都參與了該項目。Nikhil Thorat 和Big Picture 也幫助了該項目的可視化工作。

(本文經合作夥伴虎嗅網授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為:《翻譯界的重大突破——谷歌翻譯整合神經網絡,翻譯質量接近人工筆譯》。)

——

延伸閱讀

Google 翻譯還無法掌握的七種語言,為什麼克林貢語跟魔戒精靈語也要算在內啊?Google Translate 都做不到的離線即時口譯,日本穿戴式翻譯機做到了