【性能超越 Google 翻譯】從全球首個翻譯引擎進化而來,DeepL 連文言文都能輕鬆翻譯!

首圖來源:DeepL 翻譯頁面

【為什麼我們要挑選這篇文章】DeepL Translator 是由新創 DeepL GmbH 推出的免費線上翻譯工具,近日新增了日文、中文的翻譯功能,而中國科技媒體《大數據文摘》使用方言、文言文、學術論文等三種語言情境,對 DeepL、Google 翻譯、百度翻譯等翻譯工具測試,發現 DeepL 完勝其他系統。

DeepL 演算法有什麼秘密?(責任編輯:郭家宏)

最近,一款線上機器翻譯軟體在日本大紅。

這款翻譯軟體名叫 DeepL,大紅的原因正是因為它工作太負責了,翻譯得太過準確,在日本引起了熱議。

從日本網友的民間測評來看,不僅日語方言翻譯效果超好,連文言文也辦得到,要知道,這可是連 Google 翻譯都無法做到的事。

但是有多精確呢?作為一個嚴謹的科技軟體,當然還是要用數據來說話,DeepL 官方也公開了日英互譯和中英互譯的盲測結果,如下圖所示,可以看出,DeepL 簡直就是神級的存在嘛:

盲測就是在專業譯員評審們不知道哪個翻譯版本是由哪個網站翻譯的情況下,對翻譯文本進行評估,這也一直是 DeepL 的測試方式之一。

DeepL 由於極好的準確性,也同樣引爆了 Reddit,有網友指出,DeepL 不是像 Google 翻譯那樣從字詞上進行翻譯,從 Textractor 的設置上可以看到,DeepL 還支持用以前的翻譯作為上下文對翻譯結果進行改善。

也有不少網友直呼「DeepL 超神」!

3 年前,DeepL 剛出現在大眾視野的時候就已經吸引到了不少目光,DeepL 首席執行官 Gereon Frahling 曾表示,DeepL 的目標不止於翻譯任務,神經網絡將從理解文本開始,開啟更多可能。

至於更多可能是如何被開發出來的,文摘菌(本文作者)做了一次小小的測評,然後再一起來圍觀 DeepL 的發家史,小板凳已經放好,歡迎就坐!

DeepL 在方言、文言文、學術論文等領域都有優秀的翻譯表現

不管是民間測評還是 DeepL 官方的盲測結果,都暗示著 DeepL 可能是目前準確率最高的機器翻譯,到底成色怎樣,還是要親自動手試試才知道。

既然本次更新也包含了簡體中文,抱著一點點的懷疑和一點點的好奇,文摘菌也對 DeepL 進行了一次簡單的測評,和目前主流的 Google 翻譯、微軟翻譯、百度翻譯、有道翻譯進行了比較。

本次測評分為三輪,第一輪方言,第二輪文言文,第三輪學術論文。好,現在我們有請五位選手入場。

第一輪,我們來看看方言。

大家都知道,中國方言文化博大精深,要是不能正確譯出方言,那這個準確率還是要打上問號的。

我們選擇了東北話十級題目:「我嘞個去,你長得也太磕磣了」。本題有兩個得分點,一個是「我嘞個去」,一個是「磕磣」。讓我們來看看五位選手的表現。

在第一個得分點上,Google 翻譯成了「I’ll go there」,微軟和百度認為這是「I’ll go」的意思,有道則給出「I don’t know」的答案,DeepL 表現很好,正確翻譯成了帶有驚訝語氣「oh my god」。

在第二個得分點上,五位選手都給出了不同的答案,谷歌「shy」、微軟「snobful」、百度「shabby」、有道「bad」,DeepL「ugly」。

從得分點上看,百度在第二題表現尚可,有道…勉強過關吧,谷歌和微軟則全軍覆沒。我們來欣賞一下 DeepL 的滿分試卷:

這才第一題,不要擔心,還有翻身的機會。接下來我們來看看文言文,既然 DeepL 都能翻譯古日文,要是不能翻譯古漢語可就不對了。

第二輪,文言文。

文言文部分我們以著名唐代詩人張九齡《望月遠懷》中的名句「海上生明月,天涯共此時」為考題,這句詩的意思是,在遼闊無邊的大海上升起一輪明月,使人想起了遠在天涯海角的親友,他此時此刻也該是望著同一輪明月吧。

本題的得分點是看看各位選手能否用英文把整句詩的意境表達出來。好了,中文版的標準答案已經公佈,那麼五位選手的表現如何呢?

首先從句意上看,Google、微軟和百度都直接放棄了後半句的翻譯,有道把後半句譯成「Tianya at this time」;在前半句的翻譯上,微軟和百度都用到了 born 這個詞,但是微軟的譯文是「The sea is born」

我們來看看 DeepL,前半句和 Google 的答案一模一樣,但是後半句的翻譯是不是達到了信達雅的水準?文摘菌不知道,但是讀上去感覺非常舒服,大家也來看看:

第三題,也是最後一道壓軸題,我們要考察的是各位選手對學術論文的中英互譯。

學術論文的關鍵除了語句通順外,還需要在專業詞彙上做到準確,這也是本次考察的重點。

中譯英部分,我們選擇的是去年刊登在《國際新聞界》上的一篇文章,研究者調查的是社群媒體信任對隱私風險感知和自我表露的影響。

原文:實證結果顯示:1. 隱私風險感知與自我表露並無顯著相關性;2. 社群媒體信任負向影響用戶的隱私風險感知,網絡人際信任在其中發揮中介作用;3. 社群媒體信任正向影響用戶的自我表露,網絡人際信任在其中發揮中介作用。

從翻譯結果上看,五位選手給出的答案都比較讓人滿意,句型和語法也都沒有問題,只是在一些具體的用詞上各有千秋。比如「自我表露」,DeepL 和微軟用的是「self-expression」,其餘三位選手用的是「self-disclosure」;而「網絡人際信任」,有道、百度和微軟譯成「network interpersonal trust」,Google 給出「online interpersonal trust」的答案,DeepL 則譯為「cyber-interpersonal trust」。

照例,我們還是來看看 DeepL 的答案。

在英譯中部分,我們選擇了上週文摘菌報導的帝國理工大學論文的導論部分。在用戶體驗上文摘菌要插播一下,從中譯英切換到英譯中的時候,只有百度、有道和 DeepL 做到了自動識別,Google 和微軟仍需要手動選擇語言。

原文:The global impact of COVID-19 has been profound, and the public health threat it represents is the most serious seen in a respiratory virus since the 1918 H1N1 influenza pandemic. Here we present the results of epidemiological modelling which has informed policymaking in the UK and other countries in recent weeks. In the absence of a COVID-19 vaccine, we assess the potential role of a number of public health measures – so-called non-pharmaceutical interventions (NPIs) – aimed at reducing contact rates in the population and thereby reducing transmission of the virus. In the results presented here, we apply a previously published microsimulation model to two countries: the UK (Great Britain specifically) and the US. We conclude that the effectiveness of any one intervention in isolation is likely to be limited, requiring multiple interventions to be combined to have a substantial impact on transmission.

從結果上看,五位選手的學術造詣都比較高,學術語言使用的規範性也都相差不大。但是,細節見真知,只有有道保留了雙破折號的使用,但這在中文中其實並不常見;除有道外,其他三位選手在「非藥物干預措施(NPI)」的表達上都沒有做到盡善盡美。

仍然,笑到最後的還是 DeepL,雖然還存在各種小問題,無法得到滿分,但也是一張妥妥的高分試卷了:

以上就是本次測評全部的考題了,可以看出 DeepL 不愧是頭號種子選手,不管是方言、文言文還是學術話語,都有不錯的表現,看來 DeepL 官方還是很誠實的嘛。

DeepL 從全球首個翻譯引擎 Linguee 進化,得到機器學習的「加持」

見識到了 DeepL 的「獨秀」表現,接下來,我們就重點介紹一下本次測評表現最佳的頭號種子 DeepL。

不知道 DeepL?那 Linguee 應該聽說過吧,就是那個營運十多年的線上外語字典,DeepL 的前身正是 Linguee。Linguee 是一款出現多年的翻譯工具,儘管使用廣泛,也有一批忠實用戶,但其翻譯品質尚無法與 Google 翻譯相提並論,尤其是考慮到後者品牌和地位的巨大優勢。

但真正重要的是 Linguee 的技術累積,Linguee 的聯合創始人 Gereon Frahling 之前就在 Google 研究院工作,2007 年,他選擇開啟新的征程,團隊數年來一直致力於機器翻譯,直到 2016 年,他們才開始全力開發全新的系統,建設新公司,也就是 DeepL。

Linguee 的核心競爭優勢就是爬蟲和機器學習系統,前者能夠抓取網路上超過 10 億句翻譯結果和查詢的大型數據庫,後者在網頁上搜尋相似片段的真實翻譯方法並對其評估,兩者結合使 Linguee 成為了當時「世界上首個翻譯搜尋引擎」。

十年累積下來,Linguee 無論在數據和對演算法的研究上都不可小覷,而這也直接成為 DeepL 的絶對優勢,為團隊訓練新模型打好了堅實的基礎。

DeepL 變革性的神經架構在冰島的一台超級電腦上運行,該電腦能力為 5.1 petaFLOPS(每秒 5100 兆次操作),不到一秒內能翻譯 100 萬單字。「冰島可再生能源豐富,因此我們可以在這裡用非常低廉的成本訓練我們的神經網絡。我們將繼續專注於高性能硬體」,DeepL 的 CTO Jaroslaw Kutylowski 說。

「我們的神經網絡架構已經實現了多個顯著改善」,Gereon Frahling 表示,「透過用不同的方式安排神經元及其連接,我們的網絡比目前其他神經網絡更全面地映射自然語言。」

大學、研究機構和 Linguee 的競爭對手發佈的研究進展表明,卷積神經網絡才是機器翻譯的正確道路,而非 DeepL 之前使用的循環神經網絡,但現在不是探討二者區別的時候,對於相關詞語的長、複雜字元串,只要你能夠控制其弱點,卷積神經網絡效果會更好。

例如,CNN 一次處理一個單字,當句末單字決定句首單字的形成時,這就成了問題。尋找整個句子尋找句首單字,如果網絡獲取到的第一個單字是錯誤的,就太浪費了,還得使用該知識重新開始,因此 DeepL 和機器學習領域的其他機構在 CNN 轉向下一個單字或詞組時,使用能夠監控此類潛在問題的「注意力機制」來解決。

DeepL 在最新版本增加了對日語和中文(簡體)的支持,包括日語漢字,平假名和片假名以及數千個漢字。目前,DeepL 支持的語言數量增加到 11 種,雖然語言支持不如其他翻譯服務廣泛,如 Google Translate 和 Bing Microsoft Translator 均支持一百多種不同的語言,但翻譯精度也是不可忽視的關鍵點。

掌握多國語言的 TechCrunch 編輯 Frederic 曾這麼評價 DeepL:「Google 翻譯的風格非常直接,但卻錯過了一些細節和習慣用語(或者把這些習慣用語翻譯錯了),而 DeepL 經常可以提供更加自然的翻譯效果,就像訓練有素的人類翻譯一樣。」

說了這麼多,還是那句話,真真假假還是自己試了才知道,有興趣的同學可以親自動手試試,要是遇到什麼好玩的翻譯結果還記得告訴文摘菌喔!

最後,官網連結 雙手奉上

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈硬核测评,谷歌翻译被碾压!全球首个翻译引擎进化归来,“细节狂魔”搞定方言文言文 〉。首圖來源:DeepL 翻譯頁面

更多語言相關資訊

Google 翻譯推出「即時轉錄」功能,能將會議語音即時翻譯成另一種語言
Python 弱掉了!中國工程師開發「文言文程式語言」,讓你的 coding 充滿文學情懷
維基百科產量最高的作者是機器人,它把「宿霧語」變成維基百科的第二大語言

點關鍵字看更多相關文章: