【為什麼我們挑選這篇文章】Google 翻譯相信大家都不陌生,最近他們更是導入「類神經機器系統」,讓語句的翻譯更口語,精準度也不斷提升,但哪種翻譯最好用、能讓人一看就懂?
你覺得翻譯系統之間進行一場比賽,最後誰會獲勝?(責任編輯:張瑋倫)
前段時間,一則新聞幾乎刷遍了整個網路。Google 新發布了神經機器翻譯(GNMT:Google Neural Machine Translation)系統,並稱該系統使用了當前最先進的訓練技術,能夠實現到當下機器翻譯質量上最大的提升。
有從事翻譯職業的網友甚至這樣形容:
作為翻譯看到這個新聞的時候,我理解了18世紀紡織工人看到蒸汽機時的憂慮與恐懼。
這種看法未免有點杞人憂天。尤其是在業內專家看來,機器翻譯的效果還遠未達到取代人類專家翻譯的水平。實際上,谷歌此次應用的技術並非最新的「黑科技」(black technology)。
早在2015年百度就已經發布了基於深度神經網路的端到端翻譯系統,微軟的必應翻譯也同樣使用神經網路技術來改善自身的翻譯質量。
與傳統的基於短語的翻譯(PBMT)相比,基於神經網路的翻譯系統對整個輸入句子進行編碼,能夠更充分的利用上下文訊息,生成較高質量的譯文。
最近大家熱議的 Google 神經機器翻譯目前只是在應用在中譯英中,所以以下測試都是在中譯英部分下進行。分別從幾個角度來參看百度、Google、必應等幾個翻譯軟體的實際使用效果如何:
複雜語句翻譯
- 定語從句(用一個句子修飾一個名詞短語):
我沒有可以跟你說的事情。
從上至下依次為 Google 翻譯、百度翻譯、必應翻譯
- 多個修飾形容詞
從上至下依次為 Google 翻譯、百度翻譯、必應翻譯
- 長短句翻譯
從上至下依次為 Google 翻譯、百度翻譯、必應翻譯
- 俚語翻譯
從左至右依次為 Google 翻譯、百度翻譯、必應翻譯
可以看到,在定語從句部分 Google 與百度的翻譯結果相差無幾,語句通順連貫,兩者比較的話 Google 翻譯的結果更為接近標準答案一些。另一方面,必應翻譯的結果則與本意有所出入。
在多個形容詞部分,三者翻譯出了大概意思,但是遇到黃老闆以及黃山這類在名詞與形容詞中易混淆的部分時,似乎百度翻譯要更為準確一點。
在長短句部分,Google 翻譯與必應翻譯都出現了同時翻譯兩次時態及動詞「have seen」的情況,雖然百度翻譯並未出現這種情形,但是其在兩個名詞之間並未翻出連接詞「and」,對語句理解有一點影響。
涉及到俚語翻譯部分時,Google 翻譯幾乎完全是根據詞組翻譯出了字面的意思,而必應則出現了奇怪的省略情況,語義並不連貫。相較之下,百度翻譯將原句引申含義也翻譯了出來,並保持了語句連貫與準確度。
口語化表達翻譯
- 修飾詞,如:的、了、好
- 省略與重複疊加短語句子
在口語化翻譯部分中,涉及到修飾詞部分,Google 與百度翻譯大同小異,必應翻譯與本意出入較大。
但是在重複疊加短語部分,從主觀上來看百度翻譯將「冒著」翻譯為「Take」,相比 Google 與必應的「Brave」,其在語義通暢易讀以及連貫度上表現要更好一些。
段落整體翻譯
- 短段落
- 長段落
在段落整體翻譯部分中,三者對於段落基本語義都翻譯出來了。其中 Google 翻譯在某些連接詞的翻譯上更為簡潔一些,而百度與必應則會在某些位置增加一些連接詞彙。
但是在涉及到長短句、語氣詞、多重修飾詞部分,三者在某些地方都表現一般。
例如:「父親是一個胖子,走過去自然要費事些。」
Google 譯為:「Father is a fat man, go over the natural to be more trouble. 」
百度譯為;「My father was a man, go to some trouble.」
必應則譯為:「 Father is a fat man, walk naturally want to bother about.」
三者從連貫性來看都不算太好,但是從語義上來看 Google 翻譯更為優秀一些。
再如:「於是撲撲衣上的泥土,心裡很輕鬆似的,過一會說,「我走了,到那邊來信!」
Google 譯為:「So flutter clothes on the soil, and my heart is very easy to like, after a while that, “I go; to the other side of the letter!”」
百度譯為:「Then suddenly the dirt on the clothes, he looked somewhat relieved and said after a while, “I will go over there; letter!”」
必應則譯為:「 Poop clothing and boots, felt very relaxed, one would say,”I’m leaving; to write! “」
此處三者的翻譯都不太好,從對應詞組的翻譯來看,必應翻譯的效果要好一些,但在缺少主語的情況下翻譯成「One」並不正確。
Google 翻譯直接理解將整個句子中的主體都默認是一個人,百度翻譯準確識別出了講話的是父親,即「He」,但其在從句部分結構有錯誤。
特色功能對比
- 離線翻譯
在離線翻譯部分,從測試的語句來看,Google 翻譯的效果勉強能看懂,百度需要先購買離線包才能進行翻譯,必應則不提供離線翻譯功能。
- 圖片翻譯
圖像翻譯部分使用雷鋒網今日頭條的頁面
從左至右依次為 Google 翻譯、百度翻譯、必應翻譯
其中谷歌翻譯可以做到手機放在圖片前面,不做任何操作開始實時翻譯。按拍照按鈕後,塗抹想翻譯的部分,然後翻譯出相應的結果。
相比谷歌翻譯,百度沒有放在圖片前面不做任何操作開始實時翻譯的功能。不過百度翻譯在按拍照按鈕後,也能塗抹想翻譯的部分翻譯出相應的結果。但百度翻譯的個性化功能最全,有四大類,且自定義功能最完善。
實物翻譯
長句翻譯
菜單翻譯
單詞翻譯
另外,百度翻譯提供的實物翻譯與菜單翻譯功能在某些場合也能派上用場。
必應翻譯只能先拍照再進行翻譯,也無自定義功能選項。
- 語音翻譯
在語音翻譯部分,正確的句子是:你好,我想打死李某。Google 和百度的翻譯效果差不多類似,必應則不提供語音翻譯功能。
此外,Google翻譯提供多種語言的語音輸入功能,百度目前只提供中文、英文、粵語(Google翻譯中並未提供)語音輸入功能。兩者的語言識別輸入功能也都十分不錯,準確率很高且語句通順連貫。並且兩者都能以對話模式呈現,相信在商務或者旅行過程中會帶來不少便利。
從上至下依次為 Google 翻譯、百度翻譯
總結
從上面的各項對比中可以看到,採用了神經機器系統的翻譯相比之前基於短語的翻譯確實要進步了許多。再也不是之前那種讀起來總感覺哪裡不對的感覺,甚至有些翻譯結果已經到了稍加修改勉強能用的地步。
但是具體到使用過程中,比如需要對複雜語句以及口語化表達進行翻譯時,大部分時候 Google 翻譯與百度翻譯的表現相對優秀一些。不僅在流暢度、語義保持上效果相對優秀,而且在句子錯誤率以及單詞錯誤率上也要相對少一些。
另外,在圖片翻譯部分,Google 翻譯能做到實時翻譯的效果,且準確度不錯。百度翻譯雖然沒有實時翻譯的功能,但是其自定義功能最完善,且能選擇四大類個性化功能,針對性更強。
綜上所述,添加了神經網路的機器翻譯相較於往日的確不可同日而語了。在某些方面已經隱隱約約接近人類翻譯的水準,所以和翻譯相關的人員會擔心也不算誇張。
不過對於普通人而言,在有相關翻譯需求時,綜合詞語、段落準確率以及語義流暢度來看,百度翻譯目前是一個不錯的選擇。
(本文經合作夥伴雷鋒網授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為〈號稱要砸翻譯飯碗,神經機器翻譯哪家強?〉。首圖來源:hans s , CC Licensed,未經授權請勿轉載)
延伸閱讀
不用學英文了?Google 翻譯導入類神經機器學習,Google 小姐變聰明啦!
Google 翻譯還無法掌握的七種語言,為什麼克林貢語跟魔戒精靈語也要算在內啊?
Google 提供圖文辨識翻譯功能,出國不怕看不懂指標了
為旗下所有軟體裝上「眼睛」,Google買了法國最猛圖像識別技術公司