無論使用者是登入自美國、巴西還是法國,Facebook 都可以透過自動機器翻譯將使用者平台上可見的幾乎所有文字內容翻譯成本地語言。然而,這些翻譯通常是用英語作為中介語言再翻議成用戶本地語言,這導致翻譯結果常常出現詞不達意、詞彙誤用的窘境。

實際上,光是 Facebook 的動態消息(News Feed)每天就要翻上約 200 億筆。經由英語中介的過程是什麼意思呢?就是假設今天有一篇中文文章要翻譯成德文,系統必須先將文本翻成英文再翻成德文。

(例)翻譯過程:中文→英文→德文;法文→英文→印尼文

必須這樣做的原因是相比其他語言,英語本身的翻譯資料集(data sets)非常龐大且廣泛可用,但是在經過中介後,不僅會增加翻譯誤差的風險,也降低了整體翻譯的準確性。同時,這也讓整個翻譯過程變得比原來更加複雜且繁瑣。

這也就成為 Facebook AI 開發新的機器翻譯模型的最大原因,中心研究助理 Angela Fan 在《Engadget》的採訪中表示:「在過去,人們多是找人工翻譯來創建翻譯數據資料庫,但這樣的做法難以擴張規模。因為光是要找到同時會說英語和坦米爾語的人就已經難如登天,更何況是要找到同時會法語和坦米爾語的人。」

翻譯結果更準確,但各語言資料量落差大

新的機器翻譯模型可以在不使用英語的情況下,直接在兩種語言之間進行雙向翻譯,翻譯結果在 BLEU 指標(Bilingual Evaluation Understudy,為了評估機器翻譯而開發的指標)表現上也比以英語作為中介的模型來得好。

Facebook AI 所開發的這款模型是否能成為未來的數位 Babel Fish(出自英國科幻小說《銀河便車指南》,是一種能翻譯任何語言的超強物種),得端看 AI 可利用的資源量。對於較多人使用的語言諸如中文、西文等可能不成問題,但全球數千多種語言能否每種都蒐集到足量文本數據才是最大問題。

Facebook 目前正在將資料集、模型訓練所需資料改為開放原始碼,好幫助這項技術能有更進一步發展,也持續開發系統中,希望有朝一日能將該技術應用於日常營運中。

參考資料

Engadget

(本文提供合作夥伴轉載;首圖來源:Unsplash,CC Licensed。)

延伸閱讀