
【為什麼我們挑選這篇新聞】微軟成功在機器翻譯上「中翻英」上取得佳績,從常見新聞報導中取得上千個句子做為測試,近年照著人類學習模式及深度神經網路突破瓶頸,機器翻譯達到了第一個里程碑。(責任編輯:鄧天心)
微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊今( 15 )日宣佈,其研發的翻譯系統在新聞報導測試,約 2000 個句子,由專業人員從線上報紙樣本翻譯而來的「中翻英」,第一次翻譯品質和準確率達到了可與人工翻譯媲美的水準。
機器翻譯是攻堅了數十年的研究領域,曾經很多人都認為機器翻譯根本不可能達到人類翻譯的水準。
機器翻譯突破的關鍵—深度神經網路
此次的目標,微軟機器翻譯團隊研究經理 Arul Menezes 表示「擁有較多的訓練資料,且測試包含常見的大眾類新聞詞彙時,那麼在人工智慧技術的加持下,機器翻譯系統的表現可以與人類媲美。」。雖然此次突破意義非凡,但研究人員也提醒大家,這並不代表人類已經完全解決了機器翻譯的問題,只能說明我們離終極目標又更近了一步。
「我們不知道哪一天機器翻譯系統才能在翻譯任何語言、任何類型的文本時,都能在『信、達、雅』等多個維度上達到專業翻譯人員的水準。」微軟亞洲研究院院副院長劉鐵岩表示。
學術界和產業界致力於機器翻譯研究多年,但近兩年深度神經網路的使用,讓機器翻譯的表現取得了很多實質性突破。
語言的複雜性如同藝術,沒有標準答案
「即使是兩位專業的翻譯人員對於完全相同的句子也會有略微不同的翻譯。」複雜性讓機器翻譯成為一個極有挑戰性的問題,但也是一個極有意義的問題。
表達同一個句子的「正確的」方法不止一種,為了確保翻譯準確且達到人類的水準,微軟邀請了雙語語言顧問,將微軟的翻譯結果與兩個獨立的人工翻譯結果進行了比較評估。
周明表示:「這也是為什麼機器翻譯比純粹的模式識別任務複雜得多,人們可能用不同的詞語來表達完全相同的意思,但未必能準確判斷哪一個比較好。」
TO編按:
模式識別任務:對於語音辨識等其它人工智慧任務來說,判斷系統的表現是否可與人類媲美相當簡單,因為理想結果對人和機器來說完全相同,研究人員也將這種任務稱為模式識別任務。
「由於翻譯沒有唯一的標準答案,它更像是一種藝術,因此需要更加複雜的演算法和系統去應對。」周明帶領的自然語言計算組多年來一直致力於攻克機器翻譯。基於之前的研究積累,此次增加了另外兩項新技術:聯合訓練(Joint Training)和一致性規範(Agreement Regularization),以提高翻譯的準確性。
這兩項新技術怎麼解決複雜的語言系統:
聯合訓練(Joint Training)可以理解為用反覆運算的方式去改進翻譯系統,用中英翻譯的句子對去補充反向翻譯系統的訓練資料集,同樣的過程也可以反向進行。
一致性(Agreement Regularization)規範則讓翻譯可以從左到右進行,也可以從右到左進行,最終讓兩個過程生成一致的翻譯結果。
擬照人類學習模式,讓 AI 講聽得懂的人話
其中,微軟亞洲研究院機器學習組將他們的最新研究成果 – 對偶學習(Dual Learning)和推敲網路(Deliberation Networks)「這兩個技術的研究靈感其實都來自於我們人類的做事方式。」院副院長劉鐵岩表示,是機器翻譯取得突破的關鍵。
把人類的學習觀念放進機器裡:
對偶學習(Dual Learning):效果就好像是通過自動校對來進行學習 – 當我們把訓練集中的一個中文句子翻譯成英文之後,系統會將相應的英文結果再翻譯回中文,並與原始的中文句子進行比對,進而從這個比對結果中學習有用的回饋資訊,對機器翻譯模型進行修正。
推敲網路(Deliberation Networks):類似於人們寫文章時不斷推敲、修改的過程。通過多輪翻譯,不斷地檢查、改善翻譯結果,從而使翻譯的品質大幅提升。推敲網路具有兩段解碼器,其中第一階段解碼器用於解碼生成原始序列,第二階段解碼器通過推敲的過程潤色原始語句,基於第一階段生成的語句,產生更好的翻譯結果。
「在機器翻譯方面達到與人類相同的水準是所有人的夢想,我們沒有想到這麼快就能實現。」微軟技術院士的黃學東表示,「消除語言障礙,值得我們多年來為此付出的努力。」
(圖片來源:左為微軟亞洲研究院副院長、機器學習組負責人 劉鐵岩,右為微軟亞洲研究院副院長、自然語言計算組負責人 周明)
台灣之光:
(本文訊息由 台灣微軟 提供,內文與標題經 TechOrange 修訂後刊登。新聞稿 / 產品訊息提供,可寄至:[email protected],經編輯檯審核並評估合宜性後再行刊登。本文提供合作夥伴轉載。)