為何 Google 耳機能即時翻譯 40 國語言? Google Brain 讓演算法「自動更新」,提升翻譯準確度

【我們為什麼挑選這篇文章】  要如何讓神經網絡計算自動優化其計算方法,讓翻譯變得更加精確且快速?Google Brain 這次提出了一項研究,為權重更新生成數學形式的方程,而不是直接生成數值。 這項研究到底是怎麼做到的?Google Brain 釋出了完整研究論文,而這篇文章簡單扼要得講解了其重要概念。(責任編輯:劉庭瑋)

Google Brain 近期放出了一篇論文「Neural Optimizer Search with Reinforcement Learning」(強化學習的神經網絡優化器搜尋),用強化學習的方法為神經網絡(尤其是深度學習)找到最佳的優化算法/權重更新規則。論文並沒有重新製造輪子,但也取得了不錯的效果,而且也引起了一定的關注。論文內容簡介如下:

要成功訓練一個深度學習模型,選擇一個適當的優化方法是非常重要的。 雖然隨機梯度下降法(SGD)通常可以一上手就發揮出不錯的效果,不過 Adam 和 Adagrad 這樣更先進的方法可以運行得更快,尤其是在訓練非常深的網絡時。然而,為深度學習設計優化方法是一件非常困難的事情,因為優化問題的本質是非凸問題。

Google Brain 自動優化方案

在這篇論文中,Google Brain 的研究員們 討論了一種方案,它可以自動設計優化方法中的權重更新規則,尤其是對於深度學習架構 。這個方案的重點是使用了一個 RNN 結構的控制器,這個控制器可以給優化器生成權重更新方程。這個 RNN 結構的控制器是透過強化學習的方式訓練的,一個具體的網絡結構用它生成的更新規則進行同樣次數的訓練後,可以把模型準確率最大化。這個過程如下圖。

 

神經網絡優化器搜索的總體架構

訓練神經網絡很慢、很困難,之前有許多人設計了各種各樣的方法。近期的優化方法結合了隨機方法和批量方法的特點,比如用 mini-batch,跟 SGD 類似,但是實現了更多的啟發式方法來估計二階對角信息,就和無黑塞方法(Hessian- free)或者 L-BFGS 類似。這樣吸收了兩種方法優點的方案通常在實際問題中有更快的收斂速度,比如 Adam 就是一個深度學習中常用的優化器,實現了簡單的啟發式方法來估計梯度的均值和變化幅度,從而能夠在訓練中更加穩定地更新權重。

之前的許多權重更新規則都藉鑑了凸函數分析中的想法,雖然神經網絡中的優化問題是非凸的。近期通過非單調學習速率的啟發式方法得到的經驗結果表明,在神經網絡的訓練方面我們仍然知之甚少,還有許多非凸優化的方法可以用來改進訓練過程。

在現有機器學習算法中尋找最佳解法

Google Brain 的研究員們的研究目標是在人們已經熟悉的領域內為神經網絡訓練找到更好的更新規則。換句話說,他們沒打算靠自己重新建立一套全新的更新規則,而是 用機器學習算法在現有的更新規則中找到比較好用的。 最近也有研究人員提出類似的方法,用模型學習生成更新數值。

這裡的關鍵區別是,Google Brain 的這項研究是為權重更新生成數學形式的方程,而不是直接生成數值。 生成一個方程的主要好處是可以輕鬆地遷移到更大的任務中,而無需為新的優化問題額外訓練別的神經網絡。而且,雖然他們設計這個方法的目的不是為了優化更新規則的內存佔用的,不過還是能夠在得到與 Adam 或者 RMSProp 等同的更新規則的情況下佔用更少的內存。

論文重點整理

論文中的方法受到了近期用強化學習做模型探索的研究的啟發,尤其是在神經網絡結構搜索上,其中用了一個 RNN 生成神經網絡架構的設置文本。除了把這些關鍵思想用在不同的應用中,論文中的方法還展現出了一種全新的模式,把原有的輸入以靈活得多的方法組合起來,從而讓搜索新型的優化器變得可能。

控制器 RNN 的總體結構。控制器會迭代選擇長度為 5 的子序列。它首先選擇前兩個操作數和兩個一元函數來應用操作數,然後用一個二進制函數合併兩個一元函數的輸出。獲得的結果 b 就可以被下一輪子序列選中作為預測,或者成為更新規則。每次的預測都是由一個 softmax 分類器執行的,最後成為下一輪迭代的輸入。

結論

根據論文中的實驗結果,在用 CIFAR-10 訓練一個小型的捲積網絡中,他們的方法比 Adam、RMSProp、帶或者不帶 Momentum 的 SGD 找到了許多條更好的更新規則,而且這些生成的更新公式中很多都可以輕鬆地遷移到新的模型架構或者數據集中使用。比如,在小型捲積網絡訓練中發現的權重更新規則在 Wide ResNet 的訓練中取得了比 Adam、RMSProp、帶或者不帶 Momentum 的 SGD 更好的結果。

對於 ImageNet 數據集,他們新找到的更新規則在目前最先進的移動設備級別模型的 top-1 和 top-5 正確率基礎上繼續提升了最高 0.4%。 同樣的更新規則在 Google 的神經機器翻譯系統上也取得了不錯的成果,在 WMT 2014 英文到德文的翻譯任務中最高能帶來 0.7BLEU 的提升。

(本文經合作夥伴  雷鋒網    授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈 效果超過 SGD 和 Adam,谷歌大腦的「神經網絡優化器搜索」自動找到更好的訓練優化器 〉。)

延伸閱讀

【遊戲工程師要失業了?】人工智慧只「看」2 分鐘超級瑪莉歐,就能完美複製它
IBM 牽手 MIT 發展人工智慧:雙強合作投入 72 億台幣,要用量子計算機顛覆 AI 運算
終結阿茲海默症!人工智慧提早 10 年「認出」失智症患者,準確率高達 84%
不用再學 SQL 語言啦!人工智慧發展下第一波失業的工程師:資料庫工程師


全球醫學矚目焦點

人類逼近打破年齡、健康限制的臨界點! 搶先報名 12/6《2019 未來科技展》再生醫療場次

點關鍵字看更多相關文章: