IBM 對深度學習系統的新觀點:GPU 的運算速度太快並非好事,為什麼?

【我們為什麼挑選這篇文章】在深度學習的領域中,要如何讓學習的速度加快,一直是研究者們努力想找到的答案,而如今 IBM 似乎找到了其中一種解決方法:別算太快。

這句話是什麼意呢?不是應該越快越好?本文中就如何解決深度學習的生產力問題進行了分析,並介紹了 IBM 在面對深度學習系統中功能性差距問題所進行的研究。

往下看,你就知道那句話的真諦了。(責任編輯:林厚勳)

從消費者行動應用 APP 到圖像識別,深度學習在各個領域都取得了突破性發展成果。然而,要運行深度學習基礎上的 AI 模型也存在著許多的挑戰,最有難度的障礙之一就是訓練模型所需的時間仍然太長。對於大量數據的處理需求以及構建深度學習基礎上, AI 模型的計算複雜性也會降低整個過程的準確性,以及深度學習規模部署的可行性。而訓練所需的時間通常是幾天,有時也會達到幾週,這會降低深度學習部署的速度。

為了縮短創建高精度深度學習模型所需要的時間,我們需要將深度學習訓練時間從幾天縮短到幾小時,再縮短到幾分鐘或者幾秒鐘。

GPU 太快,並非好事

要想瞭解深度學習研究者們正在試圖解決的問題,我們可以想一下盲人摸象的故事。在盲人摸像這一寓言故事中,每位盲人都能觸碰到大象的一個不同的部位,但每個人只能觸碰一個部位,比如身體側面或者象牙。然後他們根據自己這一有限的經驗對大象的樣子展開了爭論。

如果給他們一些時間,他們就可以共享到足夠的信息,來拼湊出一副相當準確的大象圖片。對於圖形處理器(GPU)來說也是一樣的道理,GPU是與中央處理器(CPU)一起被用於加速深度學習、分析和計算的運行。

如果系統中的計算晶片反應慢,那很容易就可以與他們的學習進度保持同步。但是現在,GPU 變得越來越聰明,也越來越快,它們能夠非常快速的通過學習來處理數據,因此也就需要一種更好的交流方式,否則就無法實現同步,因為它們會浪費很多時間等待對方的結果,也就是說,使用更多、速度更快的 GPU 並不會提升速度,甚至可能會導致性能下降。

深度學習系統中的功能性差距

為了實現快速的模型訓練,數據科學家和研究人員需要在大量伺服器上對深度學習進行分發。但是,現在大多數流行的深度學習框架可以在一個伺服器內的 GPU 或學習者之間進行擴展,但多個伺服器之間則無法進行擴展。其中所面臨的挑戰在於,在多個伺服器之間協調並優化深度學習是一件困難的事情,因為因為 GPU 運行速度越快,學習速度就越快。GPU 同時也需要與所有其他的 GPU 來共享他們的學習,但傳統軟件根本無法滿足他們的速度要求。

最近,IBM 的一個研究團隊就深度學習系統中的這種功能性差距展開了研究,他們開發了開發分佈式深度學習(DDL)軟體和算法,可以對連接到數十台伺服器的數百個 GPU 加速器之間大型、複雜的計算任務進行自動並行處理和優化。研究人員為了這一軟體也開發了一個定製的通訊庫,能夠幫助系統內的所有學習者(GPU)以最接近的、最優速度和帶寬來互相通信。並且,這一通訊庫並非只是被硬編碼到一個深度學習軟體包,因此也就可以與包括 TensorFlow、Caffe 和 Torch 等在內的框架進行集成。

這一研究項目中所使用的 GPU 之間的互相通信對於打破圖像識別能力的培訓記錄來說具有至關重要的意義。研究人員能夠將神經網絡的 ResNet-50 模型訓練時間縮短到 50 分鐘,而對於另一個網絡模型ResNet-101,他們使用 750 萬張訓練圖像,達到了 33.8% 的準確性,創造了新紀錄。這些訓練圖像都來自於大型數據集 ImageNet,其中包含超過 1500 萬張標記、高分辨率圖像,分屬於大約 22000 個不同的類別。

數據科學家和機器學習研究人員通過這種方法,可以快速提高準確性,並且訓練神經網絡模型以及模擬人腦和神經系統的計算機軟體。經過高精度訓練的神經網絡模型未來能夠完成例如檢測醫學圖像中的癌細胞這樣的一些特定任務。他們的準確性可以通過再培訓進一步提高,而再培訓的過程只需要幾秒鐘。

讓深度學習走出象牙塔

無論怎樣,目標當然是讓 AI 算法和軟體以及其他機器學習技術能夠儘可能快速地運行。像上文提到的這樣的 DDL 軟體通過系統設計和系統創新,就可以解決深度學習的生產力問題。你如果能夠更快地開始創建新的 AI 功能,消費者也就可以更快的體驗到圖片標籤或語音識別方面的高準確度。

人工智慧現在已經變得更快、更智能、功能也更強大。但是要想讓深度學習走出象牙塔, 訓練時間和準確度就需要進一步提高。要做到這一點,我們必須加快創新成果從研究人員手中到消費者手中的轉化速度。研究人員需要找到新方法,利用新框架來更快的處理深度學習,解決長久以來存在的挑戰性 AI 問題。

本文由 36 氪郝鵬程編譯,原文連結:https://venturebeat.com/2017/11/22/its-time-to-solve-deep-learnings-productivity-problem/

(本文經合作夥伴 36氪 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈 如何克服深度學習系統中的「功能性差距」?IBM 是這樣做的 〉。)

延伸閱讀

IBM 專用字型開放全世界使用:為何花大錢做了字體,還要開源呢?
每一個服務、每一個單位都是 AI:Google 如何在各大服務中應用「深度學習」?
用人工智慧尋找失蹤兒童!Motorola 合作「新」深度學習,獲四億投資
IBM、Google、Amazon 人工智慧技術遭質疑!AI 和機器學習、數據分析差別究竟在哪?

AD