(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈英偉達首席科學家Bill Dally:摩爾定律已失效,“黃氏定律”成全新指標 〉。)
【我們為什麼挑選這篇文章】摩爾定律是由英特爾(Intel)創辦人之一戈登‧摩爾(Gordon Moore)所提出: IC 電路上可容納的元件的數量每 18 至 24 個月會增加一倍,過去 50 多年來精準預測了半導體產業的發展趨勢,不過隨著摩爾定律走到極限,NVIDIA 在本次的中國 GTC 大會搬出了再升級的「黃氏定律」,說明 NVIDIA 靠的是自身技術力,讓AI 晶片推理能力達到〝每年翻倍〞。(責任編輯:徐宇儂)
一年一度 NVIDIA 的中國 GTC 大會(GPU Technology Conference)今年以線上的形式和大家見面,不過這次現身的不是執行長黃仁勳「黃教主」,而是 NVIDIA 首席科學家 Bill Dally。
在 GTC 影片中,Bill Dally 向我們介紹了 NVIDIA 在醫療、自動駕駛汽車和機器人等多個領域的身手,也分享如何在具有更高頻寬、更易於寫程式的系統中製造更快 AI 晶片的相關內容。
當然更多的還是關於 GPU 架構安培,以及一些有趣的應用,比如當語音助手和 GAN 結合之後,能發生什麼?
同時,Dally 稱:「在摩爾定律失效的當下,如果我們真想提高電腦性能,『黃氏定律』就是一項重要指標,且在可預見的未來都將一直適用。」想知道 GPU 如何在 NVIDIA 的各類產品中大展身手的嗎,以下豐富資訊請慎入。
NVIDIA 安培如何破解稀疏性特徵,達到更大性能?
我們都知道,NVIDIA 的安培是世界上最大的 7nm 晶片,具有 540 億個晶體管。
Bill Dally 表示,最讓他激動的是,安培破解了如何利用神經網路的稀疏性獲得更大的性能的問題。我們先複習一下安培的性能指數。
可以看到,對於高性能計算,安培具有雙精度 Tenser Core,對於 FP64 運算,可以在執行矩陣乘法運算時維持 19.5teraFLOPS 的性能。
對於使用全新 TensorFLOAT 32 數據類型進行的深度學習訓練,安培可以提供 156teraFLOPS 的性能。而對於深度學習推理,使用 Int8,安培可以提供 1.25petaops。
說到稀疏性,我們知道,大多數神經網路其實是可以修剪的,我們大可切斷 70% – 90% 的聯繫,進而達到壓縮、釋放內容、獲得 RAM 的效果,但是我們還無法充分使用這項特徵。
現在,我們可以藉助安培來合理運用這個特徵。安培通過利用結構化稀疏性(允許 4 個權重中的 2 個為 0)解決了這個問題。因此,對於矩陣乘法指令,一旦將權重稀疏為 2/4 模式,就會實現雙倍的性能。
即使矩陣乘法只是整個應用場景的一部分,比如 BERT 的推理自然語言處理基準測試,安培仍然能達到 1.5 倍的性能。在深度學習構架中,這是一個巨大的飛躍。
同時,安培也簡化了 AI 與科學應用之間的關係,你無需在一台電腦上完成一部分工作,再轉移到另一台電腦上進行另一部分的工作,使用一台電腦就能完成兩者。
加速器湧現,卻不見得能「加速」AI 應用程式?
對於不少 AI 應用程式,很多人都在構建專門的加速器,但是這樣的速度會更快嗎?其實不一定。
早在 Kepler 時代,進行深度學習,最常用的指令是半精度浮點乘加,如果把它歸一化成為技術,將這些都進行相同的比較,大約是 1.5 皮焦耳的能量,提取指令並對其解碼,與執行該指令相關的所有開銷約為 30 皮焦耳,開銷超過了有效載荷,在開銷上耗費的能量是有效載荷的 20 倍。
然後在 Pascal 時代,通過改進技術,採用半精度點積運算指令,對包含 4 個單元的向量執行點積運算。如今,我們要做 8 個算術運算,4 個乘法運算,4 個加法運算,6 皮焦耳的能量,開銷僅為 5 倍。雖然從結果上看依舊不是最理想的,但相比最開始,仍然優化了不少。
TensorCore 的實際作用是為矩陣乘法累加提供專門的指令,在 Volta 中,採用半精度矩陣乘法累加(IMMA),一條指令所消耗的能力實際執行了 128 次浮點運算,因此完全可以攤還開銷。
這樣一來,開銷只有 22%,在 Turing 中添加 IMMA 指令後,現在可以執行 1024 次 Int8 運算,有效負載所需的能量為 160 皮焦耳,開銷僅為 16%。也就是說,如果構建一個不具有任何可程式化的專用加速器,你將獲得 16% 的優勢。
但同時,我們也不能忽視了,神經網路正在以驚人的速度發展,GPU 的可程式化迫使你跟上變化,新模型層出不窮,訓練方法也日漸改善。想要利用這些資源,你就需要一台可程式化很強的設備。
GPU提供了一個完全可程式化的平台,構建 TensorCore,使用專門的指令分攤開銷,你就可以得到與專用加速器無損的可程式化。
在未來,GAN 也能語音助理化了?
我們先來看一張圖,可能大家也能猜到了,左邊是生成的虛擬人物,中間是生成的風格化人物,右邊則是生成的無生命實體。
最近,NVIDIA 推出 StyleGAN,人們便可以在不同尺度、不同大小下獨立控制各個特徵,更輕鬆地分離隱變量,從而分離隱變量中控製圖像不同特徵的部分,例如控制某個人物是否微笑,是否戴眼鏡,以及他們頭髮的顏色。
同時,在影片技術上,NVIDIA 也有所發力。
得到一個人的源圖像,和一個人的動作影片,就能合成該說話者逼真的頭部視頻。在這一任務中,源圖像主要負責編碼人物的外觀,影片則決定了人物的動作。
這正是 NVIDIA 提出的一種純神經式的渲染方式,即不使用說話者頭部的 3D 圖像,只在靜態圖像上訓練生成的深度網路,從而進行頭部動作視頻渲染。
除此之外,未來,如果你希望自己能夠變成一個藍頭髮的卡通人物,這項技術也即將實現。
不得不說,GAN 已經滲透到了我們的日常生活中,但是有沒有想過,當 GAN 和語音技術碰撞之後,會產生怎樣的效果呢?
如果你說的話,被語音助理 Jarvis 提取,再轉換成文本,輸入到自然語言模型中查詢、翻譯、問答,最後能夠生成一幅指定的畫,比如你希望哪裡有山、哪裡有水,GAN 都會自動幫助填充。
提高晶片推理能力的「黃氏定律」,取代了摩爾定律?
在 AI 領域,深度神經網路,卷積神經網路,反向傳播等,這些在上個世紀就已經出現的概念,一直要等到 2012 年 AlexNet 的出現,這場革命才真正開始。
那年,Alex Krizhevsky 在 AlexNet 上獲得的性能提升,比此前在 ImageNet 上 5 年的工作成果總和還要多。可以說,GPU 成就了深度學習,但同時,也限制了深度學習的發展。
如下圖所示,在自然語言處理網路的發展中,從 BERT 到 GPT-3,速度之快令人瞠目。
但是想要構建更大的模型,並在更大的數據集上進行訓練,這就受限於在已有的 GPU 資源上可接受的時間內能訓練到的程度。
我們再次搬出「黃教主定律」,可以看到,這 8 年裡,NVIDIA 將單晶片推理能力提高了 317 倍,這條曲線就是著名的「黃氏定律」,即實現推理能力每年翻倍。
自駕計算的負載超大,有無邊緣應用的解決方案?
自動駕駛的複雜程度不言而喻,其涉及到感測器、攝像頭、雷達、激光雷達、實時計算等多種類型的技術。在實際應用中,還需要預測其他汽車、行人以及周圍交通參與者的行為。
於是,NVIDIA 選擇利用 AI,打造 GPU 控制的自動駕駛汽車,畢竟 AI 駕駛員不會出現疲勞駕駛等情況。但這不是在汽車中佈置一些 AI 技術那麼簡單,你需要解決的是從數據採集開始的端到端問題。
首先,你需要通過各種感測器,包括攝像頭、雷達、激光雷達、超聲波設備生成大量帶標記數據的數據集,然後接受所有的數據並進行篩選。