(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈英偉達首席科學家Bill Dally:摩爾定律已失效,“黃氏定律”成全新指標 〉。)

【我們為什麼挑選這篇文章】摩爾定律是由英特爾(Intel)創辦人之一戈登‧摩爾(Gordon Moore)所提出: IC 電路上可容納的元件的數量每 18 至 24 個月會增加一倍,過去 50 多年來精準預測了半導體產業的發展趨勢,不過隨著摩爾定律走到極限,NVIDIA 在本次的中國 GTC 大會搬出了再升級的「黃氏定律」,說明 NVIDIA 靠的是自身技術力,讓AI 晶片推理能力達到〝每年翻倍〞。(責任編輯:徐宇儂)

一年一度 NVIDIA 的中國 GTC 大會(GPU Technology Conference)今年以線上的形式和大家見面,不過這次現身的不是執行長黃仁勳「黃教主」,而是 NVIDIA 首席科學家 Bill Dally

在 GTC 影片中,Bill Dally 向我們介紹了 NVIDIA 在醫療、自動駕駛汽車和機器人等多個領域的身手,也分享如何在具有更高頻寬、更易於寫程式的系統中製造更快 AI 晶片的相關內容。

當然更多的還是關於 GPU 架構安培,以及一些有趣的應用,比如當語音助手和 GAN 結合之後,能發生什麼?

同時,Dally 稱:「在摩爾定律失效的當下,如果我們真想提高電腦性能,『黃氏定律』就是一項重要指標,且在可預見的未來都將一直適用。」想知道 GPU 如何在 NVIDIA 的各類產品中大展身手的嗎,以下豐富資訊請慎入。

NVIDIA 安培如何破解稀疏性特徵,達到更大性能?

我們都知道,NVIDIA 的安培是世界上最大的 7nm 晶片,具有 540 億個晶體管。

Bill Dally 表示,最讓他激動的是,安培破解了如何利用神經網路的稀疏性獲得更大的性能的問題。我們先複習一下安培的性能指數。

可以看到,對於高性能計算,安培具有雙精度 Tenser Core,對於 FP64 運算,可以在執行矩陣乘法運算時維持 19.5teraFLOPS 的性能。

對於使用全新 TensorFLOAT 32 數據類型進行的深度學習訓練,安培可以提供 156teraFLOPS 的性能。而對於深度學習推理,使用 Int8,安培可以提供 1.25petaops。

說到稀疏性,我們知道,大多數神經網路其實是可以修剪的,我們大可切斷 70% – 90% 的聯繫,進而達到壓縮、釋放內容、獲得 RAM 的效果,但是我們還無法充分使用這項特徵。

現在,我們可以藉助安培來合理運用這個特徵。安培通過利用結構化稀疏性(允許 4 個權重中的 2 個為 0)解決了這個問題。因此,對於矩陣乘法指令,一旦將權重稀疏為 2/4 模式,就會實現雙倍的性能

即使矩陣乘法只是整個應用場景的一部分,比如 BERT 的推理自然語言處理基準測試,安培仍然能達到 1.5 倍的性能。在深度學習構架中,這是一個巨大的飛躍。

同時,安培也簡化了 AI 與科學應用之間的關係,你無需在一台電腦上完成一部分工作,再轉移到另一台電腦上進行另一部分的工作,使用一台電腦就能完成兩者

加速器湧現,卻不見得能「加速」AI 應用程式?

對於不少 AI 應用程式,很多人都在構建專門的加速器,但是這樣的速度會更快嗎?其實不一定。

早在 Kepler 時代,進行深度學習,最常用的指令是半精度浮點乘加,如果把它歸一化成為技術,將這些都進行相同的比較,大約是 1.5 皮焦耳的能量,提取指令並對其解碼,與執行該指令相關的所有開銷約為 30 皮焦耳,開銷超過了有效載荷,在開銷上耗費的能量是有效載荷的 20 倍。

然後在 Pascal 時代,通過改進技術,採用半精度點積運算指令,對包含 4 個單元的向量執行點積運算。如今,我們要做 8 個算術運算,4 個乘法運算,4 個加法運算,6 皮焦耳的能量,開銷僅為 5 倍。雖然從結果上看依舊不是最理想的,但相比最開始,仍然優化了不少。

TensorCore 的實際作用是為矩陣乘法累加提供專門的指令,在 Volta 中,採用半精度矩陣乘法累加(IMMA),一條指令所消耗的能力實際執行了 128 次浮點運算,因此完全可以攤還開銷。

這樣一來,開銷只有 22%,在 Turing 中添加 IMMA 指令後,現在可以執行 1024 次 Int8 運算,有效負載所需的能量為 160 皮焦耳,開銷僅為 16%。也就是說,如果構建一個不具有任何可程式化的專用加速器,你將獲得 16% 的優勢。

但同時,我們也不能忽視了,神經網路正在以驚人的速度發展,GPU 的可程式化迫使你跟上變化,新模型層出不窮,訓練方法也日漸改善。想要利用這些資源,你就需要一台可程式化很強的設備

GPU提供了一個完全可程式化的平台,構建 TensorCore,使用專門的指令分攤開銷,你就可以得到與專用加速器無損的可程式化

在未來,GAN 也能語音助理化了?

我們先來看一張圖,可能大家也能猜到了,左邊是生成的虛擬人物,中間是生成的風格化人物,右邊則是生成的無生命實體。

最近,NVIDIA 推出 StyleGAN,人們便可以在不同尺度、不同大小下獨立控制各個特徵,更輕鬆地分離隱變量,從而分離隱變量中控製圖像不同特徵的部分,例如控制某個人物是否微笑,是否戴眼鏡,以及他們頭髮的顏色

同時,在影片技術上,NVIDIA 也有所發力。

得到一個人的源圖像,和一個人的動作影片,就能合成該說話者逼真的頭部視頻。在這一任務中,源圖像主要負責編碼人物的外觀,影片則決定了人物的動作。

這正是 NVIDIA 提出的一種純神經式的渲染方式,即不使用說話者頭部的 3D 圖像,只在靜態圖像上訓練生成的深度網路,從而進行頭部動作視頻渲染。

除此之外,未來,如果你希望自己能夠變成一個藍頭髮的卡通人物,這項技術也即將實現。

不得不說,GAN 已經滲透到了我們的日常生活中,但是有沒有想過,當 GAN 和語音技術碰撞之後,會產生怎樣的效果呢?

如果你說的話,被語音助理 Jarvis 提取,再轉換成文本,輸入到自然語言模型中查詢、翻譯、問答,最後能夠生成一幅指定的畫,比如你希望哪裡有山、哪裡有水,GAN 都會自動幫助填充

提高晶片推理能力的「黃氏定律」,取代了摩爾定律?

在 AI 領域,深度神經網路,卷積神經網路,反向傳播等,這些在上個世紀就已經出現的概念,一直要等到 2012 年 AlexNet 的出現,這場革命才真正開始

那年,Alex Krizhevsky 在 AlexNet 上獲得的性能提升,比此前在 ImageNet 上 5 年的工作成果總和還要多。可以說,GPU 成就了深度學習,但同時,也限制了深度學習的發展

如下圖所示,在自然語言處理網路的發展中,從 BERT 到 GPT-3,速度之快令人瞠目。

但是想要構建更大的模型,並在更大的數據集上進行訓練,這就受限於在已有的 GPU 資源上可接受的時間內能訓練到的程度。

我們再次搬出「黃教主定律」,可以看到,這 8 年裡,NVIDIA 將單晶片推理能力提高了 317 倍,這條曲線就是著名的「黃氏定律」,即實現推理能力每年翻倍

自駕計算的負載超大,有無邊緣應用的解決方案?

自動駕駛的複雜程度不言而喻,其涉及到感測器、攝像頭、雷達、激光雷達、實時計算等多種類型的技術。在實際應用中,還需要預測其他汽車、行人以及周圍交通參與者的行為。

於是,NVIDIA 選擇利用 AI,打造 GPU 控制的自動駕駛汽車,畢竟 AI 駕駛員不會出現疲勞駕駛等情況。但這不是在汽車中佈置一些 AI 技術那麼簡單,你需要解決的是從數據採集開始的端到端問題

首先,你需要通過各種感測器,包括攝像頭、雷達、激光雷達、超聲波設備生成大量帶標記數據的數據集,然後接受所有的數據並進行篩選。

在將這些模型部署到汽車之前,需要通過硬體在環的仿真模擬進行測試。實際的 AI 硬體會模擬合成看到的資訊,包括攝像頭生成的合成視頻流,激光雷達生成的合成激光雷達數據等,然後需要驗證這些模型在仿真時是否正常工作。

除此之外,該神經網路還需要處理其他資訊,比如天氣、交叉路口的情況等。可以想見,這是相當大的計算負載,NVIDIA 針對此,採用了專為邊緣應用打造的基於安培架構的各種產品和解決方案

在自動駕駛汽車中,如果只需要駕駛員輔助功能,則可使用基於 Orin Ampere 架構提供每秒 10 萬億次運算,且耗能僅為 5 瓦的嵌入式晶片來處理該任務。對於 L2 級自動駕駛,可能更需要 45 瓦能耗,每秒 200TOPS 的 Orin AGX 來處理該工作負載。

當然,對於 L5 級別的自動駕駛,該計算機採用了一對 Orin 和一對 A100 算力高達每秒 2 千萬億次運算,功耗為 800 瓦。這種雙重的計算機可提供冗餘,如果一部分系統失效,另一部分系統可以繼續工作處理感測器信號,至少確保在安全停車前汽車的駕駛是安全的。

高效圖形應用持續優化,照片渲染技術再升一級?

在好萊塢大片中,我們經常能看到非常逼真的 CG 技術的運用。根據 Bill Dally 介紹,這種離線的電腦圖形通常使用的是一種稱為基於物理性質的路徑追踪渲染技術,對每個像素投射數万條光線,每一幀都需要花費數小時。

最近,NVIDIA 的技術團隊推出了一種以每秒 60 幀或者更快的速度實時處理照片渲染畫面的技術,從效果上看,不管是球體之間的反射,還是球體對光源的反射,都做到了十分逼真的程度如下:

同時,Bill Dally 表示,這其實是在單個 NVIDIA GPU 上以每幀 60 秒的速度渲染的效果。

這要得益於 NVIDIA 在圖形領域方面的持續貢獻,首當其衝的就是 RTXDI 技術,正如上面的照片所展示的:傳統圖形在陰影投射上表現不夠令人滿意,但是透過 RTXDI,每個光源都會將其光線投射到其相鄰的表面上,這才是逼真陰影效果的奧秘,即光線和物體之間的關係,

其次,在間接照明上,RTXDI 使用光探測器將光線從一個表面投射到另一個表面,就能看到一個表面將點亮另一個表面,第二個表面將點亮第三個表面,如此循環。

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈英偉達首席科學家Bill Dally:摩爾定律已失效,“黃氏定律”成全新指標 〉。)

看更多 NVIDIA 地表最強大技術

• 為何 NVIDIA 要砸 1.2 兆天價收購 ARM?資料中心、AI 是關鍵
• 成長幅度達 167%,NVIDIA 資料中心營收首次超越遊戲業務!
• 【汽車升級就像 iOS 升級一樣容易!】賓士、NVIDIA 打造最新款自駕車,市場新寵兒來囉