超越摩爾定律的男人!黃仁勳宣布推出世界最大 GPU:NVIDIA DGX-2,要價 1,200 萬台幣

【我們為什麼挑選這篇文章】如果只是單純的硬體堆積,NVIDIA DGX-2 就不會這麼驚人,本篇文章最大亮點就是 DGX-2 的力量,以及超越摩爾定律的 Nvidia 與黃仁勳。(責任編輯:陳君毅)

在經典計算技術的時代,推動進步的是 Intel 和由它發揚光大的摩爾定律。2012 年之後,當計算技術進入了名為「深度學習」的全新時代,創辦於 1993 年的 Nvidia 卻成為了強勢黑馬。

Nvidia CEO 黃仁勳:我們超越了摩爾定律

「Nvidia 通過深度學習平台所取得的創新,許多都已成為世界標準。我們以遠超摩爾定律的速度推動計算性能飛速增長 ,促進健康、交通、科學探索等無數領域的突破。」

在一場演講中,創辦人兼 CEO 黃仁勳 (Jensen Huang) 自豪地對數千名觀眾表示。

去年,站在同一個舞台,黃仁勳說他一直想要找到摩爾定律之後的路。而以神經網絡為基礎的人工智能,其爆發式發展到了 2018 年已經過去了五年。而在這五年裡,GPGPU(通用圖形處理器)成為了人工智能研發的利器,在計算密集型的深度學習任務上獨步天下。Nvidia 指出,和 五年前 的 Ferml GPU 架 構相比, 最新一代的 Volta GPU 架構的浮點計算能力提升了 25 倍

「摩爾定律 10 年 5 倍,」黃仁勳說,「這就是我們超越摩爾定律的證明」。

史上最大 GPU:NVIDIA DGX-2

Nvidia 開發者社群的擴張迅速,印證了黃仁勳大膽的聲明。該公司統計,GPU 開發者在今年將達到 82 萬人,比五年前增長了 5 倍;在 Nvidia GPU 上開發必備的並行計算架構工具包 CUDA,下載數量超過了 800 萬,其中約一半是在過去一年裡下載的。

不僅如此,該公司提供的 GPU 加速技術還被世界上大量超級計算機協同採用,其 Volta GPU 為美國的 Summit 和 Sierra 兩大超算增加了大約 100 PFLOPS(千萬億次浮點計算能力)。

在美國時間 3 月 27 日的 Nvidia GPU 技術大會 (GTC 2018) 上,該公司帶來了多個在深度學習、自動駕駛和機器人領域足以掀起浪潮的新產品。其中最為重頭的,則是一年一度的新核彈級顯卡——這次,並不是 GTX 11 系列,也不是傳聞甚囂塵上的「礦卡」, 而是一台被黃仁勳稱為「桌面超級計算機」的工作站:NVIDIA DGX-2

DGX-2 是一台專門用於人工智能訓練和/或推理任務的桌面計算機:

這是它的內部結構:

你可以看到,在圖中 1 和 2 的位置看起來是很多塊芯片。其實他們是 Nvidia 的 Tesla V100 Volta 架構 GPGPU,單枚算力達到雙精度 7.8 TFLOPS(萬億次浮點計算)、單精度 15.7TFLOPS、深度學習 125TFLOPS。

而 DGX-2 單機箱安裝了 16 枚 V100,總體性能達到了驚人的 2PFLOPS ——業界第一台超過千萬億次浮點計算能力的單機箱計算機——稱它為超算或許並不浮誇。

但 DGX-2 的算力並非靠堆疊出來,如果它們之間不能實現高帶寬的數據互通則無意義。

時間倒回兩年前,Nvidia 有意在深度學習的設備市場上對 Intel 發起直接挑戰,推出了 Pascal 架構的 P100 GPGPU。在當時,主流服務器 PCIe 總線接口的帶寬和時延,已經無法滿足 Nvidia 的需求。於是它們開發出了一個新的設備內互聯標準,叫做 NVLink,使得帶寬達到了 300 GB/s。一個 8 枚 GPGPU 的系統裡,NVLink 大概長這樣:

然而 NVLink 的標準拓撲結構在理論上最多支持 8 枚顯卡,仍不足以滿足 Nvidia 對於新系統內置更多顯卡的需要。於是在 NVLink 的基礎上,Nvidia 開發出了一個名專門在顯卡之間管理 NVLink 任務的協處理器,命名為 NVSwitch。 這個元件在 DGX-2 上,讓 16 枚 GPGPU 中兩兩之間實現 NVLink 互通,總帶寬超過了 14.4 TB

這一數字創造了桌面級電腦內總線接口帶寬的新高,但實現它的目的並非跑分,而在於 DGX-2 可以:

1. 更快速地訓練一個高複雜度的神經網絡

2. 同時訓練大量不同結構的神經網絡

超級 8 萬核心,帶來超越摩爾定律的力量

N 卡之所以被稱為核彈有一種另類的解釋方式:它的多核心架構在這個依核心數量論高下的時代顯得超凡脫俗——動輒幾百、上千個 CUDA 核心,令人不明覺厲。而在 DGX-2 上,16 枚 V100 的 CUDA 核數達到了瘋狂的 81,920 核心。這一事實,結合 NVSwitch 技術、512GB 現存、30TB NVMe 固態硬盤、兩枚至強 Platimum CPU 和高達 1.5TB 的主機內存。

黃仁勳用 GPU 深度學習里程碑式的傑作 AlexNet 來舉例。研究者 Alex Krizhevsk 用了 6 天,在 Nvidia GPU 上訓練 AlexNet,這個研究首次利用梯度下降法和卷積神經網絡進行計算機圖像識別,顯著優於此前的手調參數法,拿下了 ImageNet 圖像識別競賽冠軍。AlexNet 讓 Alex 世界聞名,這 6 天可以說值了。

然而,「同樣的 8 層卷積神經網絡,我用 DGX-2 跑了一下,只用 18 分鐘就達到了同樣的結果,」黃仁勳說,「五年,500 倍的進步」。

這說明了很多東西。其中有一條:在這五年裡,Nvidia 的技術進步節奏已經無法用摩爾定律來描述了。

DGX-2 主要的應用場景是顯著加速高端科研和商業人工智能產品的研發。它顯然不是一台消費級的產品——高達 150 萬美元的售價 ……。

開玩笑的,最終售價是 40 萬美元 ……。

然而即便是 40 萬美元的未含稅價格,還是讓一些手頭緊張的工業用戶望而卻步。別擔心,DGX-2 只是今天 Nvidia 在人工智能領域的幾個新產品之一,其它還有:

1. DGX 機箱裡面的 V100 GPGPU 升級版,內存升級到了 32 GB,哪些只需要單枚或者少量顯卡的研究者,生產力得到了解放,可以訓練更複雜的神經網絡了:

2. 面向包括電影視覺特效、建築設計等創意工業,推出的 Quadro GV100 顯卡產品。Quadro GV100 是一塊工作站顯卡,裡面是兩枚 V100 GPU。這塊顯卡支持 Nvidia 最新的頂級光線追踪 (Ray Tracing) 技術 NVIDIA RTX:

3. NVIDIA RTX:如前述,Nvidia 開發的一種極其複雜,且計算密集型的光效技術。簡單來說,像在真實世界裡那樣,摻雜的多光源、複雜的環境,導致光線照到不同材質的物品上所呈現出的散逸,以及物品對光源、對其它物品,在曲面、球面甚至不規則表面所產生的反射效果,或者光源照射到玻璃杯產生的不規則投影——這些光效和陰影在過去極難通過計算機完美呈現,但 Nvidia 今天向著亦真亦幻往前走了一步。

4)TensorRT 4,新一代 的 TensorFlow 推理工具;GPU 對美國科技公司在去年推出的深度學習兼容框架標準 ONNX 兼容;終於可以在 Kubernetes (K8S) 上管理 Nvidia GPU 了,支持 AWS、Google Cloud Platform、阿里雲等

5)新的自動駕駛車載計算架構 ORIN。

6)駕駛虛擬模擬技術 Drive SIM & Constellation。這是一個很有趣的技術,可以讓 Nvidia 以及其它開放平台的科技公司在 GPU 上模擬自動駕駛汽車訓練,顯著降低開放道路真車訓練的危險性。這個技術還有一個獨特的用例:接入了該平台的汽車,在未來可以遠程操控,黃仁勳演示了一個司機在會場,用 VR 頭顯和手柄遠程駕駛一輛汽車躲避障礙並成功泊車。

7)機器人開發開放平台 ISSAC,利用了 Nvidia 在自動駕駛上積累的一些技術,比如高精度地圖繪製等。

8)Project CLARA,一個雲端醫療診斷的項目。這個項目非常有趣,簡單來說,Nvidia 醫院提供基於雲端的醫療圖像識別超算,一個場景是上傳心臟 B 超的實時視頻流,雲端的顯卡運行訓練好的神經網絡,可以將畫面變成三維的體積圖像,然後實時將器官高亮出來,從而生成一個更容易觀看的 3D 畫面。現場演示的畫面還給出了器官功能的實時數據,包括每次搏動的泵出血量等,令人印象深刻。

核彈教父黃仁勳與 Nvidia,看起來勢不可擋

矽谷是一個 T 卹帽衫和拖鞋統治的地方,而 Nvidia 的創辦人黃仁勳在這裡是個相當明顯的另類:一襲皮夾克的他,工程師出身又負責過市場,演講起來絲毫沒有許多其它科技大佬身上特有的「虛偽」氣息。

在 GTC 2018 上,可能覺得自己氣場還不夠強,他直接站在了椅子上接受記者的提問;他明顯接受過公關訓練,但在回答提問時的誠懇仍然在科技大佬中顯得獨特,甚至直接問旁邊的公關「你是不是想打斷我來著?但我已經說完了」。人稱「核彈教父」的黃仁勳,名副其實。

他吐槽常見的 x86 架構服務器棧,一個機櫃動輒數十台服務器,十幾台機櫃總成本成百上千萬美元。而取得同樣的深度學習訓練效果,只需幾台或者十幾台 V100,或者一台 DGX-2,價格至多六位數。這也是為什麼他在演講時,不斷對台下的觀眾重複:多買更划算!(The more you buy, the more you save.) 幾乎將一場 GPU 技術前沿的演講變成了電視購物。

「Watch now ’cause here I come.」是黃仁勳上台前的暖場歌曲裡的一句歌詞。

至少在今天,將摩爾定律踩在腳下,黃仁勳和他的 Nvidia 看起來勢不可擋。

——

(本文經合作夥伴 Pingwest 授權轉載 ,原文標題為 〈核彈教父勢不可擋:英偉達發布 8 萬核桌面機,售價一度 150 萬美元…〉。)

給你更多的黃仁勳

引領世界 AI 潮流的台灣人:黃仁勳如何把 NVIDIA 打造成矽谷一流企業?
核彈教父變身「AI 教父」,黃仁勳將和英偉達帶來撼動科技界的大浪潮!


《TO》深度專題! 

《TO》新專題持續上線! 台灣有沒有機會搭上電動車開發熱潮,打造意想不到的創新服務?訂閱電子報 獲取最新深度報導。

點關鍵字看更多相關文章: