【為什麼我們要挑選這篇文章】AI 系統會搭載許多晶片協同工作,但這降低晶片之間的數據傳輸速度,也限制晶片的分析速度。而新創 Cerebras 打造了一款 AI 電腦:CS-1,將所有數據保存在一塊巨大的晶片上,讓系統的運行速度提升到 Google 第三代 TPU 的三倍,幾分鐘就可完成傳統晶片費時數個月的運算。
高校運算可縮短訓練 AI 模型的時間。目前 CS-1 已用於癌症的研究,未來還有不少場域,等待它發揮性能。(責任編輯:郭家宏)
還記得 8 月份,佔據各家媒體科技頭條的有史以來最大晶片嗎?(TO 報導傳送門)
這個名為 Cerebras Wafer Scale Engine(WSE)的「巨無霸」,面積達到 42,225 平方毫米(約 422 平方公分),擁有 1.2 兆個電晶體,400,000 個核心,片上記憶體 18 Gigabytes,記憶體頻寬 19 PByte/s,fabric 頻寬 100 Pbit/s,是目前晶片面積最大的英偉達 GPU 的 56.7 倍。
然而,在近期的超級計算 2019 峰會(Supercomputing 2019 Event)上,這家備受矚目的矽谷新創公司 Cerebras 又宣佈了大消息,發佈了號稱世界上最快的深度學習運算系統 CS-1。
Cerebras 同時還宣佈,CS-1 已經獲得了美國政府超級電腦項目的認可。
目前,第一台 CS-1 已經向美國能源部的 Argonne 國家實驗室交付完畢,將投入處理大規模的人工智慧運算問題,例如研究癌症藥物的相互作用。
儘管 CS-1 的性能還沒有得到相關驗證,但似乎仍為大規模人工智慧運算提供了一種新可能。
專為人工智慧運算設計的超級運算系統:CS-1
Cerebras 其實是一家剛剛成立三年的矽谷新創公司, 但憑藉幾次重要發佈,目前已經融資超過 2 億美元(約新台幣 61 億元)。
如此受矚目,是因為其在人工智慧晶片製造上採取了一種不同以往的方法:將所有數據保存在一塊巨大的晶片上,以便系統更快運行。
AI 系統一般會搭載許多晶片協同工作。但這存在一個顯著問題,在晶片之間進行數據傳輸很慢,並且會限制晶片的分析速度。
成立之初,Cerebras 就希望建立一種專門為深度學習優化的新型電腦,為特定的工作負載選擇正確的電腦體系結構。
Cerebras 表示,與其他系統相比,CS-1 的每一個組件都專門針對人工智慧工作優化,可以更小的尺寸和更少的能源消耗下,提供更高的運算性能。
CS-1 高度達到 26 英吋(約 66 公分),大概相當於一個小的行李箱。據相關報導,一個機架中包含了 1,000 個 GPU 的集群,50 千瓦的功率。單個 Cerebras 晶片的核心數量是單個 GPU 的 78 倍以上,記憶體是 3,000 倍,記憶體頻寬是 10,000 倍,此外它還具有 33,000 倍的頻寬(PB/s)。

這個性能有多強大呢?對比一下谷歌的 TPU v3,CS-1 功耗是它的五分之一,體積只有它的三十分之一,但速度卻是整個 TPU v3 的三倍。
搭載全世界最大晶片,幾分鐘就可完成傳統晶片費時數個月的任務
Cerebras 為 CS-1 設計了專門的系統和軟體平台,以從史上最大晶片 WSE 上的 40 萬個運算核心和 18 G 高性能片上存儲器中,提取極限處理能力。
在人工智慧運算中,晶片越大越好。更大的晶片處理資訊更快,能在更短的時間內得到訓練結果。但是,僅有優異的處理器性能還遠不足夠。像 WSE 這樣的高級處理器,必須與專用的軟體相結合,才能實現破紀錄的性能。因此,Cerebras 專門為這一巨型晶片開發了 CS-1 內置系統和軟體平台,各方面都為加速人工智慧運算專門設計。
Cerebras 首席執行官安德魯.費爾德曼(Andrew Feldman)在接受 VentureBeat 採訪時說:「這是從 300 毫米晶圓中切割出的最大正方形。儘管我們擁有最大、最快的晶片,但我們知道,一個非凡的處理器未必足以提供非凡的性能。如果想提供非常快的性能,那麼就需要構建一個系統。並不是說把法拉利的引擎放進大眾汽車裡,就能得到法拉利的性能;如果想要獲得 1,000 倍的性能提升,需要做的就是打破瓶頸。」

Cerebras 表示,他們是唯一一家從頭開始建立專用系統這一任務的公司。通過優化晶片設計、系統設計和軟體的各個方面,CS-1 目前的性能令人滿意。
透過 CS-1 和配套的系統軟件, AI 過去需要幾個月才能完成的工作,現在幾分鐘內就可完成,而需要幾個星期完成的工作可以在幾秒鐘內迅速完成。
CS-1 不僅從根本上減少了訓練時間,而且還為降低延遲設立了新的標竿。對於深度神經網路,單一圖像的分類可以在微秒內完成,比其他解決方案快幾千倍。
「這是一台由 40 萬個專用人工智慧處理器組成的人工智慧系統。」費爾德曼說。
已經與 Argonne 國家實驗室合作,進行癌症的相關研究

目前,CS-1 的第一台機器已經完成交付。在 Argonne 國家實驗室,CS-1 正被用於研究癌症的神經網路開發,幫助理解和治療創傷性腦損傷,CS-1 的性能使其成為 AI 中最複雜問題的潛在解決方案。
Argonne 實驗室是一個多學科的科學與工程研究中心,CS-1 可以將全球最大的超級電腦站點,比現有的 AI 加速器性能提升 100 到 1,000 倍。
透過將超級運算能力與 CS-1 的 AI 處理能力結合使用,Argonne 實驗室現在可以加快深度學習模型的研發,以解決現有系統無法實現的問題。
「我們與 Cerebras 合作已有兩年多了,我們非常高興將新的 AI 系統引入 Argonne。」Argonne 實驗室的計算、環境和生命科學副實驗室主任 Rick Stevens 表示,「透過部署 CS-1,我們大大縮短了神經網路的訓練時間,使我們的研究人員能夠大大提高工作效率,從而在癌症、顱腦外傷以及當今社會重要的許多其他領域的深度學習研究中得到顯著進步。」
深度學習是人工智慧的一個領域,它允許電腦網絡從大量的非結構化數據中進行學習,然而深度學習模型需要大量的運算能力,並正在挑戰當前電腦系統能夠處理的極限,Cerebras CS-1 的推出試圖解決這一問題。
Argonne 實驗室部署 CS-1 以加強人工智能模型的訓練,它的第一個應用領域是癌症藥物反應預測,這個項目是美國能源部和國家癌症研究所合作的一部分,旨在利用先進的電腦和人工智慧來解決癌症研究中的重大挑戰問題。增加的 Cerebras CS-1 正在努力支持 Argonne 擴大,主要提倡先進的運算,這也有望利用 AI 功能在 2021 年發佈的 Aurora exascale 系統實現百億億(10^18)次級連接。
美國能源部負責人工智能與技術的副部長 Dimitri Kusnezov 在一份聲明中說:「在能源部,我們相信與私人企業合作是加速美國人工智慧研究的重要組成部分。我們期待與 Cerebras 建立長期而有成效的夥伴關係,這將有助於研究下一代人工智慧技術,並改變能源部的運營、業務和任務的形勢。」
費爾德曼說:「我認為,我們將在未來五年內迎來一個非常激動人心的職業生涯。我認為,一小群人可以改變世界,這確實是企業家的口頭禪。你不需要一個大公司,不需要數十億美元,只要一小群傑出的工程師就能真正改變世界。我們始終相信這一點。」
質疑:價格高昂、記憶體過小、演算法瓶頸
當然,對於這樣一個全新的 AI 系統,許多網友也提出了質疑。
Reddit 上針對 CS-1 的一個討論中,名為「yusuf-bengio」的網友表示,在實際操作中這種「晶圓規模的 AI 處理器」可能存在瓶頸,比如:
價格高昂:製造這樣一個晶片比小型的 GPU 昂貴得多。
記憶體過小:存在延遲或頻寬瓶頸。
演算法瓶頸:如果要使用整個晶片,就必須訓練一個極小批量的模型,這反過來會影響準確性。
記憶體的問題也引起了許多網友的共鳴,有網友表示,這個晶片只能用 batch_size 1 訓練,18 GB 的靜態隨機存取存儲器(SRAM)直接使得 Megatron、T5,甚至是 GPT-2 這些模型不能使用。
兩大量點:CS-1 和 Cerebras 系統
最後,儘管有質疑,還是再來看看 Cerebras 公佈的這台全世界最快電腦的兩大亮點。
CS-1 系統

「CS-1 是一個單一的系統,可以比最大的集群提供更多的運算性能,還省去了集群搭建和管理的開銷。」Tirias Research 首席分析師凱文.克雷韋爾(Kevin Krewell)在一份聲明中表示,「CS-1 在單個系統中提供如此多的運算系統,不僅可以縮短訓練時間,還可以減少部署時間。總體而言,CS-1 可能大幅縮短專案的整體時間,而這是人工智慧研究效率的關鍵指標。」
相比於 GPU 集群需要數週或數月才能建立起來、需要對現有模型進行大量修改、消耗數十個數據中心的機器以及需要複雜的專用 InfiniBand 進行集群搭建不同,CS-1 的搭建使用只需要數分鐘。
用戶只需接入標準的 100 Gb 乙太網到交換機,就可以用驚人的速度開始訓練模型。
Cerebras 軟體平台

CS-1 非常易於部署和使用,但是 Cerebras 的目的不僅是加快訓練時間,還要加快研究人員驗證新想法所需的端到端時間,從模型定義到訓練,從調試到部署。
Cerebras 軟體平台旨在允許機器學習研究人員,在不改變現有工作流程的情況下利用CS-1 的性能,用戶可以使用行業標準的機器學習框架(如 TensorFlow 和 PyTorch),為 CS-1 定義模型訓練。
一個強大的圖形編譯器自動將這些模型轉換為針對 CS-1 優化的可執行文件,並提供一組視覺化工具,進行直觀的模型調試和分析。
費爾德曼說:「我們使用開源軟體,並儘可能使程式簡單化。」但是目前所知的是,這個系統既不是基於 x86,也不是基於 Linux。
(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為〈史上最快AI计算机发布!谷歌TPU V3的1/5功耗、1/30体积,首台实体机已交付〉。首圖來源:大數據文摘)
更多關於 AI 的消息
史上最大半導體晶片誕生!擁有 1.2 兆電晶體和 40 萬核心,比最大的 GPU 還大 56.7 倍
漁民福音!聯發科 AI 獲獎研發:一支手機就能監控魚的生長狀況
【獲比爾蓋茲投資】新創 Heliogen 用 AI 控制反射鏡,產生「超過 1000 度」的太陽能高溫