如果摩爾定律真的死,還能如何優化晶片效能?

(本文經合作夥伴 品玩 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈軟件吞噬硬件的 AI 時代,芯片跟不上算法進化可咋辦?〉;首圖來源:unsplash。)

【我們為什麼挑選這篇文章】隨著半導體晶片製程演進,晶片工藝越來越精細,但相對的難度也越來越高,如半導體大廠 Intel 就遇上 7 奈米製程卡關的難題。然而,當前的人工智慧時代,演算法成長速度遠比晶片、處理器的更新快上近 6 倍,除了 AI 晶片的誕生外,在現有的框架內,還能有哪些架構和製程上的創新?(責任編輯:賴佩萱)

作為 AI 時代的幕後英雄,晶片業正經歷著漸進而持續的變化。

2008 年之後,深度學習算法逐漸興起,各種神經網路滲透到手機、App 和物聯網中。與此同時,摩爾定律卻逐漸放緩。摩爾定律雖然叫定律,但它不是物理定律或者自然定律,而是對半導體行業發展的一個觀察或者說預測,其內容為:單個晶片集成度(集成電路中晶體管的密度)每兩年(也有 18 個月的說法)翻倍,由此帶來性能每兩年提高一倍。

保證摩爾定律的前提,是晶片製程工藝進步。經常能在新聞上看到的 28 nm、14 nm、7 nm、5 nm,指的就是製程工藝, 數字越小工藝越先進 。隨著製程工藝的演進,特別是進入 10 nm 之後,逐漸逼近物理極限,難度越發加大,晶片全流程設計成本大幅增加,每一代較上一代至少增加 30%~50%。

AI 對晶片算力的要求越來越高,晶片製程該怎麼調整?

這就導致,AI 對算力需求的增長速度,遠超通用處理器算力的增長速度。據 OpenAI 測算,從 2012 年開始, 全球 AI 所用的計算量呈現指數增長,平均每 3、4 個月便會翻一倍,而通用處理器算力每 18 個月至兩年才翻一倍

當通用處理器算力跟不上 AI 算法的發展,針對 AI 計算的專用處理器便誕生了,也就是常說的「AI 晶片」。目前,AI 晶片的技術內涵正極大豐富著。從架構創新到先進封裝,再到模擬人腦,都影響著 AI 晶片的走向。而這些變化的背後,都有著一個共同的主題: 以更低功耗,產生更高效能

1. 更強調靈活性:比專用集成電路更厲害的「可重構晶片」

2017 年的圖靈獎,頒給了電腦架構兩位先驅 David Petterson 和 John Hennessy。2018 年在進行圖靈獎演講時,他們將主題聚焦於架構創新,指出 計算體系結構正迎來新的黃金十年 。正如他們所判斷的,AI 晶片不斷出現新的架構,比如來自英國 Graphcore 的 IPU——一種迥異於 CPU 和 GPU 的 AI 專用智慧處理器,已經逐漸被業界認可,並且 Graphcore 也獲得了微軟和三星的戰略資本支持。

而當下,一種名為 CGRA 的架構,在學界和工業界正受到越來越多的關注。CGRA 全稱 Coarse Grained Reconfigurable Array(粗顆粒可重構陣列),是「可重構計算」理念的落地產物。

據《可重構計算:軟體可定義的計算引擎》一文介紹,這個理念最早出現在 20 世紀 60 年代,由加州大學洛杉磯分校的 Estrin 提出。由於過於超前,直到 40 年以後才獲得系統性的研究。加州大學柏克萊分校的 DeHon 等將可重構計算定義為具有以下特徵的體系結構:在其製造後,晶片功能仍然可以訂製,形成加速特定任務的硬體功能;計算功能的實現,主要依靠任務到晶片的空間映射。

簡言之, 可重構晶片強調靈活性,在製造出來後仍可透過編程調整,適應新算法 。與之形成高度對比的,是 ASIC(application-specific integrated circuit,專用集成電路)。ASIC 晶片雖然性能高,但卻缺乏靈活性,往往是針對單一應用或算法設計,難以匹配新算法。

2017 年,美國國防部高級研究計劃局(Defence Advanced Research Projects Agency,即 DARPA)提出了電子產業復興計劃(Electronics Resurgence Initiative,簡稱 ERI)。該計劃其中一個任務就是「軟體定義晶片」,打造接近 ASIC 性能、同時不犧牲靈活性的晶片。

按照進行重構時的粒度區別,可重構晶片可分為 CGRA 和 FPGA(field-programmable gate array,現場可編程邏輯門陣列)。FPGA 在工業界已經有一定規模應用,比如微軟將 FPGA 晶片帶入大型數據中心,用於加速 Bing 搜索引擎,驗證了 FPGA 靈活性和算法可更新性。但 FPGA 有其局限性,不僅能效和 ASIC 仍有較大差距,而且重編程門檻比較高。

而 CGRA 由於實現原理上的差異,比 FPGA 能實現更加底層的重新編程,在面積效率、能量效率和重構時間上,都更有優勢。可以說,CGRA 同時集成了通用處理器的靈活性和 ASIC 的高性能。

隨著 AI 計算逐漸從雲端下沉到邊緣端和 IoT 設備,不僅算法多樣性日益增強,晶片更加碎片化,而且保證低功耗的同時,也要求高性能。在這種場景下,高能效高靈活性的 CGRA 大有用武之地。

由於在結構上不統一、編程和編譯工具不成熟、易用性上不夠友好,CGRA 未被業界廣泛使用,但已經可以看到一些嘗試。早在 2016 年,英特爾便將 CGRA 納入其至強處理器。三星也曾嘗試將 CGRA 集成在 8K 高清電視和 Exynos 晶片中。

在中國本土,一家名為「清微智慧」的公司,於 2019 年 6 月量產了全球首款 CGRA 語音晶片 TX210,同年 9 月又發布了全球首款 CGRA 多模態晶片 TX510。這家公司脫胎於清華大學魏少軍教授牽頭的可重構計算研究團隊,他們從 2006 年起就進行相關研究。據晶東西 2020 年 11 月報導,語音晶片 TX210 已經出貨數百萬顆,而多模態晶片 TX510 在 11 月也已經出貨十萬顆以上,主要客戶為智慧門鎖、安防和人臉支付相關廠商。

2. 發展先進封裝

如開篇所提到,由於製程工藝逼近物理極限,摩爾定​​律逐漸放緩。與此同時,AI 算法的進步,使其對算力需求增長迅猛,逼迫晶片行業在先進工藝之外探索新的方向,其中之一便是先進封裝。

「在大數據和認知計算時代,先進的封裝技術正在發揮比以往更大的作用。AI 的發展對高能效,高吞吐量互連的需求,正在通過先進的封裝技術的加速發展來滿足。」世界第三大晶圓代工廠格羅方德平台首席技術專家 John Pellerin 曾在一份聲明中表示。

先進封裝是相對於傳統封裝而言。封裝是晶片製造的最後一步:將製作好的晶片器件放入外殼中,並與外界器件相連。傳統封裝的封裝效率低,存在很大改良空間,而 先進封裝技術發力於提高集成密度

先進封裝裡有很多技術分支,其中 Chiplet(小晶片/芯粒)是最近兩年的大熱門。所謂「小晶片」,是相對傳統晶片製造方法而言。傳統晶片製造方法,是在同一塊矽片上,用同一種工藝製程去打造一塊晶片。而 Chiplet 思路是將一塊完整晶片的複雜功能進行分解,把儲存、計算和訊號處理等功能模塊化成裸晶片(Die)。這些裸晶片可以用不同工藝製程製造,甚至可以是不同公司提供的。透過互聯接口將它們相連接後,就形成一個 Chiplet 的芯片網絡。

據壁仞科技研究院唐杉分析,Chiplet 歷史更久且更準確的技術詞彙應該是 異構集成(Heterogeneous Integration)。總的來說,這個技術趨勢是比較清晰明確的,而且第一階段的 Chiplet 形態在技術上已經比較成熟,除了成本比較高,在很多高端晶片上已經使用。

比如,HBM 儲存器成為 Chiplet 技術早期成功應用的典型代表。AMD 在 Zen2 架構芯片上使用了 chiplet 思路,CPU 用的是 7 nm 工藝,I/0 則使用的是 14 nm 工藝,與完全由 7 nm 打造的晶片相比成本大約降低了 50%。英特爾也推出了基於 Chiplet 技術的 Agilex FPGA 家族產品。

不過,Chiplet 技術仍面臨諸多挑戰,最重要之一是互連接口標準。互連接口重要嗎?如果是在大公司內部,比如英特爾或 AMD,有專用協議和封閉系統,在不同裸晶片間連接問題不大。但在不同公司和系統之間進行互連,同時保證高帶寬、低延遲和每比特低功耗,互連接口就非常重要了。

2017 年,DARPA 推出了 CHIPS 戰略計劃(通用異構集成和 IP 重用戰略),試圖打造一個開放的連接協議,但 DARPA 項目的一個短板是,側重於國防相關項目,晶片數量不大,與真正的商用場景有差距。因此,芯片行業裡一些公司成立了行業組織「ODSA(開放領域特定架構)工作組」,通過制定開放的互連接口,為 Chiplet 的發展掃清障礙。

3. 其他可行方案:脈衝神經網路及處理器

構和製造上的創新,還有研究人員試圖跳出計算機現行的馮·諾依曼架構,開發真正模擬人腦的計算模式。

在馮·諾依曼架構中,數據計算和儲存是分開進行的。而內存存取速度往往嚴重滯後於處理器的計算速度,造成「內存牆」問題。並且,傳統電腦需要通過總線,連續在處理器和儲存器之間進行刷新,這就導致晶片的大部分功耗都消耗在讀寫數據上,而不是算術邏輯單元,又衍生出「功耗牆」問題。人腦則沒有「內存牆」和「功耗牆」問題,它對訊息的處理和儲存是一體的,計算和記憶可以同時進行。

另外一方面,當前推動 AI 發展的深度神經網路,雖然名字裡有「神經網路」四個字,但實際上跟人腦神經網路的運作機制相差甚遠。1000 億個神經元,透過 100 萬億個突觸並行連接,使得人腦能以非常低的功耗(約 20 瓦),進行同步記憶、演算、推理和計算。相比之下,當前的深度神經網路,不僅需要大規模數據進行訓練,在運行時還消耗極大的能量。

因此,如何讓 AI 像人腦一樣工作,一直是學界和業界積極探索的課題。1980 年代後期,加州理工學院教授卡弗·米德(Carver Mead)提出了神經形態工程學的概念。經過多年發展,業界和學界對神經形態晶片的摸索逐漸成形。

軟體方面,被稱為第三代人工神經網路的「脈衝神經網路」(Spike Neural Network,簡稱 SNN)應運而生。這種網路以脈衝訊號為載體,更接近人腦的運作方式。硬體方面,大型機構和公司研發相應的脈衝神經網絡處理器。

事實上,早在 2008 年,DARPA 就發起了一個計劃——神經形態自適應塑料可擴展電子系統(Systems of Neuromorphic Adaptive Plastic Sc​​alable Electronics,簡稱 SyNAPSE,正好是「突觸」之意),希望開發出低功耗的電子神經形態電腦。

IBM Research 成為了 SyNAPSE 項目的合作方之一。2014 年,他們發表論文展示了最新成果——TrueNorth。這個類腦計算晶片擁有 100 萬個神經元,能以每秒 30 幀的速度輸入 400 × 240 像素的視頻,功耗僅 63 毫瓦,相比馮·諾依曼架構的電腦有質的飛躍。

英特爾在 2017 年展示了一款名為 Loihi 的神經形態晶片,包含超過 20 億個晶體管、13 萬個人工神經元和 1.3 億個突觸,比一般訓練系統所需的通用計算效率高 1000 倍。2020 年 3 月,研究人員甚至在 Loihi 上實現了嗅覺識別。這一成果可應用於診斷疾病、檢測武器和爆炸物以及及時發現麻醉劑、煙霧和一氧化碳氣味等場景。

在中國本土,清華大學類腦計算研究中心的施路平教授團隊,開發了一款面向人工通用智能的「天機」晶片,同時支持脈衝神經網路和深度神經網路。2019 年 8 月 1 日,天機成為中國第一款登上《Nature》雜誌封面的晶片。

儘管已經有零星研究成果,但總的來說,脈衝神經網路和處理器仍是研究領域的一個方向,而沒有在工業界大規模應用,主要是因為基礎算法上還沒有關鍵性的突破,達不到業界應用的精度,而且實現成本比較高。

(本文經合作夥伴 品玩 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈軟件吞噬硬件的 AI 時代,芯片跟不上算法進化可咋辦?〉;首圖來源:unsplash。)

你可能會有興趣


參加線上講堂抽 AirPods!重磅解密 4 大雲端新技術

報名 《Cloud Innovation Summit》 觀看影片,並填寫問卷,就能參加 AirPods 抽獎! 2021 年微軟集結 K8s 聯合創辦人、 全球開源領域重量級廠商、台灣第一線雲端專家群,解析 4 大雲端主題 #開源 #數據與 AI #資安 #雲端原生 >> 立即報名

點關鍵字看更多相關文章: