【我們為什麼挑選這篇文章】一代 TPU 造成轟動後,NVIDIA 馬上不甘示弱地推出 Tesla V100 應戰,現在 Google 又推出了 TPU 2.0。
GPU 的優勢在於大家都習慣使用了,TPU 則是夾著 Google 背後龐大的資源,包含開源的 TensorFlow。這場 AI 芯片大戰我看是至死方休了。在文末的延伸閱讀,我們也整理了這兩家公司推出的新產品,不要忘記點進去看看長長知識噢!(責任編輯:陳君毅)
5 月 18 日凌晨,Google CEO Sundar Pichai 在 I/O 大會上正式公佈了第二代 TPU,又稱 Cloud TPU 或 TPU 2.0,這一基於雲計算的硬件和軟件系統,將繼續支撐 Google 最前沿的人工智能技術。
第一代 TPU 於去年發布,它被作為一種特定目的芯片而專為機器學習設計,並用在了 AlphaGo 的人工智能系統上,是其預測和決策等技術的基礎。隨後,Google 還將這一芯片用在了其服務的方方面面,比如每一次搜索都有用到 TPU 的計算能力,最近還用在了 Google 翻譯、相冊等軟件背後的機器學習模型中。
今天凌晨,Google 宣布第二代的 TPU 系統已經全面投入使用,並且已經部署在了 Google Compute Engine 平台上。它可用於圖像和語音識別,機器翻譯和機器人等領域。
新的 TPU 包括了四個芯片,每秒可處理 180 萬億次浮點運算。Google 還找到一種方法,使用新的計算機網絡將 64 個 TPU 組合到一起,升級為所謂的 TPU Pods,可提供大約 11500 萬億次浮點運算能力。

強大的運算能力為 Google 提供了優於競爭對手的速度,和做實驗的自由度。Google 表示,公司新的大型翻譯模型如果在 32 塊性能最好的 GPU 上訓練,需要一整天的時間,而八分之一個 TPU Pod 就能在 6 個小時內完成同樣的任務。
之所以開發新芯片,部分也是因為 Google 的機器翻譯模型太大,無法如想要的那麼快進行訓練。
除了速度,第二代 TPU 最大的特色,是相比初代 TPU 它既可以用於訓練神經網絡,又可以用於推理。初代的 TPU 只能做推理,要依靠 Google 雲來實時收集數據並產生結果,而訓練過程還需要額外的資源。
機器學習的能力已經逐漸在消費級產品中體現出來,比如 Google 翻譯幾乎可以實時將英語句子變成中文,AlphaGo 能以超人的熟練度玩圍棋。所有這一切都要靠訓練神經網絡來完成,而這又需要計算能力。所以硬件越強大,得到的結果就越快。如果將每個實驗的時間從幾週縮短到幾天或幾個小時,就可以提高每個機器學習者快速迭代,並進行更多實驗的能力。由於新一代 TPU 可以同時進行推理和訓練,研究人員能比以前更快地部署 AI 實驗。
想更了解人工智慧協助轉型的方法??5/24 中港台三地專家共同解密,要帶你了解人工智慧協助製造業轉型的最強案例! https://goo.gl/Wvkmfj
過去十多年來,Google 已經開發出很多新的數據中心硬件,其中包括服務器和網絡設備,主要目的是擴張自己的在線帝國。而過去幾年中,在 AI 方面 Google 也選擇開發自己的硬件,為其軟件做優化。神經網絡是複雜的數學系統,通過分析大量數據來學習,這種系統從根本上改變了技術的構建和運行方式,影響範圍也包括硬件。
在某種程度上,初代的 TPU 被設計來是為了更好地支持 TensoFlow 機器學習框架。而歸功於 Google 在軟硬件上的進步與集成,TensorFlow 已經成為構建 AI 軟件的領先平台之一。這種優化,再加上 Google 大腦及其 DeepMind 子公司的內部人才,正是 Google 在 AI 領域保持領先的部分原因。
芯片廠商 NVidia 的 GPU 幾乎主宰了機器學習的市場,而現在,Google 想通過專門設計用於訓練神經網絡的芯片,來改變市場提格局。
靠著 TPU 2.0 Google 就贏了嗎?
亞馬遜和微軟通過自己的雲服務提供 GPU 處理,但他們不提供定制的 AI 芯片。
不過 Google 也不能因此而高枕無憂,因為短期內競爭就會加劇。目前已經有幾家公司,包括芯片巨頭英特爾和一大批初創公司,正在開發專門的 AI 芯片,它們都可能替代 Google TPU。
首先開發出新的芯片並不能保證 Google 成功,要使用 TPU 2.0,開發者要學習一種構建和運行神經網絡的新方法。它不僅僅是一個新的芯片,TPU 2.0 也是專門為 TensorFlow 設計。雖然 Tensorflow 是開源軟件,但也有許多研究人員使用 Torch 和 Caffe 等類似的軟件。新硬件需要新的軟件優化,這需要不少時間。
在 Google 推出 TPU 2.0 的幾週之前,Facebook 的 AI 研究主管 Yann LeCun 質疑稱,市場可能不需要新的 AI 專用芯片,因為研究者已經對使用 GPU 所需的工具非常熟悉了。新的硬件意味著新的生態系統。
另外,Google 雲服務的成功不僅取決於芯片的速度,以及使用的容易程度,還要考慮成本。所以,如果 Google 以比現有 GPU 服務更低的成本提供 TPU 服務,會得到更廣泛的用戶基礎。
Google 自己當然會使用新 TPU 系統,但也會將它的能力開放給其它公司使用。
Google 表示,不會將芯片直接出售,而是會通過其新的雲服務(年底前公佈)提供,任何開發者都可以使用新處理器帶來的計算能力。
Google 也重申了其對開源模式的承諾,表示會向同意發布研究結果的研究人員提供 TPU 資源,甚至可能開源代碼。他甚至呼籲開發者加入 TensorFlow Research Cloud 計劃,它會免費提供一組 1000 台 TPU。
新 TPU 的速度優勢肯定會吸引到不少研究人員,畢竟 AI 研究要在大量硬件上廣泛試錯。就此而言,Google 願意免費提供計算資源對全世界的 AI 研究者來說都是有好處的,當然,這對 Google 來說也是有好處的。
台灣的產業轉型,將陸續從 2017 年開始走向數位轉型,你的企業有跟上這股浪潮嗎?專家:「先有整體策略思維,再談轉型才能成功。」整體策略如何制定?立即參與調查,踏上升級之路!>> https://goo.gl/cOl4Y2
——
(本文經合作夥伴 雷鋒網 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈詳解Google第二代TPU,既能推理又能訓練,性能霸道〉。圖片來源:, CC Licesned)
延伸閱讀
快過 GPU 30 倍!Google 做了個 AI 專用的超狂晶片「TPU」
【Google I/O 發表會】從今天起,Google 的每一個服務、每一個位元,都是人工智慧
一分鐘看懂 Facebook、Nvidia 的這場「AI 聯姻」