邊緣運算新視野。圖片來源:Flickr

Google Cloud Tech 日前介紹一種新的機器學習方式,叫做聯合學習(Federated Learning),它不但是邊緣運算的另一種視野,還能「解決數據隱私」,讓著迷於 AI 機器學習的讀者們相當經驗。

今天我們要透過這則影片好好解釋聯合學習的概念,但在介紹聯合學習之前,我們首先要了解另外一種類似的概念,叫做「群眾外包」(Crowdsourcing)。

認識聯合學習(Federated Learning)前,你知道什麼是「群眾外包」嗎?

「群眾外包」(Crowdsourcing)這個名詞定義是由記者 Jeff Howe 在 2006 年提出的,它指的是「過去讓指定員工完成的工作,如今可以公開地交給一群不固定的一大群人完成」。

因為過去,人們必須實際(physically)聚在一起,才能互相討論想法,然而網際網路的問世,讓人們可以因為共同的興趣,建立各種虛擬的群體、族群、部落等等。

而以前企業為了壓低生產成本,會將工作外包到勞力成本低廉的國家進行,例如中國、東南亞國家等等。現在透過網路,企業只要把需外包的工作丟到線上平台,讓全世界的每個人都可以參與,用自己閒暇的時間建立內容營造、解決問題、進行研發等。

這個概念如今已經被大家廣泛應用,包括像是我們經常接觸到的維基百科(Wikipedia)就是透過群眾外包的概念運作的。而聯合學習(Federated Learning)也是基於這樣的概念出現的。

聯合學習(Federated Learning)打破資料隱私藩籬!

網路技術日新月異,也衍伸出人工智慧浪潮。AI 的崛起,讓機器學習(Machine Learning)蔚為風行,但要打造表現好的 ML 模型,就需要越多的訓練資料(Training Data)。

然而,越來越嚴格的個資保護規範,限制了企業取得資料的行為,成為 AI 大數據的障礙

在 Google Cloud 的 AI Adventures 這一集影片中,Priyanka Vergadia 介紹了一款新銳的機器學習方式,叫做聯合學習(Federated Learning)。

她先說明「傳統集中式」機器學習,是會將所有資料處理完成後,集中到同一個資料中心,而機器學習的唯一目標是基於輸入的資料來預測結果。

機器學習的過程,圖片來源:Google Cloud Tech

她以一款智慧互動式鍵盤作為例子。用傳統集中式機器學習,手機傳送資料到伺服器上做處理後,伺服器在將處理好的預測結果,傳送到手機,雖然資料都在同一個地方很容易進行機器學習,但是這種作法的缺點是,用戶很容易因為網路延遲率、順暢度和電池電力問題影響接收到的資料。

傳統集中式機器學習,圖片來源:Google Cloud Tech

但如今透過聯合學習(Federated Learning),AI 演算法能以分散訓練的方式,將資料留在本地端,打造出可部署至上百萬支手機的輸入字推薦模型。

這個作法,不再需要收集大量個人資料至資料中心,不僅取代傳統集中式機器學習,更一舉突破 AI 大數據的「資料共享」與「患者隱私」之間的問題。

Google 聯合學習原理,圖片來源:Google

透過聯合學習,手機就能搭載共同學習的預測模型,同時將所有含有隱私的訓練資料保留在用戶端的裝置上,不再需要將資料集中儲存到雲端中,即可進行機器學習。

首先,個別用戶的手機會從中央主機下載一套模型,接著在數以萬計的用戶端,根據用戶端的使用行為,來訓練 Local 端模型

聯合學習不需要連接網路,可自行在裝置上進行機器學習。圖片來源:Google Cloud Tech

聯合學習(Federated Learning)中心概念就是「去中心化」,也就是說用戶的資料不需要傳送到中心伺服器上,

在這影片中,Vergadia 用一款智慧鍵盤 Smart Keyboard 的輸入功能舉例,介紹了一種「加密分散式」機器學習方法,也就是聯合學習(Federated Learning)的基本概念。

聯合學習可用於保護用戶隱私,圖片來源:Google Cloud Tech

首先,個別用戶的手機會從中央伺服器下載一套模型,接著在數以萬計的用戶端,根據用戶端的使用行為,來訓練 Local 端模型。

訓練好後,用戶手機會上傳模型參數至「中央伺服器」,伺服器收集一定數量的參數後,就會聚合(Aggregation),計算出一個優化過的參數,再放回到用戶端手機,進行下一輪訓練。

資料只需要在用戶端進行機器學習,再將整理好的資料上傳到中央伺服器。圖片來源:Google Cloud Tech

這個過程會不斷重複,直到模型達到理想的表現,在這過程中,只會上傳模型參數,完全不會上傳使用者資料。

影片最後,我們就會發現這款鍵盤,其實就是 2017 年 Google 為了改善自家 Android 虛擬鍵盤 Gboard 的輸入功能。

聯合學習(Federated Learning)以共享模型取代共享資料

聯合學習(Federated Learning)藉「分散式訓練」,以共享模型取代共享資料,能藉眾人之力,打造效能不輸「集中式訓練」的模型。

這個方法,近年來在著重隱私的金融、醫療領域廣泛應用,比如中國純網銀微眾銀行發起聯合學習框架,邀集全球金融業者,來打造信用卡防詐欺模型。

或是在醫療界, Nvidia 與倫敦國王學院(King’s College)合作利用此學習模式,開發醫療用影像的 AI 系統,可在無需建立單一資料湖(Data Lake)的情況下訓練,確保隱私受保護。

參考資料

Google Cloud Tech》、《Google Blog

(本篇文章提供合作夥伴轉載。圖片來源:Google

更多聯合學習相關文章

聯合學習(Federated Learning)如何解決數據隱私問題?
沒有大數據如何做 AI ?4 個方式用「小數據模型」進行機器學習
 做機器學習,數據和模型哪個重要?吳恩達的「二八定律」告訴你真相