開發一個 AI,需要經過數據收集、數據清洗、訓練演算法、部署等步驟;數據科學的所有子領域(例如機器學習、自然語言處理)也需要透過數據來建構、訓練與開發核心演算法。演算法的品質,取決於數據集的品質與數量,若中間有一個環節出錯,就會層層放大,影響 AI 算出的最終結果。機器學習偏差(machine learning bias)指的是,因為機器過程中出現不準確的假設,導致 AI 產生結果不正確的狀況。
數據科學家的重要任務,就是減少與防止機器學習偏差,而防止偏差的最好方式,就是了解偏差發生的原因。一旦原因確定,就能採取行動來消除。量子運算博士生 Sara A. Metwalli 分享機器學習偏差的 5 種類型、它們如何發生,以及如何減少影響,提供給 AI 模型開發者參考。
機器學習偏差的 5 種類型
1. 演算法偏差(algorithmic bias)
演算法偏差指的是機器學習過程中,核心演算法有問題或不適合當下的應用時所發生的錯誤。若演算法處理相似案例卻給出不同的結果,就需要回頭檢查演算法是否有問題。這可能是演算法核心的技術問題,也可能是演算法本身並不適合應用在此情境。
2. 樣本偏差(sample bias)
樣本偏差源自於程式開發早期,數據收集與清理過程的錯誤。若開發者選擇一個錯誤的、規模小的、包含很多問題數據點的,或是無法代表整個數據庫的數據樣本來訓練,那就有可能訓練出不準確的機器學習模型。
好消息是,樣本偏差的修復並不複雜,可以使用更大、更多樣化的數據集來訓練模型。可以多次訓練它,觀察它的行為,並調整參數以達到最佳答案。
3. 偏見偏差(prejudice bias)
偏見偏差這往往源自於數據一開始就有偏差,例如刻板印象或錯誤的案例假設。若使用這些數據,無論用什麼演算法,結果都會有偏差。
能見偏差不容易解決,可以嘗試使用全新的數據集,嘗試修改數據以消除現有的偏差。
4. 測量偏差(measurement bias)
這發生在數據的收集階段。數據往往是透過人或電腦量測與計算,然後再儲存於數據庫中。若計算、量測有問題,就會產生錯誤的數據,影響機器學習模型的結果。
5. 排除偏差(exclusion bias)
若重要的數據被排除於數據庫,就會產生排除性偏差,模型也會得不到關鍵數據,造成運算結果的錯誤。
了解並消除偏差,是數據科學家的重要技能
當今有愈來愈多的機器學習導入商業應用,協助人類決策,例如決定推薦什麼廣告,是否批准貸款,以及給面試者打分數等等。但這些系統可能有偏差,因而造成錯誤的決策。而偏差取決於訓練模型的數據,以及建構模型的人。要消除偏差,就需要了解它們有哪些類型、為什麼出現,以及出現在開發過程中的那些位置。
尋找並消除偏差並不是精確的科學,而是一種「藝術」,一種必須建立建立在經驗的技術。隨著數據、AI 重要性提升,了解偏差造成的原因,並磨練消除偏差的技能,建立相關經驗,是數據科學家職涯發展的重要學習。
參考資料
(本文提供合作夥伴轉載。首圖來源:Pixy#Org CC Licnesed)
延伸閱讀
【面試題目變了】想當數據科學家?企業要看你做「專案」的能力
如何打造一個「頂級數據科學團隊」? LinkedIn:狂用 A/B Test 就對了!
隔離在家可以做什麼?數據科學家推出「14 天數據分析挑戰」,讓你每天練 coding