機器學習有 5 種偏差,會讓你的 AI 做出錯誤決策!

開發一個 AI,需要經過數據收集、數據清洗、訓練演算法、部署等步驟;數據科學的所有子領域(例如機器學習、自然語言處理)也需要透過數據來建構、訓練與開發核心演算法。演算法的品質,取決於數據集的品質與數量,若中間有一個環節出錯,就會層層放大,影響 AI 算出的最終結果。機器學習偏差(machine learning bias)指的是,因為機器過程中出現不準確的假設,導致 AI 產生結果不正確的狀況。

數據科學家的重要任務,就是減少與防止機器學習偏差,而防止偏差的最好方式,就是了解偏差發生的原因。一旦原因確定,就能採取行動來消除。量子運算博士生 Sara A. Metwalli 分享機器學習偏差的 5 種類型、它們如何發生,以及如何減少影響,提供給 AI 模型開發者參考。

機器學習偏差的 5 種類型

1. 演算法偏差(algorithmic bias)

演算法偏差指的是機器學習過程中,核心演算法有問題或不適合當下的應用時所發生的錯誤。若演算法處理相似案例卻給出不同的結果,就需要回頭檢查演算法是否有問題。這可能是演算法核心的技術問題,也可能是演算法本身並不適合應用在此情境。

2. 樣本偏差(sample bias)

樣本偏差源自於程式開發早期,數據收集與清理過程的錯誤。若開發者選擇一個錯誤的、規模小的、包含很多問題數據點的,或是無法代表整個數據庫的數據樣本來訓練,那就有可能訓練出不準確的機器學習模型。

好消息是,樣本偏差的修復並不複雜,可以使用更大、更多樣化的數據集來訓練模型。可以多次訓練它,觀察它的行為,並調整參數以達到最佳答案。

3. 偏見偏差(prejudice bias)

偏見偏差這往往源自於數據一開始就有偏差,例如刻板印象或錯誤的案例假設。若使用這些數據,無論用什麼演算法,結果都會有偏差。

能見偏差不容易解決,可以嘗試使用全新的數據集,嘗試修改數據以消除現有的偏差。

4. 測量偏差(measurement bias)

這發生在數據的收集階段。數據往往是透過人或電腦量測與計算,然後再儲存於數據庫中。若計算、量測有問題,就會產生錯誤的數據,影響機器學習模型的結果。

5. 排除偏差(exclusion bias)

若重要的數據被排除於數據庫,就會產生排除性偏差,模型也會得不到關鍵數據,造成運算結果的錯誤。

了解並消除偏差,是數據科學家的重要技能

當今有愈來愈多的機器學習導入商業應用,協助人類決策,例如決定推薦什麼廣告,是否批准貸款,以及給面試者打分數等等。但這些系統可能有偏差,因而造成錯誤的決策。而偏差取決於訓練模型的數據,以及建構模型的人。要消除偏差,就需要了解它們有哪些類型、為什麼出現,以及出現在開發過程中的那些位置。

尋找並消除偏差並不是精確的科學,而是一種「藝術」,一種必須建立建立在經驗的技術。隨著數據、AI 重要性提升,了解偏差造成的原因,並磨練消除偏差的技能,建立相關經驗,是數據科學家職涯發展的重要學習。

參考資料

Towards Data Science

(本文提供合作夥伴轉載。首圖來源:Pixy#Org CC Licnesed

延伸閱讀

【面試題目變了】想當數據科學家?企業要看你做「專案」的能力
如何打造一個「頂級數據科學團隊」? LinkedIn:狂用 A/B Test 就對了!
隔離在家可以做什麼?數據科學家推出「14 天數據分析挑戰」,讓你每天練 coding

AD