data science

應徵數據分析師,面試官除了問背景、動機之外,一定還會問「技術性問題」。因此,就算只是應徵 junior 的職位,仍要清楚掌握數據分析的相關知識。量子運算博士生 Sara A. Metwalli 分享,應徵數據分析師會被問到的 6 個技術問題。

迴歸:數據科學的核心概念

迴歸(Regression)是數據科學的核心概念,是建立預測模型的根基。線性迴歸(linear regression)、邏輯迴歸(logistic regression)是考官常問的迴歸類型,問題包含兩者之間的差異,以及它們的應用情境。此外,也會考你如何將問題化為變數,計算 p 值,分析殘差,以及解釋 L1 與 L2 的差別等。

Metwalli 表示,只要是應徵數據相關的職位,至少會被問到一個關於迴歸的問題,因此一定要了解迴歸的概念。

機器學習模型:要理解基本理論與運作模式

應徵者必須熟悉一般的預測模型,並根據面試官的問題,選擇最適當的模型來處理。

因此,應徵者要了解模型背後的基本理論、如何運作、以及最佳的應用場域。應徵者必須懂得訓練模型,測試它們的準確性並驗證成果。面試官會問,你根據什麼標準來確定模型參數,以及如何選擇最適當的模型來解決問題。

隨機森林:理解它與 GBM 的差異

隨機森林(random forest)也是數據科學的必考題。面試官會問:如何建立數據樹(data tree)?為什麼要使用隨機森林?什麼時候使用?如何讓它有效率?

你也要能夠解釋,為何要在樹枝的分岔處選擇特定的變數子集;也要解釋如何檢測樹中的過度擬合(over-fitting),並如何修剪、優化它。另外,面試官也會問,為什麼你選擇使用隨機森林,而不是使用 GBM(Gradient Boosting Machines)來解決問題。因此你必須清楚了解這兩種技術的差別。

聚類演算法:機器學習的核心演算法

聚類演算法(clustering algorithm)是機器學習的核心演算法之一,數據科學的面試往往會有一兩個關於聚類演算法的問題,通常是 k-means 演算法。

k-means 演算法是機器學習中簡單高效的演算法,面試官會問關於它的各種問題,例如:為什麼要用 k-means 演算法?如何選擇群(cluster)的數量?為了得到最佳結果,需要對演算法進行幾次迭代?什麼是損失函數(loss function)?如何透過損失函數測試演算法的性能?如何優化凸(convex)的最佳效果?

核心數學與統計學:數據分析的底子

建立模型時,必須收集數據、處理數據、分析數據,並用它們來預測未來的數據。這整個過程,需要有堅強的數學與統計學底子。

面試官可能會問你不同的機率分布,例如常態分布;會問你如何進行 t 檢驗,如何計算 z 值;也會問你什麼是 Chi-square 檢驗,什麼時候用。此外,也會問如何計算變數與分佈之間的共變異數(covariance)與相關性(correlation)。

進階問題:根據職位需求問的問題

此外,面試官也會根據職位的需求,問你特定的問題,例如關於矩陣操作(matrix manipulation)與因子化(factorization),或者是如何處理時間序列,如何選擇 p、d、q 參數,以及如何使用箱型測試(box test)等。

有時候,面試官也會要你解釋不同的 SQL 查詢,或者是叫你寫一個查詢,以測試你的 SQL 能力。此外,你也可能被問到數據視覺化的問題,要你表達數據分析的結果。

雖然數據科學有很多的應用場域,但大部分的領域都需要以上的基本概念。若你能在面試前,對上述的概念瞭若指掌,不僅能順利通過面試的考驗,也能確保你到職後快速上手,成為公司的戰力,為自己的職涯鋪路。

參考資料

Towards Data Science

(本文提供合作夥伴轉載。首圖來源:Piqsels CC Licensed

延伸閱讀

【工程師書單】15 本免費電子書,一步步帶你提升數據分析技能
想當數據分析師?你可以先去考這 6 個證書
沒有相關工作經驗,要如何取得數據分析師的 offer?