AAEAAQAAAAAAAAcoAAAAJGE1ZGMzOWNkLTQ0MGQtNGQ4NC05NWU2LWE3YmFjMzA0OGZiYw

【為什麼我們挑選這篇文章】究竟我的成績能落到哪裡?這應該是很多學生最想知道的問題,如果能夠確切估計自己大概的落點,那當然就不用煩惱是不是志願表單全都要填滿,或是抉擇於如何取捨想要的或會上的學校。下述文內容將介紹,並解釋該如何「操作」這份視覺化資料。(責任編輯:張瑋倫)

PTT上常充斥著各式戰文,戰男女戰南北戰學校,什麼都可以戰。8月31日在PTT的高中版(SENIORHIGH)上出現了一篇文章,排序了各大學錄取分數最低的科系進行比較,自然引起了論戰(原作者已刪文)。有人認為這可以作為選校不選系的好參考,有些人則認為自己的學校被少數科系的outlier拉低分數,也有人認為根本沒什麼好比較,因為考試科目根本不同。

我靈機一動,既然錄取分數與採計科目和科目加權的資料都是開放的,何不利用資料視覺化來呈現,既可以比對各校錄取分數最低的系,也可以知道同校內各系分數的比較,還可以跨校比較,以及篩選考試科目和加權,比起BBS上純文字的呈現方式,也許能更好地呈現資料不同角度的面貌。

原始資料在大學考試入學分發委員會的網站可以下載 :
原始資料在此

下載的文件是個很討厭的PDF檔(共57頁),將內容copy或匯出到excel格式常會亂掉,我在前公司的專案也碰過類似的問題,當時的做法是找OCR的公司協助處理,但現在有人開發出了解決方案 Tabula,可以幫你把PDF中表格內的資料切出來,問題就解決了!

Tabula官網

資料的前處理總是最花時間的,這個階段除了資料格式的轉換,還包括檢查和驗證資料的完整性和正確性例(如:今年有三個科系無錄取者,如果放進結果中呈現,會造成該科系錄取分數為零分,需要先排除),常用的方法包括將資料排序後觀察極值,或是先畫簡單的散佈圖來觀察。

利用 Tableau 做資料視覺化反而很快就做出來,我利用的是類甘特圖的呈現方式,優點是可以在一列上有多個資料點,不僅同一列內可以互相比較,還可以同時多列互相比較,很符合我想呈現的方式。此外,由於每個科系採計的科目與加權不同,我希望可以客製化選擇想要看的科目,便加上了各個科目的checkbox。於是乎,一張dashboard就這樣產生了……

互動式資料視覺化的網址在此,歡迎玩一玩:
各校系最低錄取分數資料視覺化

那麼,我們可以如何使用這張dashboard呢?其實功能並不複雜:

如果你想要全部的科系一起比較,就把上方所有科目所有的checkbox保持勾選

如果你要挑「不採計」某科目的科系,則該科目只勾選null,不勾任何加權比例

如果你要挑「有採計」某科目的科系,則把該科目所有加權的倍率打勾,null不要打勾

你也可以只挑你要的加權倍率,比方說在英文的1.75跟2打勾,英文的其他選項不勾,代表你只挑英文加權1.75倍以上的科系。

透過這樣的勾選,就可以針對自己有興趣的考科進行比對。

至於該怎麼看資料?如果我們把所有的科系都放進來,看的只是概觀,讓你能夠快速了解各校入學的成績大致落在哪個範圍,而不是絕對的排名,畢竟採計科目,加權比例,錄取人數都有不同。

提供大家一些看資料時可以思索的問題:

以國立臺北大學為例,文法商相關科系錄取成績高出理工科系一截,讀者可以試著從兩個角度繼續觀察資料,到底是各校都有相同的現象(代表理工考科考題較難分數較低),還是臺北大學本來文法商科系就較理工科強?有哪些學校也有類似的狀況?

哪些科系的資料是outlier,跟同校其他科系的分數分佈不太一致?分數特別高或特別低的原因為何?

不同學校相同的科系,錄取人數差異如果很大,我們是否可以說錄取分數較高的學校真的就贏過分數較低的學校?

資料視覺化跟Tableau在幫助瞭解資料跟決策支援的能力真的都很強大啊……

(本文經原作者Chih-Tao Yeh授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為〈105年大學指考各校系錄取分數之資料視覺化〉。首圖來源:william a kay , CC Licensed,未經授權請勿轉載)