【手機族對賴清德的喊話】我們只是希望有「相同機率」接到電話民調,這,有,很,難,理,解,嗎?

【我們為什麼挑選這篇文章】

民進黨 2020 總統初選的民調方式,至今還沒定案。總統蔡英文喊話,「手機選民」的意見不應該被忽視,認為任何制度都有要補強的地方,但我們也不能因噎廢食;不過,前行政院長賴清德提出三點、反對總統初選「納入手機民調」,依舊堅持「市話民調」。

究竟,賴前院長對於民調抽樣的討論,在統計學上是否合理?來看這篇一一點破。

(責任編輯:黃彩玲)

圖片來源:中央社 記者王飛華

文/發達資本主義時代的打油詩人

我其實蠻不喜歡寫賴清德的,主要的原因是我個人的寫作偏好。政治人物對我來說有四種:我喜歡的、我討厭的、我感覺複雜的、我沒感覺的。前兩種我寫得比較多,尤其是第二種。第三種我不知從何寫起,最後一種我懶得寫。

賴清德屬於第四種。簡單講,我覺得他是個無聊的人。就在幾天前,五四一百週年,他跑去胡適紀念館,讓我發現他這個人實在太無聊了,無聊到有點好笑的程度,所以我寫了一篇。後來談他和蔡英文在同一天的活動,算是五四那篇的衍生物。寫完「這個人真的很無聊」這件事以後,我又懶得寫他了。

偏偏我現在又要來寫他了。我很不想寫,到正在打字的當下還是不想寫,但是他幹了一件事,讓我覺得自己有一點點義務出來講兩句話。

賴清德支持「市話民調」的 2 個論點

事情是這樣的。最近民進黨在吵初選民調,吵到了市話民調與手機民調的問題。支持手機民調的人主張,這年頭已經有很多人生活裡已經完全沒有市話了,用市話民調將會忽略這些人的意見。

賴清德跑出來反對他們,說還是市話好。為什麼市話民調比較好呢?他當然有他的陰謀論故事可以講,但是傳播陰謀論以前,他還算盡責地正面回應了手機民調支持者的訴求。簡單講,他認為市話民調忽略純手機用戶不是個問題。

這是我的重點。我覺得他的問題大了。

直接引用報導中的說法吧,刪節號為本人所加,本引文刪除了民調作弊等陰謀論,純粹討論賴清德關於「家戶民調不會忽略只用手機的年輕人」的說法。

『賴清德說,過去民調有辦法用 1 千多通電話代表母群體,一個行政區、一個縣、一個國家,是因為有嚴謹的科學依據。今天改成手機,有無辦法代表真正的民意恐怕要謹慎…… 至於年輕人接不到電話的問題,賴清德說,這個可以回推,用加權方式解決年輕人少接到電話問題…… 如果家戶民調,年輕人在人口比例是 10%,電話民調只有 5%年輕人接到,可以加權成 2 倍;年紀大的人假設人口比例是 15%,接到電話是 30%,加權可以乘以 0.5,回歸到母群體的分布。』

賴清德的這段話有兩個問題。

第 1 個問題: 樣本不代表母體,只能代表「 抽樣母體」

第一,賴清德說「過去民調有辦法用一千多通電話代表母群體」,這是錯的。我不知道這樣講會不會很違反大家的常識,但是事情就是這樣。

首先,我們得稍微瞭解一下賴清德所謂的母群體是什麼。我個人比較習慣的叫法是「母體」,不是駭客任務的那個 matrix,是 population。所謂的母體指的是「我們做這個調查真正想要瞭解的那群人」,在選舉民調的情境下,一般指的就是「有投票權的國民」。這種人在台灣有一兩千萬,我們當然不可能去問每一個人他支持誰,所以我們得找到一群有代表性的人,並且用各種科學方法確保這群人的投票意向和母體越類似越好。這群人就叫做「樣本」。

這就是母體和樣本的關係,大概可以算是抽樣理論的基礎吧。當賴清德說「過去民調有辦法用 1 千多通電話代表母群體,是因為有嚴謹的科學依據」的時候,他的意思就是說「如果我們把抽樣設計得很嚴謹很科學,樣本就可以代表母體」。

然後請容我再說一次,這句話是錯的。

為什麼?

真正嚴謹地討論抽樣的時候,我們不會說樣本 (sample) 可以代表母體 (population)。在最好的情況下,樣本可以代表抽樣母體 (sampled population)。

我們從作為母體的有投票權之國民開始講吧。我們不可能去問這一兩千萬人 (母體) 中的每一個人他們支持誰,所以我們要從這麼多人裡面抽出一些人 (樣本) 來問。問題是,我們要怎麼抽呢?首先我們得有個名單,從這個名單裡面抽選我們要去問的人。在我們業內,這個名單叫做「抽樣框」(sampling frame)。在我們現在的案例裡,就是兩個抽樣框在比誰比較好:一個是市話,一個是手機。

抽樣框和母體一般不會完全重疊,事實上,在很多情況下可能還蠻不重疊的。一方面,會有一些人在抽樣框裡,卻不是母體的一部份,例如會接到民調電話卻沒有投票權的人。這些人處理起來很簡單,就當這通電話沒打過,不用他們的數據就好;另一方面的問題比較複雜,就是明明在母體裡卻沒有被抽樣框包含到的人。例如你用市話當抽樣框,純手機用戶就是母體中被忽略的成員。

又在母體裡又在抽樣框裡的人之中,還有一些人,叫做拒答者。這些人也蠻難處理的,但一方面他們不是這次爭論的核心、二方面在選舉這種情境下拒答者恐怕也相對較少,所以我們先不管吧。到最後,一個抽樣框裡,扣掉不屬於母體的成員、扣掉拒答者,剩下來的那一塊,就叫做「抽樣母體」。

問卷調查的對象,那些一個一個真的填了問卷的人,也就是我們的樣本,是從這個抽樣母體裡隨機抽出來的,不是從母體裡隨機抽出來的。

樣本是從哪裡隨機抽出來的,樣本就代表誰。

賴清德那句話錯就錯在這裡。在一切都盡善盡美超科學超嚴謹的情況下,樣本可以代表抽樣母體,但不能代表母體。抽樣母體與母體間的距離包括兩種人,一種是拒答者,一種是一開始就被抽樣框忽略掉的母體成員。從抽樣母體中隨機抽選的樣本,不能代表這兩種人。

所以,這兩種人,原則上都是我們永遠無法研究、無法推估的,尤其是一開始就被抽樣框跳過不管的那些人。所以選擇抽樣框的基本原則,就是在其它條件 (如成本) 類似下,盡可能讓抽樣框和母體越重疊越好,以減少遺漏。

手機民調和市話民調,哪個抽樣框比較趨近母體,這應該很明顯吧?

當賴清德說樣本可以代表母體的時候,他在描述的其實是一種理想狀態,一種「抽樣框和母體重疊」的狀態。

然後他現在的主張是要把抽樣框搞得越小越好、和母體差距越遠越好。

這就是他所謂的嚴謹的科學依據嗎?

第 2 個問題:「加權」怎麼能解決年輕人接不到市話?

很不幸地,這只是他的第一個問題。

我說的不幸指的是我自己很不幸。為了一個我實在沒什麼興趣的人寫這麼長的文章,我好不幸。

賴清德的第二個問題是,他認為可以用加權的方式解決年輕人接不到電話的問題。

加權是在做問卷調查的時候常用的方法,作法也的確就如賴清德所說的,如果樣本裡年輕人佔的比重小於母體中年輕人佔的比重,就給年輕人加點權重,讓樣本的人口結構符合母體的人口結構。

更直觀點講,加權這件事是這樣的:我們發現我們抽樣回來的年輕人跟母體裡的年輕人比起來太少了,我們就以我們抽回來的這些年輕人為基礎,複製一些年輕人出來,直到年輕人在樣本裡的比重和在母體一致為止。

這樣做的主要目的是要讓樣本的人口結構趨近於母體的人口結構,而不是把被抽樣框排除掉的人找回來。要做到後者,必須先假設:樣本裡的這些年輕人,和被抽樣框排除掉的那些年輕人是類似的,所以你可以用前者的複製人代替後者。

反過來說,我們必須假設抽樣框一開始排除那些年輕人,是隨機排除的。

如果我們用市話做抽樣框,我們能做這樣的假設嗎?不行。因為這些被排除的年輕人不是隨機被排除的,他們是因為沒有市話所以被排除的。

沒有市話的年輕人,和有市話的年輕人,是同一種年輕人嗎?我認為不是。有許多人主張,年輕的租屋者是主要的「沒有市話」的族群;而在這群人身上,兩條形構當代台灣社會主要社會矛盾的線,剛好交會在一起:城鄉與階級。一般來說,年輕租屋者更有可能是離家來到都會區工作的城鄉流動者,而非父母就住在都會區、自己也在都會區長大的年輕人;另一方面,年輕租屋者與年輕購屋者之間,也無可避免地存在著一條階級界線。

換句話說,我們看看台灣社會的年輕人的一般樣貌,會發現不同類型的年輕人身處在市話這個抽樣框的內外。在市話抽樣框的外面,是離鄉背井到大城市工作,買不起房子的年輕人;在抽樣框的內部,是要嘛在大城市長大現今與父母同住、或者乾脆就自己買了房子的年輕人。

然後今天賴清德說我們抽不到那些離鄉背井買不起房子的年輕人,沒關係,我們就複製幾個從小在都會區長大,或者自己買了房子的年輕人,用這些複製人來代替那些被排除的年輕人好了。

賴清德敢講這種話,我不敢。

摸著研究法講義也不敢,摸著良心也不敢。

「抽樣隨機」是對「民主」或是「平等」的隱喻

我猜這是我開站以來寫過最長的文章了吧。不過我沒算字數,是用疲倦與沮喪的程度來估計的。

我一開始就說過我蠻不喜歡寫賴清德的,但是這件事我不得不寫。寫這麼長這麼囉嗦,大概也不會有人看,但是我覺得這件事很重要,不能不寫。

我這輩子跟民進黨沒什麼瓜葛,所以也沒特別關注他們的初選。然而我跟研究法瓜葛倒是不少,身為一個學術宅,我希望大家不要再扯陰謀論或是歷年初選的陳規了。做民調,就是要知道人民在想什麼。抽樣框越貼近母體越好,這不是挺簡單的道理嗎?

學術宅的話說完了。身為一個打油詩人,我卻還有幾句話。

我一直覺得抽樣理論對「隨機」的定義很有某種政治詩學的意味。它是這麼說的: 「母體裡的任一個體,有相同的機率被選進樣本裡。」這難道不是某種對「民主」或是「平等」的隱喻嗎?

而關於手機民調,大家講了那麼久,說到底不就是這麼簡單的願望嗎?

我們只是希望,我們也有相同的機率,被選進樣本裡。

我們只是希望,我們也能說出我們要什麼。

這,有,很,難,理,解,嗎?

推薦閱讀:

【陸之駿專欄】民調根本不準,家裡沒電話的「40%新興選民」才是真民意
【綠黨專欄】比市話民調更能反映真實民意,用「10 問題」測試 100%手機族選誰當總統
【網讚:鄭文燦世界偉人】民調破 7 成,是盧秀燕的 2 倍、韓國瑜的 1.5 倍高

(本文經臉書專頁 發達資本主義時代的打油詩人 授權轉載,並同意 BuzzOrange 編寫導讀與修訂標題,原文  連結 。首圖來源:中央社。)


想看到每天《報橘》精選好文?趕快把我們加入你的 Line 好友

加入好友
   

點關鍵字看更多相關文章: