2014年3月21日 星期五

陳電鋸:你玩統計,統計玩你 (一)


嘩,突然人人關注統計,真係多得你喇,李家傑。網誌界也突然多人講起 R 這個「特定軟件」,我又可以順手賣下廣告:香港係有 Hong Kong R User Group 的,想學 R 可以加入。
既然人人都要講兩句,我無奶油執輸,我都要講下 HKUPOP 。
我用一個我認為肯肯定最「準確」的分析法去計出梁振英的評分,那些係人都識講的甚麼 outliers 的影響就變成 non-issue。
方法是用我最鍾意的 resampling technique 。 Algorithm 是這樣
步驟 1. 生成一個 random sample with replacement (bootstrap sample) ,這個 bootstrap sample 中那十二組受訪者(男、女 * 6 年齡組)都最少會有三人次入選。
步驟 2. 計算這個 bootstrap sample 十二組人各自的平均梁振英評分值。再以人口普查人口比例將十二組人的平均評分值組合一起,也即是加權,得出加權平均值 x 。
步驟 3. 重覆步驟 1 和步驟 2 一萬次,得出 x1, x2, x3… x10000 。再將以上一萬個數字計出 median 、 0.05% 及 99.95% Percentile 。1
結果如下:
bootstrap 值是 46.3 。
0.05% 至 99.95% percentile 是: 44.34 至 48.40 。
x 的 distribution 如下:
xdist
結論:經過以上分析去除 outliers 影響及經人口普查性別、年齡分佈加權後,數據顯示梁振英評分不過半。2
我全部數據及分析法在 github ,透明度高過行政會議討論發電視牌。
延伸閱讀:
Alone in the fart: 勿因蟲廢言(二)
  1. 也即是 alpha = 0.1 % ,超細吧。 []
  2. 講多兩句喇:問題根本不在於 0 和 100 等等 outliers ,而是佔人口比重較多的組群對梁振英評分較低。要統戰,你鬧 HKUPOP 這個 messenger 都無撚用o架,你個死人仆街政府做少 d 陰質野咪人人都比高份你囉。出o黎嘈果 d ,仲要自己唔識 Stat 響度吹吹吹。你係要嘈,唔該都求其收買一、兩個大學統計系o既出o黎講野喇,唔該。這一類評分問題,主要是用來比較多次調查的結果,故此,單獨看 46.3 分是沒有意義的。假如每次調查的抽樣及評分法一樣,上次調查平均分是 57 分,今次是 46.3 分,那就有意義了。 []

沒有留言:

張貼留言