嘩,突然人人關注統計,真係多得你喇,李家傑。網誌界也突然多人講起 R 這個「特定軟件」,我又可以順手賣下廣告:香港係有 Hong Kong R User Group 的,想學 R 可以加入。
既然人人都要講兩句,我無奶油執輸,我都要講下 HKUPOP 。
我用一個我認為肯肯定最「準確」的分析法去計出梁振英的評分,那些係人都識講的甚麼 outliers 的影響就變成 non-issue。
方法是用我最鍾意的 resampling technique 。 Algorithm 是這樣
步驟 1. 生成一個 random sample with replacement (bootstrap sample) ,這個 bootstrap sample 中那十二組受訪者(男、女 * 6 年齡組)都最少會有三人次入選。
步驟 2. 計算這個 bootstrap sample 十二組人各自的平均梁振英評分值。再以人口普查人口比例將十二組人的平均評分值組合一起,也即是加權,得出加權平均值 x 。
步驟 3. 重覆步驟 1 和步驟 2 一萬次,得出 x1, x2, x3… x10000 。再將以上一萬個數字計出 median 、 0.05% 及 99.95% Percentile 。1
結果如下:
bootstrap 值是 46.3 。
0.05% 至 99.95% percentile 是: 44.34 至 48.40 。
0.05% 至 99.95% percentile 是: 44.34 至 48.40 。
x 的 distribution 如下:
結論:經過以上分析去除 outliers 影響及經人口普查性別、年齡分佈加權後,數據顯示梁振英評分不過半。2
我全部數據及分析法在 github ,透明度高過行政會議討論發電視牌。
延伸閱讀:
Alone in the fart: 勿因蟲廢言(二)
沒有留言:
張貼留言