DOG SAY...: 陳電鋸：你玩統計，統計玩你 (一)

2014年3月21日星期五

嘩，突然人人關注統計，真係多得你喇，李家傑。網誌界也突然多人講起 R 這個「特定軟件」，我又可以順手賣下廣告：香港係有 Hong Kong R User Group 的，想學 R 可以加入。

既然人人都要講兩句，我無奶油執輸，我都要講下 HKUPOP 。

我用一個我認為肯肯定最「準確」的分析法去計出梁振英的評分，那些係人都識講的甚麼 outliers 的影響就變成 non-issue。

方法是用我最鍾意的 resampling technique 。 Algorithm 是這樣

步驟 1. 生成一個 random sample with replacement (bootstrap sample) ，這個 bootstrap sample 中那十二組受訪者（男、女 * 6 年齡組）都最少會有三人次入選。

步驟 2. 計算這個 bootstrap sample 十二組人各自的平均梁振英評分值。再以人口普查人口比例將十二組人的平均評分值組合一起，也即是加權，得出加權平均值 x 。

步驟 3. 重覆步驟 1 和步驟 2 一萬次，得出 x₁, x₂, x₃… x₁₀₀₀₀ 。再將以上一萬個數字計出 median 、 0.05% 及 99.95% Percentile 。¹

結果如下：

bootstrap 值是 46.3 。
0.05% 至 99.95% percentile 是： 44.34 至 48.40 。

x 的 distribution 如下：

結論：經過以上分析去除 outliers 影響及經人口普查性別、年齡分佈加權後，數據顯示梁振英評分不過半。²

我全部數據及分析法在 github ，透明度高過行政會議討論發電視牌。

DOG SAY...