2014年2月25日 星期二

李鏗、葉仲茵、鄭宏泰:民意與「特首表現平均分」

李鏗、葉仲茵、鄭宏泰﹕民意與「特首表現平均分」

【明報專訊】2月中旬的報章中,我們看到不同的論者對民意調查能反映多少現實一事,展開了熱烈的討論。其中一個要點,是他們對民調中的特首表現評分提出質疑,認為民調結果易被小部分給予極端分數的人士「騎劫」,拉高或拉低了特首表現的評分,使「平均分」的數據,難以全面反映民意。

對於以上有關民意調查的一些誤解,我們認為有需要藉這次機會,向香港的普羅市民澄清,本研究所一直以來盡力秉承客觀公正的方針,讓市民大眾對民意調查採用的方法及數據的特質,有更深入的了解,從而可更準確地閱讀民調結果。以下我們會釐清一些統計學上的基本概念,例如量度尺度(level of measurement)和集中趨勢(central tendency)等,藉以解釋我們設計「特首表現評分」問卷背後的理念。

首先,香港亞太研究所在進行民調時,會以科學嚴謹、客觀公正為宗旨,不偏不倚地蒐集民意;在公布民調結果時,亦以力求普羅市民皆能理解,並能正確而全面地認識數據的特徵或轉變為大前提。就以每月進行的「特區政府民望電話調查」為例,我們會以科學的隨機抽樣方法,抽取本地固網電話號碼,致電獲抽中的號碼,再從這隨機樣本(random sample)中,進行訪問,然後從蒐集的意見中,推論整體香港市民對特區政府表現的滿意度,以及特首表現評分等意見之統計數據。到公布民調結果時,我們會以百分比和平均值等普羅市民皆普遍明白的統計數字,總結受訪者的各種意見。另一方面,為求精準清晰,數據發表時,我們亦會如實公開抽樣誤差(sampling error)和統計顯著性檢定(test of statistical significance)等資料,讓需要這些資料的市民,對我們的民調方法及數據特質有全面的掌握。

為特首「表現」打分數

在是次有關民調的熱議中,「特首表現評分」成為了最主要的討論焦點。我們進行電話調查時,會透過以下問題了解市民對特首施政表現的意見:「我想你對現任行政長官梁振英表現作出一評價。整體講,以0分為最低分至100分為最高分,50分為及格,你會畀特首梁振英整體表現幾多分呢?」

就此問題的設計而言,我們首先希望大家留意的是,提問中焦點是「表現」二字。通過這問題,我們想知道的是,若以100分為最高分,市民對特首的整體表現評分如何。這與市民「是否支持特首」或「會否投票給特首」等二元的問題設計,在概念上其實是截然不同,或是相提並論的。

我們使用了0分至100分的量度工具,其中之一的考慮,是要讓普羅市民採用大家最常用的簡單直接評分標準,來為特首的施政表現打分。因為無論在中小學的教育過程中,或是日常生活中的其他場合,市民大眾應該一定接觸過這種評分的方法。當然,更重要的是,在學術研究的考慮上,由於這種量度尺度屬等距(interval)數據(如0分至100分),在運用或解釋力上,遠比分類數據(categorical data)(如「是與否」的二元答案)更能用作深層次的數學運算和統計分析,長遠而言,可讓我們對民意的轉變有更豐富的認識和了解。

「平均分」要說的其實是……

對「平均分」的不同理解和閱讀,是引起了這次熱議的一個源頭。為了方便說明,我們先嘗試解釋為何一般要計算樣本數據的「集中趨勢」。

若我們要為一系列的數據下一個整體結論,我們不會逐一羅列所有數據的值,因這樣做不能有效地讓讀者掌握數據的特徵。最有效的方法,便是計算數據的「集中趨勢」,這樣可使我們只憑單一的數值,便能簡單直接地「總結」出一系列數據的特徵。

計算「平均分」(或平均值,arithmetic mean),屬表達樣本「集中趨勢」的常用方法。在計算平均值的過程中,所有樣本的數值也會被計算在內,方法是先求所有數值的總和,然後除以樣本數。一般而言,若數據屬等距的量度尺度,我們便會用平均值表達其集中趨勢。「特首表現評分」是一套由0分至100分去表示的等距量度尺度,用平均值去作總結,乃合理做法。

但使用平均值去總結數據,一般先要考慮有否出現以下兩個「極端」情:(一)樣本中是否有「異常值」(outlier)?(二)樣本的分散度(dispersion)是否很高,或甚至出現所謂「雙峰分佈」(bimodal distribution)的情。

若樣本中有極少數的資料,出現數值異常地大或小的情,平均值會因此被過分地拉高或拉低。這時候,我們一般會採用「中位數」(median)去表示數據的「集中趨勢」。計算工作收入的集中趨勢,便是最典型的例子。因一小撮「異常」高收入的人士,會影響平均值,所以我們會找出收入中位數,去總結整體人口工作收入的特徵,而不會計算平均值。

然而,在「特首表現評分」的事情上,受訪者的回答分佈,並沒像工作收入般出現分佈極端的情(收入可以是零到數十萬甚至數千萬元,而特首表現評分是由0分到100分),數據分佈一般呈「鐘形曲線」(bell curve)——即表示評分最低及最高的相對較少,及格50分的相對較多。再者,以「偏度」(skewness)檢查數據分佈亦顯示「特首表現評分」沒有出現「不對稱」情。這種數據分佈的形態,可稱之為「常態分佈」(normal distribution)。而用平均值去總結呈現常態分佈的數據,比其他的表達方式更為簡潔,亦直截了當。

除了異常值外,在考慮如何總結數據特徵時,我們亦會留意樣本的分散度。若樣本的分散度很高,代表很多樣本數據的數值,偏離了平均值很遠,平均值因而難以說明樣本的總體特徵。在更極端的情下,樣本分佈呈現兩個「眾數」(mode),會使數據分佈的形態出現所謂的「雙峰分佈」現象。舉例說,假設社會中對特首的評分出現偏高和偏低同時佔大多數的情,評中間50分及格的,卻只有極少數人而已,這便出現了「雙峰分佈」的情。若出現這種情,評分的平均值仍有機會與50分很接近,但這種平均值為50分的情,明顯說明不了「雙峰分佈」的極端分佈。然而,如上文已談及,「特首表現評分」的調查數據,一直以來皆呈「常態分佈」,可見利用平均值去總結數據的理由,其實十分充分。

本研究所在進行所有民意調查分析時,皆會細心檢視數據的各項主要特徵(包括以上討論的兩個極端情,以及其他的特徵,例如數據的標準差(standard deviation)及偏度,或是否有太多受訪者拒絕回應問題等,以期望分析能達至科學嚴謹的學術水平。值得留意的是,我們在公布「特首表現評分」時,亦有特意比較上月的民意,探討「特首表現評分」的上升或下跌程度,到底是因為抽樣誤差所導致,還是真的出現統計學上顯著變化。若讀者一直有關注我們的調查結果,也會知道「特首表現評分」的變化,有時候可能只會微升或微跌一兩分甚或更少而已。在分析上,我們可通過統計顯著性檢定的方法,檢驗其變化是否屬實,抑或只源自抽樣誤差而已。我們在發表新聞稿時,其實也有提供相關的資訊,各引用者不妨在將來留意此點。

「極端」分子? 還是「少數」分子?

是次熱議的開端,是因為有論者覺得,調查數據包括了少數的極端分子,他們給予極端的評價(0分或100分),最後導致「平均分」不能反映民意。論者使用例子闡述他對「平均分」的疑問時,把「特首表現評分」轉化成二元的分類數據作理解,並以此作假設計算出評價「及格」和「不及格」兩種受訪者的人數比例,從而指出「平均分」的所謂「誤導」問題。

然而,了解這種二元的分類民意,並非我們使用0分至100分等距量度尺度的本意。因為二元分類與打分在本質上是不同的,「及格」與「不及格」的意見中其實還有程度上之不同。我們用等距量度尺度就是要更細緻地區分市民意見,通過打分,我們便可區分出在合格範圍內給50分和給100分的市民之意見,反之亦然。在社會科學研究中,我們除了要描述市民評分的長期走勢外,同時亦要了解影響其變化的因素,例如評估民意走向與某些人口社經特徵的關係,亦是我們關心的重要課題。而透過現在的評分量度尺度,我們便可進行更深入的分析,也可為其他學者和分析員提供更有參考價值的數據,更有助社會各界掌握民情的變化。

從以上的闡述中,我們應該可以看到,市民對特首表現的評價,一直也是給予中間值——即50分評分者——最多,給予兩端分數評分的,其實比中間評分的少(即所謂的「常態分佈」)。換句話說,給予0分或100分的少數「極端分子」,雖一直存在,但他們的意見(亦是民意的一部分),並不會影響「平均分」所能說明的事實。此外,特首表現評價的數值分佈,也沒出現所謂的異常值或雙峰分佈,可見用「平均分」來總結市民為特首表現的評分,無論在學理上或客觀事實上,仍是最簡單直接和最能說明民眾所思所想的數據。當然,我們更須指出的是,無論是政策執行者、大眾傳媒,乃至市民大眾,大家更應高度關注的,或者不應只是特首評分的絕對數值,而應是長期走勢。到底是不斷改善?抑或是愈來愈差?這對特首本人,乃至特區政府,才最有鞭策作用,市民大眾亦應最有啟發,這亦是本研究的其中一個主要作用。

作者李鏗、葉仲茵為香港中文大學香港亞太研究所副研究員,鄭宏泰為香港中文大學香港亞太研究所、社會與政治發展研究中心聯席主任

沒有留言:

張貼留言