中銀全幣種信用卡
星期日
2021年08月01日
第C06版:閱讀時間
澳門虛擬圖書館

拆穿數據背後的詭計

《常識統計學》 作 者:蓋瑞 · 史密斯 譯 者:劉清山 出 版 社:日出 出版日期:2019年9月

拆穿數據背後的詭計

活在大數據時代,我們常用統計數據作為觀察世界的佐證。數據可以幫助我們評估局勢,做出良好選擇;但有時可能誤導我們,做出錯誤決策,甚至引發災難性後果。本書作者蓋瑞 · 史密斯是耶魯大學經濟學博士,且在該校任教多年。身為專家學者,他認為有時的確需要相信數據,但有時亦應懷疑數據。本書透過一系列案例分析,向讀者傳授避免落入數據陷阱的簡單準則,辨識數據背後的詭計,並認識統計學的基本原理。

書裡提到,我們之所以容易被數據欺騙,源於人天生便有以某種方式理解世界的傾向,渴望控制事物、預測未來,因而往往會“尋找模式”,相信觀察到的模式背後一定存有合理的解釋,低估隨機事件生成模式的容易程度,且有意或無意地忽略與之矛盾的數據。然而模式、趨勢或相關性實際上未必能證明甚麼,如沒有合理的解釋,任何模式都只是一種模式而已。我們應該努力意識到這種認知錯誤,並應對強大電腦和巨大的資料量生成的數據,尤其是具有統計顯著性的結果保持懷疑的態度。

有一句俗語叫“輸入垃圾,輸出垃圾”。電腦可迅速正確地完成運算任務,但它不會考慮運算的意義和合理性,而只是按人的要求做事。即使多麼強大的電腦,其輸出的價值亦僅取決於輸入的品質。倘若它的運算以不良資料為基礎,那肯定不會輸出福音,只會輸出垃圾。遺憾的是,如今許多人盲目崇拜根據誤導性數據而生的運算,天真地相信電腦不會犯錯,而這種錯誤觀念無論在學術研究領域,還是政商界中比比皆是。

有時,電腦輸出了異常值,是基於人員輸入資料時未有察覺筆誤(比如弄錯小數點的位置)。可是,更多情況是,無恥之徒故意用有缺陷、偏差的數據誤導我們。在學術界,“無論文,不生存”是學院生活的一個殘酷現實。在巨大壓力下,有些研究人員為了發表論文求生存,不惜對實驗數據或調查結果做手腳,篡改或刪減不符合模式的數據,甚至偽造資料,以期得到能夠發表的結果、支持其理論。要避免落入數據陷阱,就要當心那些經過剪裁的研究資料。一些線索包括資料開始或結束於不同尋常的日期,或被分成不自然的資料分組。警惕實驗樣本太少的研究,因為樣本太少無法得出具有統計說服力的結論。

對於社會公眾來說,我們通常只看到統計工作的冰山一角,僅看到具有統計顯著性的結果,看不到資料的全部。而部分資料之所以被丟棄或忽略,可能只因這些資料與研究人員所想的結果相衝突,不支持其理論。

要區分真確與胡謅,書內提出兩大秘訣:常識判斷和新數據檢驗。對於那些與資料相符,但與常識不符的理論,應尋求壓倒性的證據支持。模式需要得到理論的解釋,這種理論應該言之有理,且需要用沒有被資料採集污染的新數據,對既有的解釋進行檢驗。

書中反駁了幾十項研究,揭破數據如何欺騙公眾。諸如,干擾因素:章魚保羅預測世界盃賽事結果成功率高達九成,但該結論忽略了章魚偏好橫向條紋圖案的因素,實情是保羅選擇的並非最佳足球隊,而是牠最喜歡的國旗樣式。倖存者偏差:我們無法看到不復存在的事物,故對於敵軍最常攻擊戰機哪些部位的觀察,當中不會包含已被擊落無法返航的戰機。對於酒店或航空公司滿意度的調查,不會包含只有過一次經歷、以後不再光顧的顧客。變形的圖像:圖像可以幫助我們解讀數據,但也可能扭曲或破壞數據;一旦省略數線零點、顛倒數軸或使用不一致的數軸間隔,將形成截然不同的圖表,產生誤導。

數據是客觀的,但其收集和解釋都是主觀的。面對數據時,我們需要保持冷靜,參酌細節資訊,亦應對其表現的正確性保持合理懷疑。“大膽假設,小心求證”是基本的科學精神,這也是做人處世應有的求真態度。

藍 嵐

2021-08-01 藍 嵐 1 1 澳门日报 content_135611.html 1 拆穿數據背後的詭計 /enpproperty-->