「數據會說謊」的真實例子有哪些?
說一個著名的“英國薩利案”(主要內容轉載于去年9月9日的大象公會)
1999年底,全英國媒體都像瘋了一樣報道一位冷血殺手:34歲的英國女律師薩利·克拉克被控謀殺自己兩個親生孩子。她的第一個孩子在三個月大時原因不明猝死。一年以后,第二個孩子也在兩個月大時原因不明猝死。
當時,醫學界才剛剛開始注意到一個被稱為“嬰兒猝死綜合征”(SIDS)的現象。也就是在發病前完全健康,在死亡以后的尸檢中也無法檢出病理原因的嬰兒突然死亡案例。
薩利的第一個兒子,在尸檢后就被確認為是一例“嬰兒猝死綜合征”病例,但她第二個孩子猝死時,負責尸檢的醫生對這位母親產生了強烈懷疑,遂向警方舉報。
控方找不到直接的證據:在兩次嬰兒死亡事件中,這位母親都是單獨和嬰兒在一起。在與嬰兒的接觸中,無論是醫院還是鄰居都表示,他們看上去都非常健康活潑,看不出有受到虐待的跡象。
和一般人對殺嬰母親的刻板印象不同,薩利并不出身底層——她是一名律師,家庭優渥,十分漂亮。
一個工作生活中處處受人尊敬,金發碧眼的白人女性,實際上卻很可能是親手殺害自己兩個孩子的冷血殺人狂。這種社會案件,總是更能引起人們的興趣
薩利•克拉克(Sally Clark)
由于缺少可靠的人證、物證,最終參與薩利一案的10名陪審團成員,只能通過聽取一連串的醫學專家證人的證詞,以判斷薩利是否有罪,而出庭的專家證人各執一詞。
本來,這種局面應對律師出身的薩利有利,但不幸的是,她碰上了英國兒科權威羅伊·梅鐸,梅鐸剛被女王封爵,聲名正旺,并且擁有權威的統計研究——“嬰兒突然死亡的秘密調查”(CESDI)。
這是梅鐸爵士受英國政府委托,率領一只跨領域的團隊,仔細研究了4萬4千多個樣本后剛剛完成的研究成果,正好運用到薩利案件上。法庭上,梅鐸爵士根據報告得出推論:
◤對于薩利家這樣,母親大于27歲,家庭無人失業,無人抽煙的家庭,出現嬰兒突然死亡綜合征的概率是1/8543,但如果連續出現兩起,這概率則為1/7300萬。◢
梅鐸爵士一頭白發、儀表堂堂,仿佛絕對權威的象征。當時媒體報道稱,令人尊敬的梅鐸爵士出現在陪審團面前時,以不容置疑的牛津口音,一字一句念出其專著《兒童虐待的基礎知識(ABCs of Child Abuse)》中的一句話:一個死嬰是不幸,兩個死嬰很可疑,三個死嬰就是謀殺!
他在《兒童虐待的基礎知識》中,根據臨床研究得出結論:沒有證據表明嬰兒猝死綜合征有家庭聚集的現象,但兒童虐待案件卻幾乎總是有家庭因素:一個虐待過老大的母親,很大可能性會虐待老二、老三。
梅鐸爵士的上述結論,被總結為“梅鐸定律”,其在20世紀90年代對英國的檢察機關和社會工作機構影響深遠:對那些有著兩個或以上嬰兒猝死病例的家庭,社工和警方都以“有罪推定”的方式處理:除非有其他證據證明,否則這些人都有極大的可能虐待,甚至故意殺害自己的孩子。
梅鐸爵士的推理邏輯如下:
這個論點聽上去沒有任何問題:如果中國嬰兒出現兔唇的概率是1/10萬,那么你未出生的小寶寶出現兔唇的概率不就是1/10萬?如果一個人連續中了兩次福彩雙色球,那就肯定有貓膩對吧?而一個犯罪現場的DNA如果和一個犯罪分子的DNA基因庫中的某個DNA樣本匹配,而匹配的概率是1/200萬的話,那么這個人就有很大的犯罪可能。
難道不是嗎?
在此之前,梅鐸爵士已經多次作為專家證人在類似的案件中出庭,他不容置疑的權威地位決定了案情的走向——薩利也不例外,既然薩利和她的辯護團隊拿不出證明薩利沒有殺害嬰兒的證據,那么薩利就是兇手!
薩利·克拉克的上訴被駁回。但案情在接下來出現奇跡般轉折。由于案情詭異,加之薩利的美貌和優渥出身,以及媒體大面積報道,梅鐸爵士的證詞迅速得到學術領域的廣泛關注。
于是,一個看似毫不相干的專家群體介入了薩利案。英國皇家統計協會發表了一份新聞聲明,公開指責梅鐸爵士推理的每一步,都犯下了在統計學界廣為人知的錯誤。在聲明的最后,皇家統計學會甚至一改老派英國機構的外交辭令和說話給人留余地的英國紳士范兒,用斬釘截鐵的口吻表示:
◤盡管很多科學家都對統計學方法有某種程度的認識,但統計學依然是一個專業領域。皇家協會敦促法院能保證在法庭上使用統計學證據時,必須是由經過適當認證的專家來呈現,就和其他專業領域在作為法庭證據時的情況一樣。◢
那么梅鐸爵士犯了哪些統計學錯誤呢?
首先,梅鐸爵士假設,因為他的調查研究結果顯示,薩利類型家庭出現嬰兒猝死的概率是1/8543,那么薩利的孩子猝死概率就是1/8543。這是典型的“環境謬誤”。亦即,假設總體的概率,就是個體的概率。
這就好比說,中國人出現兔唇的概率是1/10萬,那么你的孩子出現兔唇的概率也是1/10萬。實際上,你的孩子出現兔唇的概率到底是100%還是25%,或者無限小,取決于你和你配偶的基因,與中國人整體的發病率沒有直接聯系。
梅鐸爵士犯下的第二個統計學錯誤,則是“獨立性謬誤”,亦即,在需要證明獨立性時,卻假設獨立性先驗存在。
嬰兒猝死并不是擲骰子,盡管嬰兒猝死的概率太小,研究不易,科學家們現在依然無法確定導致嬰兒突然猝死的生理和病理過程。但是,這肯定是某種原因導致的,而在一個家庭里,這種原因可能是持續影響的:這或者是因為薩利夫妻的基因問題,或者是家庭的環境問題。
根據梅鐸爵士的計算,如果一個家庭連續出現兩起嬰兒死亡的概率是1/7300萬的話,英國的歷史上就應該顯示,大約每100年才會有一起“一個家庭連續出現兩起嬰兒猝死的案件”。
實際上,就在薩利案宣判后幾個星期,英國醫學期刊(British Medical Journal)刊登了一篇論文,以數據顯示英國大約每年都會出現一起“一個家庭連續出現兩起嬰兒猝死”的案件。而梅鐸爵士自己就曾在多次類似的案件中作為專家證人出庭作證。
第三個統計錯誤,則是著名的“檢察官謬誤”,當DNA檢測手段被大規模應用于刑偵工作中時,人們才注意到這一錯誤。在DNA檢測的早期,人們并不是對全基因組進行測序,而是采取片段比對的方式,這時,DNA比對命中的概率大約是數萬分之一。這當然也是一個非常小的小概率事件,但是,當DNA樣本庫足夠大時,命中的概率就會非常大了。
我們假設DNA比對命中的概率是1/10000。當DNA樣本庫達到20000個樣本時,任意一個DNA片段在這個樣本庫中命中的概率計算方式如下:
也就是說,在一個20000人的樣本庫中,任何DNA都有86%的可能性命中。這也很好理解:盡管每一個人抽中福彩大樂透的可能性是數百萬分之一,但是,我們幾乎每一期都會開出中獎的用戶。
梅鐸爵士的邏輯是“因為一個家庭連續發生兩起嬰兒促使的概率實在太低了,因此發生這件事情的家庭就很可疑”,這就比如說:“因為中福彩大樂透的概率實在太低了,所以你家隔壁鄰居中了福彩大樂透就非常可疑”。
事實是,每期賣出那么多彩票,總得有人中福彩大樂透。英國每年出生那么多嬰兒,總得有人中“連續兩個小孩猝死”的樂透。20世紀90年代初,英國和美國的法庭都在多個判例中確認了“檢察官謬誤”的地位,對DNA證據的使用進行了規定。但這些原則卻并沒有在本次審判中使用。
統計學應用上的爭論,讓“殺嬰事件”案情兩次逆轉,最終,由于皇家統計協會的報告,2003年,薩利·克拉克贏得了第二次上訴,并且英國法庭重啟了243個類似案件的調查,目前能查到至少有4起案件因此而改變判決。
令人遺憾的是,對薩利來說,一切都太晚了,2007年,這位失去了兩個孩子,還被當成殺人惡魔的母親,因為酗酒過度而死于家中,年僅42歲。
而我們的梅鐸爵士,從此失去了成為法庭專家證人的資格,作為兒科權威,他依然安度晚年。
責任編輯:大云網
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網
-
新基建助推 數據中心建設將迎爆發期
2020-06-16數據中心,能源互聯網,電力新基建 -
泛在電力物聯網建設下看電網企業數據變現之路
2019-11-12泛在電力物聯網 -
泛在電力物聯網建設典型實踐案例
2019-10-15泛在電力物聯網案例
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業發展
-
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網 -
5G新基建助力智能電網發展
2020-06-125G,智能電網,配電網 -
從智能電網到智能城市