大數(shù)據(jù):迷思與解毒
印刷機(jī)問世的第一個世紀(jì)里,書籍的生產(chǎn)規(guī)模呈指數(shù)型增長,數(shù)量增長了近30倍。人類知識旋即進(jìn)入快速積累期。
信息的增長速度遠(yuǎn)遠(yuǎn)超過了人們處理信息和分辨信息的速度。共享信息的不斷增長反而加速了民族和宗教的孤立進(jìn)程。
印刷機(jī)的早期使用者中,最狂熱的要數(shù)那些傳播福音的人了。馬丁·路德的《九十五條論綱》被古騰堡的印刷機(jī)復(fù)印了30多萬次。路德的新教改革所導(dǎo)致的教會分裂,很快使歐洲陷入了戰(zhàn)爭。單單一個三十年戰(zhàn)爭,德國人口就減少了1/3。這堪稱人類歷史上最血腥的時代。
但就是在這樣一個充滿戰(zhàn)亂的時代,印刷機(jī)卻悄然推動著科學(xué)與文學(xué)的進(jìn)步。
大數(shù)據(jù)的承諾和陷阱
到了時下,最流行的要數(shù)“大數(shù)據(jù)”了。根據(jù)IBM的估計數(shù)據(jù),現(xiàn)在我們每天生成的數(shù)據(jù)高達(dá)250兆億個字節(jié),超過過去兩年里生成的數(shù)據(jù)總量的90%。
信息的指數(shù)型增長有時被人們視為萬靈藥,就好比20世紀(jì)70年代出現(xiàn)的計算機(jī)一樣。《連線》雜志的前主編克里斯·安德森曾經(jīng)在2008年的一篇文章中說:“數(shù)量龐大的數(shù)據(jù)會使人們不再需要理論,甚至不再需要科學(xué)的方法。”
我認(rèn)為其內(nèi)容是積極樂觀的,卻被嚴(yán)重曲解了。雖然那些數(shù)字不能為自己辯護(hù),但我們卻可以作為數(shù)字的發(fā)言人,賦予它們意義。我們可能會以對自己有利的方式對這些數(shù)據(jù)進(jìn)行分析和解釋,而這些方式很可能與這些數(shù)據(jù)(所代表)的客觀現(xiàn)實不相吻合。數(shù)據(jù)驅(qū)動預(yù)測機(jī)制可能會成功,也可能會失敗。一旦我們否認(rèn)數(shù)據(jù)處理過程中存在著主觀因素,失敗的概率就會增加。
在4年時間里,我對十多個行業(yè)和領(lǐng)域中的數(shù)據(jù)驅(qū)動預(yù)測機(jī)制進(jìn)行了調(diào)查,我也曾與十幾個領(lǐng)域中的100多位專家交流過,讀過數(shù)百篇期刊文章和論文,為了實地調(diào)查,我跑遍了從拉斯韋加斯到哥本哈根的許多地方,卻發(fā)現(xiàn)“大數(shù)據(jù)”時代的預(yù)測活動發(fā)展得并不順利。
新千年給美國人帶來的是噩夢般的開始。我們沒有預(yù)測到“9·11”恐怖襲擊事件,而這一慘劇的出現(xiàn)并非因為我們的信息匱乏。正如60年前的“珍珠港事件”一樣,其實所有的信號都在那里,只是我們沒能將它們聯(lián)系起來。因為對恐怖分子可能會有的舉動不夠了解,所以我們對那些數(shù)據(jù)視而不見,不知道大難將至。
近期,對全球金融危機(jī)的預(yù)測也總是失敗。我們天真地相信各種(預(yù)測)模式,卻沒有認(rèn)識到這些模式在我們進(jìn)行假設(shè)選擇時根本不堪一擊,因此總會帶來慘痛的后果。在日常生活中,我發(fā)現(xiàn)盡管人們也在努力嘗試,卻仍然無法提早預(yù)測出經(jīng)濟(jì)衰退。幸好在控制通脹方面,我們已經(jīng)取得長足進(jìn)步,否則那些經(jīng)濟(jì)決策者就只能“盲目飛行”了。
與20世紀(jì)70年代一樣,近來人們十分熱衷于對地震進(jìn)行預(yù)測,其中大部分高度依賴數(shù)學(xué)方法和數(shù)據(jù)處理技術(shù)。但是,這些預(yù)測只是假想一些從未發(fā)生過的地震,對真正發(fā)生的那些地震卻沒有預(yù)測到。
錯誤地預(yù)測整個學(xué)科的發(fā)展常會危及整個社會。以生物醫(yī)藥學(xué)的研究為例。2005年,一位土生土長的雅典人,醫(yī)學(xué)研究者約翰·P·埃尼迪斯,發(fā)表了一篇頗具爭議性的論文—《為什么大多數(shù)發(fā)表的研究成果都是騙人的》。
這些大數(shù)據(jù)終將推動社會進(jìn)步,至于這種進(jìn)步的速度有多快,或者進(jìn)步的同時是否還會倒退,這些都取決于我們自己。
人類并沒有多少天生的防御能力,人類的速度沒有多么快,身體也沒有多么強(qiáng)壯;人類沒有利爪和尖牙,也沒有護(hù)身的硬殼;人類不能噴出毒液,不能偽裝自己,也不能飛翔。我們之所以能生存下來,是因為我們運(yùn)用了智慧。
在1970年出版的《未來的沖擊》一書中,未來學(xué)大師阿爾文·托夫勒對他所說的“信息超負(fù)荷”的一些后果進(jìn)行了預(yù)測。他認(rèn)為,盡管世界本身正走向分化,變得更加復(fù)雜,但人類仍會以堅持自身看法的方式使這個世界變得簡單,這便是我們的防御機(jī)制。
正是出于這個原因,我將預(yù)測視為人們共同的事業(yè)。雖然預(yù)測很難,但解決方法還是有的。
在任何一個數(shù)據(jù)豐富的領(lǐng)域,尋找模式很容易,一般的預(yù)測者也都是這么做的。關(guān)鍵是要分辨出這些模式到底是噪聲還是信號。雖然還沒有找到關(guān)鍵點,但是有一種思維過程可以幫助我們作決定,這就是貝葉斯定理。
預(yù)測和貝葉斯定理
托馬斯·貝葉斯,大概于1701年出生。盡管貝葉斯所著圖書的種類并不算多,但還是被選為英國皇家學(xué)會會員。在英國皇家學(xué)會,他擔(dān)任內(nèi)部評論家或者智力辯論的裁判員。
貝葉斯的作品《機(jī)會的學(xué)說概論》,又稱《論有關(guān)機(jī)遇問題的求解》,直到他1763年去世之后,由他的朋友理查德·普萊斯引介到英國皇家學(xué)會,引起了學(xué)會的注意,隨后才得以出版。這部作品主要研究的是,當(dāng)我們遇到新數(shù)據(jù)時,該如何使用概率的方法進(jìn)行推理。
今天公認(rèn)的貝葉斯定理就是一個普通的不能再普通的數(shù)學(xué)表達(dá)式,是由法國數(shù)學(xué)家、天文學(xué)家拉普拉斯推導(dǎo)出來的。
然而,就是這樣一個簡單的運(yùn)算,卻可以推導(dǎo)出重大的預(yù)測。
貝葉斯定理涉及條件概率,也就是說,一旦發(fā)生了某個事件,這一定理就可以告訴我們一種理論或假設(shè)是否正確。
假設(shè)你和伴侶同住,某天出差回家后發(fā)現(xiàn)自己的衣櫥里多出一件陌生的內(nèi)衣。你可能會奇怪:自己的伴侶是不是出軌了?不論你相信與否,對于這樣的問題,貝葉斯定理總能給出答案—假如你知道(或愿意預(yù)估)下列3個量。
第一,你需要預(yù)測出自己的伴侶在出軌的情況下,這件內(nèi)衣出現(xiàn)的概率。為了解決這個問題,我們暫且假設(shè)你是一位女性,而你的伴侶是一位男性,那么,此時我們所說的內(nèi)衣就是一件女式內(nèi)衣。如果你的伴侶出軌了,那么很容易想象這件內(nèi)衣是如何進(jìn)入你的衣櫥的。那么,即使他確實要做對不起你的事,你也希望他能夠小心行事。在他確實背叛了你的情況下,我們認(rèn)為,這件內(nèi)衣出現(xiàn)的概率是50%。
第二,你需要預(yù)測出自己的伴侶在沒有出軌的情況下,這件內(nèi)衣出現(xiàn)的概率。如果他沒有出軌,有什么理由證明那件內(nèi)衣的清白呢?當(dāng)然有些理由會令人不快(比如這件內(nèi)衣也有可能是他自己的)。或許,他把衣服搞混了;或者你的伴侶有一位紅顏知己,兩人之間只存在純友誼,而你對此也深信不疑,她寄宿一晚忘了帶走內(nèi)衣;或者這就是你的伴侶給你準(zhǔn)備的一件禮物,只不過忘了把它包起來。盡管這些理由有些荒謬,但也能說得通。你將這種情況出現(xiàn)的概率定為5%。
第三,這點最為重要,你需要預(yù)測貝葉斯定理中所說的先驗概率(或者簡稱先驗)。在發(fā)現(xiàn)內(nèi)衣之前,你認(rèn)為自己的伴侶出軌的概率有多大?當(dāng)然,現(xiàn)在很難完全客觀地考慮這個問題,因為你已經(jīng)發(fā)現(xiàn)了內(nèi)衣。(在理想狀態(tài)下,在開始查驗證據(jù)之前,你就已經(jīng)算出了先驗概率。)但有時我們可以依據(jù)經(jīng)驗推斷某事件發(fā)生的概率。比如,研究發(fā)現(xiàn),已婚夫婦任何一年的出軌概率都在4%左右,所以,我們可以將這個概率視為先驗概率。
如果我們算出了以上3個概率值,就可以依據(jù)貝葉斯定理得出后驗概率:只有29%,這個結(jié)果也許看似仍有悖常理—那件內(nèi)衣果真是清白的嗎?但這一概率之所以較低,是因為你把伴侶出軌的先驗概率設(shè)定得很低。盡管一個清白的男人不能像出過軌的男人那樣,能為一件陌生內(nèi)衣的出現(xiàn)找出很多看似合理的解釋,但你一開始就把他當(dāng)作清白的人,這一點對方程式影響很大。
這里,我還要提到一個比較沉重的例子:“9·11”恐怖襲擊事件。2001年9月11日清晨,當(dāng)我們從夢中醒來時,大部分人都想不到恐怖分子的飛機(jī)會撞向曼哈頓世貿(mào)中心大樓。但是,世貿(mào)中心第一次遭遇襲擊之后,我們才意識到這也許是一次恐怖襲擊。直到第二座高樓被襲擊之后,我們才相信確實遭遇了恐怖襲擊。
貝葉斯定理可以復(fù)制這個結(jié)果。比如,在第一架飛機(jī)撞擊大樓之前,我們預(yù)測曼哈頓的高樓遭遇恐怖襲擊的概率只有1∶20000或0.005%。當(dāng)然,我們還是會認(rèn)為世貿(mào)中心意外遭遇飛機(jī)撞擊的概率是非常低的。人們靠經(jīng)驗也能準(zhǔn)確地預(yù)測出0.005%這個數(shù)字。9月11日之前的25000天,一直有飛機(jī)盤旋在曼哈頓的上空,而期間只發(fā)生了兩次這樣的意外事故:一次是1945年的美國帝國大廈事件,另一次是1946年的川普大廈事件。這樣看來,此類意外事故的日發(fā)生概率只有1∶12500。在第一架飛機(jī)撞上世貿(mào)中心大樓的那一刻,如果用貝葉斯定理計算這些數(shù)據(jù),發(fā)生恐怖襲擊的概率便會從0.005%劇增至38%。
然而,貝葉斯定理暗含的意思并不是說,我們對概率的預(yù)測只可以作一次更新,相反的,鑒于新證據(jù)的不斷涌現(xiàn),我們需要不斷地更新自己的預(yù)測結(jié)果。于是,第一次恐怖襲擊的后驗概率38%,在第二次襲擊之前就會變成先驗概率。這時再來進(jìn)行世貿(mào)中心遭遇第二次恐怖襲擊的概率運(yùn)算,遭遇襲擊的概率就變成了99.999%,這就表示恐怖襲擊必會出現(xiàn)。在陽光燦爛的紐約出現(xiàn)意外事故的概率很低,而就像我們推斷出來的可怕結(jié)果一樣,第二次恐怖襲擊很有可能會發(fā)生。
不斷犯錯,不斷嘗試,這或許是貝葉斯定理應(yīng)用起來最容易的一個原則。或者說,一旦獲得新信息,我們就應(yīng)該更新自己的預(yù)測。

責(zé)任編輯:花臉
- 相關(guān)閱讀
- 泛在電力物聯(lián)網(wǎng)
- 電動汽車
- 儲能技術(shù)
- 智能電網(wǎng)
- 電力通信
- 電力軟件
- 高壓技術(shù)
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計落地:鼓勵“光儲充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計 -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設(shè)將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設(shè)下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設(shè)典型實踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進(jìn)這個行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎(chǔ)設(shè)施,電力新基建 -
燃料電池汽車駛?cè)雽こ0傩占疫€要多久?
-
備戰(zhàn)全面電動化 多部委及央企“定調(diào)”充電樁配套節(jié)奏
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計落地:鼓勵“光儲充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計 -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市