數(shù)據(jù)分析與挖掘VS數(shù)據(jù)整理
談到數(shù)據(jù)分析與挖掘,很多人都會提到啤酒與尿布的經(jīng)典案例,盡管這個(gè)案例可以說已經(jīng)非常陳舊了,你怎么看待這一點(diǎn)? 劉德寰:一個(gè)尿布與啤酒,還有一個(gè)現(xiàn)代汽車,是數(shù)據(jù)分析領(lǐng)域的兩個(gè)非常經(jīng)典
談到數(shù)據(jù)分析與挖掘,很多人都會提到啤酒與尿布的經(jīng)典案例,盡管這個(gè)案例可以說已經(jīng)非常陳舊了,你怎么看待這一點(diǎn)?
劉德寰:一個(gè)尿布與啤酒,還有一個(gè)現(xiàn)代汽車,是數(shù)據(jù)分析領(lǐng)域的兩個(gè)非常經(jīng)典案例。但是這兩個(gè)案例都發(fā)生在20年前,數(shù)據(jù)挖掘已經(jīng)談了五十年,但卻再沒有第三個(gè)、第四個(gè)經(jīng)典案例出現(xiàn)。這是因?yàn)楝F(xiàn)有的數(shù)據(jù)挖掘技術(shù)不能給商業(yè)決策者帶來真正的洞察。其實(shí),這更應(yīng)該叫做數(shù)據(jù)整理。數(shù)據(jù)整理是什么?就如瞎子摸象,數(shù)據(jù)整理并沒有摸清楚事物背后真正的規(guī)律,只是基于局部數(shù)據(jù)、某種行為監(jiān)測整理出來的一個(gè)模型,這個(gè)模型甚至不能回答這個(gè)人想干什么,喜歡什么,這個(gè)人是怎樣的人這些問題。
所以,要做數(shù)據(jù)分析與挖掘,首先就要把規(guī)律弄明白,把分析方法弄明白。
CIOI:大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘應(yīng)該怎么做,才能得出隱藏在無數(shù)假規(guī)律后面的真實(shí)結(jié)論?
劉德寰:上面已經(jīng)提到,現(xiàn)在所說的大數(shù)據(jù)主要指的是互聯(lián)網(wǎng)領(lǐng)域的大數(shù)據(jù)。互聯(lián)網(wǎng)用戶的基本特征、消費(fèi)行為、上網(wǎng)行為、渠道偏好、行為喜好、生活軌跡與位置等,都反映用戶的基本行為規(guī)律。體系完整是所有分析性工作的第一步,完整的框架甚至勝過高深的模型。
歷程——族群——規(guī)律——驗(yàn)證,這是我認(rèn)為比較好的數(shù)據(jù)分析與挖掘的框架。先要走歷程,看整個(gè)事態(tài)發(fā)展的歷程,找尋這個(gè)歷程當(dāng)中各個(gè)族群的規(guī)律,然后把這種規(guī)律,用抽樣的方式找完之后,放置到大數(shù)據(jù)當(dāng)中去不斷地重新彌合。亞馬遜從開始到現(xiàn)在一直是這樣的思路,這也是亞馬遜的廣告推薦能夠做到精準(zhǔn)的原因,原因就在于其不是就大數(shù)據(jù)談大數(shù)據(jù),而是就人來談大數(shù)據(jù)。
這也是數(shù)據(jù)挖掘的基本邏輯。數(shù)據(jù)挖掘的商業(yè)本質(zhì)、結(jié)論,一定要極其簡單,但是挖掘的過程一定要復(fù)雜復(fù)雜再復(fù)雜。如果反過來,數(shù)據(jù)挖掘過程很簡單,一抓取,一排列,得出的結(jié)論五花八門,這是大數(shù)據(jù)時(shí)代面臨的巨大風(fēng)險(xiǎn)。
CIOI:要做好數(shù)據(jù)挖掘,還需要關(guān)注哪些呢?
劉德寰:舉個(gè)例子說明。有一個(gè)女性,突然一改以往的習(xí)慣,開始購買無香型乳液,同時(shí)購買某種維他命,微量元素中的鋅和鎂。這三種行為改變結(jié)合在一起說明,這個(gè)女性懷孕了。在這個(gè)過程中,我們有最基本的人的行為跟蹤以及最基本的社會公共衛(wèi)生知識的了解,這時(shí)候商家開始對其進(jìn)行分析和營銷,計(jì)算她的預(yù)產(chǎn)期,然后推薦各種嬰兒產(chǎn)品廣告。但是,商家一定要明白,如果這個(gè)人知道商家知道她懷孕了,她可能會非常的焦慮,因?yàn)樗芸赡懿幌氡蝗税l(fā)現(xiàn)她懷孕了。這時(shí)候,如果商家將嬰兒床的廣告放在稻草機(jī)的廣告邊上,然后一起給她,她的焦慮就會大幅降低。
這樣才能真正做好數(shù)據(jù)挖掘。首先,生活變,行為才會變,要將關(guān)注點(diǎn)放在變化上。另外,非常重要的一點(diǎn)是,要關(guān)注人性,了解人性,要充分表現(xiàn)出對人的關(guān)懷。
CIOI:這也就是你一直說純IT人員無法做好數(shù)據(jù)挖掘的原因吧?
劉德寰:對,要做好數(shù)據(jù)挖掘,必須要有市場研究人員、IT人員以及營銷人員通力合作。數(shù)據(jù)建模首先要理解消費(fèi)者,然后才能建立符合中國人的數(shù)據(jù)模型,要做到這些IT人員需要市場研究人員及營銷人員的幫助。
CIOI:對于CIO們真正認(rèn)識大數(shù)據(jù),你有什么建議?
劉德寰:現(xiàn)實(shí)互聯(lián)網(wǎng)領(lǐng)域被幾本關(guān)于大數(shù)據(jù)的書籍所累,觀念十分混亂,實(shí)際上,人類積累的數(shù)據(jù)經(jīng)驗(yàn)是一切分析的基礎(chǔ),包括所謂的海量數(shù)據(jù),這幾本書的方法論橫空出世,同時(shí)又沒有落地,沒有實(shí)際操作經(jīng)驗(yàn)積累,誤導(dǎo)性太強(qiáng)。要在認(rèn)識的過程中,多向自己和他人提出問題,在思想碰撞與交流中促進(jìn)思索,實(shí)現(xiàn)更深層次的認(rèn)知。
劉德寰:一個(gè)尿布與啤酒,還有一個(gè)現(xiàn)代汽車,是數(shù)據(jù)分析領(lǐng)域的兩個(gè)非常經(jīng)典案例。但是這兩個(gè)案例都發(fā)生在20年前,數(shù)據(jù)挖掘已經(jīng)談了五十年,但卻再沒有第三個(gè)、第四個(gè)經(jīng)典案例出現(xiàn)。這是因?yàn)楝F(xiàn)有的數(shù)據(jù)挖掘技術(shù)不能給商業(yè)決策者帶來真正的洞察。其實(shí),這更應(yīng)該叫做數(shù)據(jù)整理。數(shù)據(jù)整理是什么?就如瞎子摸象,數(shù)據(jù)整理并沒有摸清楚事物背后真正的規(guī)律,只是基于局部數(shù)據(jù)、某種行為監(jiān)測整理出來的一個(gè)模型,這個(gè)模型甚至不能回答這個(gè)人想干什么,喜歡什么,這個(gè)人是怎樣的人這些問題。
所以,要做數(shù)據(jù)分析與挖掘,首先就要把規(guī)律弄明白,把分析方法弄明白。
CIOI:大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘應(yīng)該怎么做,才能得出隱藏在無數(shù)假規(guī)律后面的真實(shí)結(jié)論?
劉德寰:上面已經(jīng)提到,現(xiàn)在所說的大數(shù)據(jù)主要指的是互聯(lián)網(wǎng)領(lǐng)域的大數(shù)據(jù)。互聯(lián)網(wǎng)用戶的基本特征、消費(fèi)行為、上網(wǎng)行為、渠道偏好、行為喜好、生活軌跡與位置等,都反映用戶的基本行為規(guī)律。體系完整是所有分析性工作的第一步,完整的框架甚至勝過高深的模型。
歷程——族群——規(guī)律——驗(yàn)證,這是我認(rèn)為比較好的數(shù)據(jù)分析與挖掘的框架。先要走歷程,看整個(gè)事態(tài)發(fā)展的歷程,找尋這個(gè)歷程當(dāng)中各個(gè)族群的規(guī)律,然后把這種規(guī)律,用抽樣的方式找完之后,放置到大數(shù)據(jù)當(dāng)中去不斷地重新彌合。亞馬遜從開始到現(xiàn)在一直是這樣的思路,這也是亞馬遜的廣告推薦能夠做到精準(zhǔn)的原因,原因就在于其不是就大數(shù)據(jù)談大數(shù)據(jù),而是就人來談大數(shù)據(jù)。
這也是數(shù)據(jù)挖掘的基本邏輯。數(shù)據(jù)挖掘的商業(yè)本質(zhì)、結(jié)論,一定要極其簡單,但是挖掘的過程一定要復(fù)雜復(fù)雜再復(fù)雜。如果反過來,數(shù)據(jù)挖掘過程很簡單,一抓取,一排列,得出的結(jié)論五花八門,這是大數(shù)據(jù)時(shí)代面臨的巨大風(fēng)險(xiǎn)。
CIOI:要做好數(shù)據(jù)挖掘,還需要關(guān)注哪些呢?
劉德寰:舉個(gè)例子說明。有一個(gè)女性,突然一改以往的習(xí)慣,開始購買無香型乳液,同時(shí)購買某種維他命,微量元素中的鋅和鎂。這三種行為改變結(jié)合在一起說明,這個(gè)女性懷孕了。在這個(gè)過程中,我們有最基本的人的行為跟蹤以及最基本的社會公共衛(wèi)生知識的了解,這時(shí)候商家開始對其進(jìn)行分析和營銷,計(jì)算她的預(yù)產(chǎn)期,然后推薦各種嬰兒產(chǎn)品廣告。但是,商家一定要明白,如果這個(gè)人知道商家知道她懷孕了,她可能會非常的焦慮,因?yàn)樗芸赡懿幌氡蝗税l(fā)現(xiàn)她懷孕了。這時(shí)候,如果商家將嬰兒床的廣告放在稻草機(jī)的廣告邊上,然后一起給她,她的焦慮就會大幅降低。
這樣才能真正做好數(shù)據(jù)挖掘。首先,生活變,行為才會變,要將關(guān)注點(diǎn)放在變化上。另外,非常重要的一點(diǎn)是,要關(guān)注人性,了解人性,要充分表現(xiàn)出對人的關(guān)懷。
CIOI:這也就是你一直說純IT人員無法做好數(shù)據(jù)挖掘的原因吧?
劉德寰:對,要做好數(shù)據(jù)挖掘,必須要有市場研究人員、IT人員以及營銷人員通力合作。數(shù)據(jù)建模首先要理解消費(fèi)者,然后才能建立符合中國人的數(shù)據(jù)模型,要做到這些IT人員需要市場研究人員及營銷人員的幫助。
CIOI:對于CIO們真正認(rèn)識大數(shù)據(jù),你有什么建議?
劉德寰:現(xiàn)實(shí)互聯(lián)網(wǎng)領(lǐng)域被幾本關(guān)于大數(shù)據(jù)的書籍所累,觀念十分混亂,實(shí)際上,人類積累的數(shù)據(jù)經(jīng)驗(yàn)是一切分析的基礎(chǔ),包括所謂的海量數(shù)據(jù),這幾本書的方法論橫空出世,同時(shí)又沒有落地,沒有實(shí)際操作經(jīng)驗(yàn)積累,誤導(dǎo)性太強(qiáng)。要在認(rèn)識的過程中,多向自己和他人提出問題,在思想碰撞與交流中促進(jìn)思索,實(shí)現(xiàn)更深層次的認(rèn)知。
責(zé)任編輯:廖生玨
免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個(gè)贊
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵“光儲充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設(shè)將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設(shè)下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設(shè)典型實(shí)踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進(jìn)這個(gè)行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎(chǔ)設(shè)施,電力新基建 -
燃料電池汽車駛?cè)雽こ0傩占疫€要多久?
-
備戰(zhàn)全面電動化 多部委及央企“定調(diào)”充電樁配套節(jié)奏
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵“光儲充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市