浩瀚深度劉彤解讀大數(shù)據(jù)分析之道
主持人:彭超 中國信息產(chǎn)業(yè)網(wǎng)常務(wù)副總裁訪談嘉賓:劉彤 北京浩瀚深度信息技術(shù)股份有限公司副總裁北京浩瀚深度信息技術(shù)股份有限公司副總裁劉彤做客中國信息產(chǎn)業(yè)網(wǎng)(點擊播放)精彩觀點·大數(shù)據(jù)本身雖然叫大數(shù)據(jù),
主持人:剛剛說到,在大數(shù)據(jù)采集方面技術(shù)已經(jīng)不是大問題,但是在對數(shù)據(jù)進行多維度疊加分析時,每疊加一個維度所帶來的計算量的差別,是什么樣的一個關(guān)系?數(shù)據(jù)的處理能力又會有哪些區(qū)別?
劉彤:每做一個維度的疊加必然會帶來數(shù)據(jù)量的增長,這是一個很簡單的邏輯問題。作為運算來說,維度的疊加會帶來數(shù)據(jù)量的級數(shù)增長,但是在應(yīng)用場景確定的情況下,數(shù)據(jù)又是在做收斂的,是在做層層的過濾,而不是層層的疊加,數(shù)據(jù)是在過濾的過程中做高密度疊加的。在這種情況下,并沒有帶來想象中的數(shù)據(jù)膨脹,這是大數(shù)據(jù)和傳統(tǒng)應(yīng)用系統(tǒng)的一個很大的區(qū)別。
以前的關(guān)系型數(shù)據(jù)庫在進行分析時如果疊加維度,疊加到三個以上,處理能力就非常非常慢了,因為在進行數(shù)據(jù)處理的過程中,需要把每個維度同每一個數(shù)據(jù)進行關(guān)聯(lián),建立關(guān)系,這種方法是把全網(wǎng)的數(shù)據(jù)都進行組合、關(guān)聯(lián)、疊加,數(shù)據(jù)處理的效率就會直線下降。
大數(shù)據(jù)分析的特點是,不是把全部數(shù)據(jù)都同時疊加,而是在每一個維度都展開分析,在分析的過程中進行過濾篩選。舉個簡單的例子,比如會場里有很多人,這么多人里按男女分類,先把男士挑出來,然后對男士的年齡段進行篩選,先把年齡段在20-40歲的選出來,再從中選出戴眼鏡的,會發(fā)現(xiàn)選出的人越來越少,要分析的對象越來越精確,數(shù)據(jù)量變大了嗎?其實沒有。但是如果同時要得到這些維度在每一個可能分析方向的結(jié)果,就等于把所有運算做了一遍。這就帶出了在大數(shù)據(jù)分析里一個非常核心的要素:選定目標。必須要有一個清晰的工作目標,先有目標,然后進行大數(shù)據(jù)篩選,而不是對數(shù)據(jù)進行全面的分析、全量的分析,得出所有的結(jié)論,再在結(jié)論里去找所需要的東西。
主持人:在對大數(shù)據(jù)進行分析的過程中,分析方法的差別可能會導(dǎo)致不同的結(jié)論,而這些結(jié)論也都是基于大數(shù)據(jù)分析的,如何才能確保制定了目標之后,得到正確的結(jié)論?
劉彤:這個問題從分析的角度來說,很難進行解答,因為做大數(shù)據(jù)的目標選擇,包括分析方法的確定、分析的流程步驟制定,輸出結(jié)果,怎么樣去正確的解讀數(shù)據(jù)結(jié)果,是需要經(jīng)驗的積累的。
大數(shù)據(jù)分析實際上是數(shù)學(xué)建模的過程,通過海量數(shù)據(jù)分析的過程,找到一些模型的規(guī)律,根據(jù)這些規(guī)律總結(jié)出相關(guān)的結(jié)論,而這些規(guī)律的搜集和積累過程是必須的,不能憑空拿出一些數(shù)據(jù)去做分析,馬上得出目標性的結(jié)論。
在第一次進行數(shù)據(jù)分析的時候,實際上是沒有任何參照的,在不知道行業(yè)運行方式、數(shù)據(jù)來源、數(shù)據(jù)使用方式的情況下去做數(shù)據(jù)分析是不科學(xué)的。數(shù)據(jù)分析,需要不斷累積經(jīng)驗,基于數(shù)據(jù)所包含的信息量確定目標,再通過正確的分析方式,得到正確的結(jié)論。
確定目標的過程,是基于對數(shù)據(jù)的基礎(chǔ)分析判斷,其實在選定目標的時候,目標的制定者已經(jīng)有了大致的分析計劃表,他知道要進行幾個維度的篩選疊加后能夠逼近分析結(jié)論。數(shù)據(jù)分析工程師在進行數(shù)據(jù)處理的時候,是依據(jù)目標制定者的思路來進行數(shù)據(jù)的逼近,逼近過程中,核心的保障不在于分析方法,因為分析方法已經(jīng)確定了,而是在于數(shù)據(jù)分析的質(zhì)量:數(shù)據(jù)是不是準確,是不是全面,是不是可靠,這些數(shù)據(jù)的有效性、延續(xù)性,是不是足夠滿足你的分析。這個過程是慢慢擴大對數(shù)據(jù)認知的過程,認知程度越深,驗證數(shù)據(jù)是不是有效可靠的過程就越順利,逼近結(jié)果的過程也就越順利,就會變成一個高效率的工作,并且會得出正確的結(jié)論。
大數(shù)據(jù)有一個好處是,在大數(shù)據(jù)應(yīng)用的時候并不像傳統(tǒng)數(shù)據(jù),展現(xiàn)的時候必須馬上給出結(jié)果,大數(shù)據(jù)的析結(jié)果是可以進行調(diào)整和修正的,會隨著結(jié)果與真實情況的驗證、對比來修正分析方法和模型,以便選擇更有效、更可靠的模型去逼近正確的結(jié)論。

責任編輯:葉雨田
免責聲明:本文僅代表作者個人觀點,與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。
我要收藏
個贊
-
曹志剛:我們期待風電成為中國的主力能源
2020-11-17風電,能源,主力能源 -
張鈞:未來配電網(wǎng)內(nèi)涵特征與發(fā)展框架研究
-
習(xí)近平:持續(xù)增強電力裝備、新能源等領(lǐng)域的全產(chǎn)業(yè)鏈優(yōu)勢
2020-11-02電力裝備,新能源,通信設(shè)備
-
曹志剛:我們期待風電成為中國的主力能源
2020-11-17風電,能源,主力能源 -
張鈞:未來配電網(wǎng)內(nèi)涵特征與發(fā)展框架研究
-
杜祥琬:創(chuàng)新觀念,推動能源高質(zhì)量發(fā)展
2020-09-28能源,創(chuàng)新,觀點
-
PPT丨王繼業(yè):電力系統(tǒng)儲能發(fā)展與挑戰(zhàn)
2020-10-14儲能,電力儲能,儲能應(yīng)用 -
奮斗姿態(tài)書寫人生底色 銀隆儲能“小哥哥”的職場進擊姿勢
2020-10-12銀隆新能源,儲能,新能源汽車 -
鄒驥:通過發(fā)展清潔能源 提高中國公信力
2020-06-28鄒驥,清潔能源,綠色低碳能源