趣侃大數(shù)據(jù):人人都有洞察力
言,我認為是幾個因素共同導致了這一朗朗上口的詞匯的流行。其中之一是人們在不同領域采集到的數(shù)據(jù)量之大,達到了前所未有的程度,而傳感、存儲和網(wǎng)絡等計算機科學領域也在不斷前行。人們需要收集大量數(shù)據(jù),一部分原因在于許多人類活動已經(jīng)轉向了網(wǎng)絡,各種交易和事件數(shù)據(jù)的收集變得十分容易,而且能夠實時同步收集。這些活動包括電子商務、通過道路上的傳感器記錄汽車行駛狀況、利用位置數(shù)據(jù)提供智能手機服務等。而在醫(yī)療領域,基因組研究的突飛猛進和醫(yī)院臨床數(shù)據(jù)捕獲,將越來越多的GB級乃至TB級患者數(shù)據(jù)輸送到數(shù)據(jù)庫中。
吳甘沙:數(shù)據(jù)總量的增長主要歸功于非結構化數(shù)據(jù)的增長,目前普遍被認為占到85%以上,而且增速比結構化數(shù)據(jù)快得多,有種說法是快10—50倍。
早期的非結構化數(shù)據(jù),主要是文本,如電子郵件、文檔等。隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,又擴展到網(wǎng)頁、社交媒體、感知數(shù)據(jù),涵蓋音頻、圖片、視頻、模擬信號等等,真正詮釋了數(shù)據(jù)的多樣性。但同時,低信息密度的非結構化數(shù)據(jù)是大數(shù)據(jù)的一大挑戰(zhàn)。
從具體內容上,大數(shù)據(jù)通常分為四類:科研數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、企業(yè)數(shù)據(jù)、感知數(shù)據(jù)。
科研數(shù)據(jù)屬于大數(shù)據(jù)時代前很久就存在的“史前生物”,可能來自生物工程、天文望遠鏡或粒子對撞機,不一而足。這些數(shù)據(jù)存在于封閉系統(tǒng)中,玩家都是傳統(tǒng)上做高性能計算的企業(yè)或機構。最著名的是歐洲核子研究中心的大型強子對撞機,此機不撞則已,一撞驚人,工作狀態(tài)下每秒產(chǎn)生PB級的數(shù)據(jù)。
互聯(lián)網(wǎng)大數(shù)據(jù)是目前這個時代的主流,尤其社交媒體被認為是大數(shù)據(jù)的爆發(fā)點。幾乎所有的大數(shù)據(jù)技術都起源于互聯(lián)網(wǎng)企業(yè)。所有這些企業(yè)當中,做搜索的最大,百度達到了千PB的規(guī)模,谷歌更大一些。臉譜網(wǎng)、雅虎等都在數(shù)百PB,亞馬遜、阿里巴巴應該也同在此列。
進入移動互聯(lián)網(wǎng)時代后,移動平臺的感知功能和LBS(基于位置的服務)的普及,使得互聯(lián)網(wǎng)數(shù)據(jù)與感知數(shù)據(jù)產(chǎn)生了重疊。同樣,企業(yè)數(shù)據(jù)和感知數(shù)據(jù)也有重合,如企業(yè)會部署物聯(lián)網(wǎng)收集感知數(shù)據(jù)。但感知數(shù)據(jù)的體量要大得多,甚至有預測感知數(shù)據(jù)的總量在2015年超過社交媒體,并達到后者的10—20倍。企業(yè)自身的數(shù)據(jù)比起十年前雖然沒有數(shù)量級的提升,但也得到了有機的增長:一方面,內部數(shù)據(jù)從結構化數(shù)據(jù)擴展到非結構化的數(shù)據(jù),另一方面,更強調與新的外部數(shù)據(jù)源如社交媒體數(shù)據(jù)的融合。
大數(shù)據(jù)的價值在于獲得洞察力
記者:雖然有多種解讀,但業(yè)界一般認為,大數(shù)據(jù)有四個“V”字開頭的特征:Volume(體量), Velocity(速度), Variety(種類),Value(價值)。這其實也是大數(shù)據(jù)概念的組成。Volume是指大數(shù)據(jù)巨大的數(shù)據(jù)量與數(shù)據(jù)完整性;Velocity可以理解為更快地滿足實時性需求;Variety則意味著要在海量、種類繁多的數(shù)據(jù)間發(fā)現(xiàn)其內在關聯(lián);Value最重要,它是大數(shù)據(jù)的最終意義——獲得洞察力和價值。簡單說,大數(shù)據(jù)4個V:就是體量大,快速化,類型雜,價值大。
張亞勤:體量容易理解。速度可以理解為更快地滿足實時性需求。數(shù)據(jù)的實時化需求正越來越清晰。對普通人而言,開車去吃飯,會先用移動終端中的地圖查詢餐廳的位置,預計行車路線的擁堵情況,了解停車場信息甚至是其他用戶對餐廳的評論。吃飯時,會用手機拍攝食物的照片,編輯簡短評論發(fā)布到微博或者微信上,還可以用LBS應用查找在同一間餐廳吃飯的人,看有沒有好友在附近……
通過各種有線和無線網(wǎng)絡,人和人、人和各種機器、機器和機器之間產(chǎn)生無處不在的連接,這些連接不可避免地帶來數(shù)據(jù)交換。而數(shù)據(jù)交換的關鍵是降低延遲,以近乎實時——意味著小于250毫秒的方式呈獻給用戶。
類型雜必然促使我們對海量數(shù)據(jù)進行分析、處理和集成,找出原本看來毫無關系的那些數(shù)據(jù)的關聯(lián)性,把似乎沒有用的數(shù)據(jù)變成有用的信息,以支持我們做出的判斷,最終形成大數(shù)據(jù)的價值——獲得洞察力和價值。
大數(shù)據(jù)的崛起,正是在人工智能、機器學習和數(shù)據(jù)挖掘等技術的迅速發(fā)展驅動下,呈現(xiàn)這么一個過程:將信號轉化為數(shù)據(jù),將數(shù)據(jù)分析為信息,將信息提煉為知識,以知識促成決策和行動。所以真正好的大數(shù)據(jù)系統(tǒng),重要的不是越多越好,其實越少越好,最終變成一個決策,這才是最關鍵的。
大數(shù)據(jù)開啟了一個新的世界,人們
責任編輯:廖生玨
-
權威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產(chǎn)業(yè),設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務,新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設典型實踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進這個行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎設施,電力新基建 -
燃料電池汽車駛入尋常百姓家還要多久?
-
備戰(zhàn)全面電動化 多部委及央企“定調”充電樁配套節(jié)奏
-
權威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產(chǎn)業(yè),設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務,新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市