大數(shù)據技術實施與應用
在發(fā)展歷程上,大數(shù)據與云計算很類似,開始都搞不清是什么概念,但有很多人在說,難免南轅北轍。一個非常有趣現(xiàn)象:會有很多人說大數(shù)據不是什么,但很少有人說是什么。但這都不妨礙大數(shù)據成為產業(yè)發(fā)展趨勢。
當務之急是不糾纏于概念,直接關注有哪些應用可以落地,可以采用哪些大數(shù)據技術。
技術三分天下
傳統(tǒng)數(shù)據處理技術以數(shù)據庫技術為主,主要應用在聯(lián)機事物處理(OLTP)的應用場合,后來的數(shù)據倉庫、數(shù)據集市都是數(shù)據庫技術的發(fā)展和延伸。數(shù)據庫技術已經有30年的歷史,可以將其概括為一句話“一種架構支持所有應用”。數(shù)據庫技術以結構化數(shù)據為主,而結構化數(shù)據也是價值密度最高的數(shù)據。而半結構化數(shù)據、非結構化數(shù)據價值密度相對比較低,如果采用傳統(tǒng)數(shù)據庫技術處理這些數(shù)據,會被認為得不償失。
大數(shù)據時代,以Hadoop為代表的NoSQL技術,以列式數(shù)據處理為代表的MPP NewSQL技術應運而生,為半結構化數(shù)據、非結構化數(shù)據提供了技術支撐基礎,以互聯(lián)網企業(yè)為代表,創(chuàng)造了各種新的商業(yè)模式,也開啟了大數(shù)據應用的時代。
在大數(shù)據時代,對于分析類應用的需求不斷增加,特別對于傳統(tǒng)行業(yè)/企業(yè),大數(shù)據分析需求首先包括結構化數(shù)據,這已經分析了30多年,如今結構化數(shù)據分析需要與各種半結構化數(shù)據、非結構化數(shù)據分析相結合,用全數(shù)據的視野,指導行業(yè)/企業(yè)的業(yè)務應用和實踐。這就導致一種架構難以完全滿足大數(shù)據的需求,“多種架構支持多類應用”就成為了大數(shù)據處理應用的基本思路,出現(xiàn)了OldSQL、NewSQL和NoSQL三分天下的市場格局。
傳統(tǒng)OldSQL數(shù)據庫以Oracle、IBM DB2、Sybase等為主,NewSQL以EMC Greenplum、HP Vertica、SAPSybaseIQ、Teradata、IBM Netezza、微軟PDW以及南大通用的Gbase 8a 為主;而NoSQL包括Cassandra、Mon goDB、CouchDB、Redis、Riak和Hbase等,豐富的產品技術為用戶提供了豐富的選擇。
混搭不可避免
大數(shù)據應用采用多種架構支撐不可避免。據中國移動業(yè)務支撐系統(tǒng)部高級工程師何鴻凌介紹,中國移動就采用了MPP和Hadoop混搭架構,配合原有數(shù)據倉系統(tǒng),開展大數(shù)據的應用。其中,傳統(tǒng)DW(數(shù)據倉庫)做高價值數(shù)據,也就是結構化數(shù)據的加工,MPP做長期結構化數(shù)據的存儲和自助分析,Hadoop用于非結構化數(shù)據處理、挖掘和歷史存儲。
何鴻凌表示,MPP是將傳統(tǒng)分布式數(shù)據庫的理論運行在X86上的實踐,用列存、內存和副本等進行了優(yōu)化。MPP基本可以替代傳統(tǒng)DW,但在大數(shù)據時代,還是有挑戰(zhàn)。那就是由于它精確地進行數(shù)據分布的原因,可擴展性和高可用比較難以達到。按照CAP理論,一種系統(tǒng)不可能什么都追求。因此國內較大的MPP集群也就幾十個節(jié)點,國際上可以看到100~200節(jié)點的集群。根據中國移動數(shù)據處理得需求,起碼也需要300~400個節(jié)點。
“大數(shù)據主要是要應用,而現(xiàn)在很多的應用都不是由IT開發(fā)的,是自助的,這就需要MPP中要提供沙盒,讓業(yè)務部門或第三方能自助地分析和開發(fā)。我們當然不希望每個沙盒都是物理的MPP集群,這樣不僅安裝維護復雜,而且會造成數(shù)據重復。所以我們希望的是讓MPP的能力像云計算那樣對外提供按需服務,實現(xiàn)虛擬化。”他說。
談到Hadoop,中國移動認為Hbase和HDFS很好,但Map/Reduce使用起來需要一些技術能力,Hadoop 2.0中Map/Reduce已經不再是唯一的執(zhí)行框架,而縮減為Yarn框架下的一個應用了。對于Hadooperyan,其優(yōu)勢在于數(shù)據處理的成本,較之數(shù)據倉庫內廉價很多,但在效率上還有差距,這是其數(shù)據分布策略所造成所的,這也是為什么中國移動還要選擇MPP進行混搭因。
Hadoop技術難點主要是在Map/Reduce、各個作業(yè)之間都需要落地到HDFS上,這個效率會很差,而且沒有全局優(yōu)化。Spark解決了這些問題,包括用內存緩存、流水線和全局優(yōu)化,因此中國移動用Spark作為處理引擎。據了解,中國移動準備將長期數(shù)據放到Hadoop上做自助查詢,既能縮小MPP的規(guī)模,也能降低成本,當然這樣的查詢效率就不如在MPP上了。
大數(shù)據應用落地情況
混搭也好,多種模式也好,運用這些框架和技術手段的大數(shù)據應用,究竟會對現(xiàn)有模式產生哪些影響呢?大數(shù)據應用又是怎么樣落地接地氣的呢?也許中國移動的大數(shù)據應用實踐會給我們一些啟示。
總結來看,中國移動大數(shù)據應用有三個方面:一是讓中國移動現(xiàn)有商業(yè)模式更加有競爭力;二是發(fā)掘新的商業(yè)模式,讓別的行

責任編輯:張星光
-
權威發(fā)布 | 新能源汽車產業(yè)頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業(yè),設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務,新能源消納,能源互聯(lián)網
-
新基建助推 數(shù)據中心建設將迎爆發(fā)期
2020-06-16數(shù)據中心,能源互聯(lián)網,電力新基建 -
泛在電力物聯(lián)網建設下看電網企業(yè)數(shù)據變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網 -
泛在電力物聯(lián)網建設典型實踐案例
2019-10-15泛在電力物聯(lián)網案例
-
新基建之充電樁“火”了 想進這個行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎設施,電力新基建 -
燃料電池汽車駛入尋常百姓家還要多久?
-
備戰(zhàn)全面電動化 多部委及央企“定調”充電樁配套節(jié)奏
-
權威發(fā)布 | 新能源汽車產業(yè)頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業(yè),設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務,新能源消納,能源互聯(lián)網 -
5G新基建助力智能電網發(fā)展
2020-06-125G,智能電網,配電網 -
從智能電網到智能城市