欧美日操-欧美日韩91-欧美日韩99-欧美日韩ay在线观看-xxxx色-xxxx视频在线

大數(shù)據(jù)分析到底需要多少種工具?

2017-12-15 15:46:31 知乎  點(diǎn)擊量: 評論 (0)
大數(shù)據(jù)如今已經(jīng)不再是什么新的名詞,五中全會大數(shù)據(jù)上升為國家戰(zhàn)略,BAT巨頭早已布局多年,大數(shù)據(jù)時代已經(jīng)真正來臨,但我們真的準(zhǔn)備好了么? 大家都知道大數(shù)據(jù)中蘊(yùn)含大量的數(shù)據(jù)價值,比如說淘寶與天貓的

      大數(shù)據(jù)如今已經(jīng)不再是什么新的名詞,五中全會大數(shù)據(jù)上升為國家戰(zhàn)略,BAT巨頭早已布局多年,大數(shù)據(jù)時代已經(jīng)真正來臨,但我們真的準(zhǔn)備好了么?
 

      大家都知道大數(shù)據(jù)中蘊(yùn)含大量的數(shù)據(jù)價值,比如說淘寶與天貓的用戶消費(fèi)行為、滴滴打車可以知道用戶每天去了哪里、用戶在優(yōu)酷上都看了那些視頻、移動運(yùn)營商的海量客戶終端信息以及上網(wǎng)行為等、大型零售商每天的銷售數(shù)據(jù),訂餐網(wǎng)上用戶每天吃了什么,等等大數(shù)據(jù)金礦無處不在。但淘出來的才是金子,否則只是一堆土而 已,即占用場地,還要花錢去保管和維護(hù)這堆土。
 

      大數(shù)據(jù)時代金礦已經(jīng)有了,如何利用好這個金礦,某種意義上取決于我們手上的工具。熟話說“沒有那金剛鉆,就別攬瓷器活”,工具是否適用,直接決定著我們能否進(jìn)行挖金,以及挖金的速度與效率。適合用鐵鍬還是挖掘機(jī),對挖金來說有著質(zhì)的不同。
 

第一個金剛鉆Hadoop
 

      Hadoop是大數(shù)據(jù)時代的第一個金剛鉆。筆者從08年開始研究hadoop源碼,當(dāng)時中文資料還是比較少的,國內(nèi)除了BAT外其他公司用的也很少,初次 接觸hadoop是因為被當(dāng)時公司的流量系統(tǒng)所困擾,當(dāng)時公司網(wǎng)站的流量已經(jīng)達(dá)到了每天接近一個億的水平,最初選擇了postgresql來計算數(shù)據(jù),但 是普通機(jī)器根本無法計算,無奈之下我們花大價錢買了128G內(nèi)存(在當(dāng)時是很奢侈的)的服務(wù)器,運(yùn)行在postgresql的內(nèi)存表里才勉勉強(qiáng)強(qiáng)的計算出 來。直到有一天遇到了hadoop,你懂的,一個HiveSql在幾臺普通硬件的機(jī)器上,一億數(shù)據(jù)幾個小時就出結(jié)果了。


      如今Hadoop已經(jīng)不再神秘,相關(guān)書籍越來越多。但是伴隨著互聯(lián)網(wǎng)技術(shù)的日新月異,Hadoop已經(jīng)不能滿足用戶了。數(shù)據(jù)時效性差,以及查詢的響應(yīng)效率 低,那些對時效性要求較高的用戶場景無法滿足。Hadoo目前面臨兩兩方面的挑戰(zhàn),第一,數(shù)據(jù)從產(chǎn)生到能夠最終出結(jié)果要等待數(shù)小時,時效性較差。第二,多 個Job任務(wù),相互之間爭搶資源,而且由于采用暴力掃描原始數(shù)據(jù)的方式,對機(jī)器資源的消耗太大,每天能夠跑的計算任務(wù)個數(shù)十分有限。
 

第二個利器阿里JStorm
 

      JStorm的出現(xiàn)主要是因為Hadoop滿足不了支付寶成交實時分析的需求。阿里的雙十一活動以及其他活動都有對阿里網(wǎng)站成交流量實時展示的需求,通過運(yùn)營活動,來了解開始的幾分鐘或者幾秒鐘內(nèi),實時流入了多少的流量,帶來多大的成交。正巧當(dāng)時Apache Storm正式開源,阿里團(tuán)隊認(rèn)為Storm正適合阿里的業(yè)務(wù),但是Storm的核心邏輯采用Clojure編寫,熟悉這門語言的太少,另外業(yè)務(wù)需要定制 化的邏輯,故阿里團(tuán)隊花費(fèi)3個多月的時間閱讀Storm的源碼,并將其Clojure部分更換為Java代碼。筆者曾是團(tuán)隊的一員,有幸成為其 committer,離開阿里后,團(tuán)隊其他兄弟將其開源,貢獻(xiàn)了出去,如今Jstorm已經(jīng)被Apache接受,正式成為Storm項目的子項目。
 

      Storm能夠滿足企業(yè)對數(shù)據(jù)時效性的要求,但跟現(xiàn)有的其他大數(shù)據(jù)的實時系統(tǒng)一樣,都是采用預(yù)計算的方式。因流式系統(tǒng)不保存原始日志,數(shù)據(jù)只能安裝固定的 維度和粒度進(jìn)行計算與匯總,例如只能按照淘寶的類目、分鐘等維度匯總統(tǒng)計。眾所周知,運(yùn)營情況是千遍萬化的,很多都是突發(fā)事件,維度并不能預(yù)先固定,很多 事物也需要多方面展示,要經(jīng)過數(shù)次的不同角度、不同粒度的鉆取,來發(fā)現(xiàn)運(yùn)營活動的規(guī)律。基于這種場景,我們需要保留原始日志,同時需要非常快速的對這些原 始日志進(jìn)行快分析與計算。這樣高需求的場景,數(shù)據(jù)工具既要有hadoop+hive計算的靈活性,又要有Jstorm的時效性和速度。Storm就顯出了 它的不足。
 

新生代數(shù)據(jù)挖掘機(jī)延云YDB
 

      YDB是延云針對用戶對大數(shù)據(jù)檢索快速、實時、多維度的需求而開發(fā)的分析軟件,可以說是筆者的心頭好。
 

      YDB將傳統(tǒng)數(shù)據(jù)庫索引技術(shù)應(yīng)用在大數(shù)據(jù)技術(shù)上,打破目前大數(shù)據(jù)計算技術(shù)的僵局。將大數(shù)據(jù)檢索向時效性更強(qiáng),查詢方式更 靈活,執(zhí)行效率更高的方向演進(jìn)。雖然引用傳統(tǒng)索引技術(shù),但是對硬件的需求并不比hadoop高,不會讓小型用戶望而卻步。技術(shù)上YDB采用Java語言編 寫,接地氣,Sql接口用戶也更易于上手使用,同時每天千億增量萬億總量的數(shù)據(jù)量也能滿足高端用戶的需求。YDB主要技術(shù)方向在大索引,大索引的好處在于 加快了檢索的速度,減少查詢中的分組、統(tǒng)計和排序時間,提高系統(tǒng)的性能和響應(yīng)時間來節(jié)約資源。大索引技術(shù)的運(yùn)用才能使YDB在如此大規(guī)模的數(shù)據(jù)量下依然保 持查詢響應(yīng)時間在幾秒,數(shù)據(jù)導(dǎo)入延遲在幾分鐘。
 

      大數(shù)據(jù)時代拼的不僅僅是數(shù)據(jù)量有多大,還要拼速度,拼誰的更快、更準(zhǔn)、成本更低。大數(shù)據(jù)的運(yùn)用領(lǐng)域還在不斷的擴(kuò)張,大索引技術(shù)還有很長的路要走。終有一天大數(shù)據(jù)會帶給我們震撼世界的影響。

大云網(wǎng)官方微信售電那點(diǎn)事兒

責(zé)任編輯:售電衡衡

免責(zé)聲明:本文僅代表作者個人觀點(diǎn),與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。
我要收藏
個贊
?
主站蜘蛛池模板: 国产成人v视频在线观看 | 国产亚洲精品一品区99热 | 在线观看香蕉免费啪在线观看 | 激情综合欧美 | a久久99精品久久久久久不 | 久久精品视频免费观看 | 99久国产| 午夜精品在线 | 成人欧美一区二区三区 | 花季传媒可以看什么 | 中文字幕乱码人成乱码在线视频 | 久草社区视频 | 日韩欧美亚洲国产 | 污污的网站在线免费观看 | 99热精品国产麻豆 | 看黄视频网站 | 亚洲国产日韩在线 | 国产精品国产亚洲精品看不卡 | 天天摸夜夜爽 | 日韩成人免费视频播放 | 精品免费久久久久久久 | 色视频在线网站 | 91大神在线观看精品一区 | 老司机精品在线 | 免费黄色在线观看 | 国产91成人 | 日本天堂在线播放 | 亚洲成网站| 欧美在线观看一区二区三 | 国产精品综合一区二区 | 一级做a爰视频免费观看2019 | 91小视频在线观看免费版高清 | 亚洲综合久久久久久中文字幕 | 国产日韩网站 | 国产免费一区不卡在线 | 色婷婷久久合月综 | 日本高清一区二区三区不卡免费 | 欧美啄木乌成人系列影片 | 婷婷在线综合 | 亚洲高清美女一区二区三区 | 日日操天天操夜夜操 |