欧美日操-欧美日韩91-欧美日韩99-欧美日韩ay在线观看-xxxx色-xxxx视频在线

為什么大數(shù)據(jù)需要數(shù)據(jù)湖?

2018-06-08 15:49:05 高端存儲(chǔ)知識(shí)  點(diǎn)擊量: 評(píng)論 (0)
今天西瓜哥作為嘉賓參加了2018中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)銅仁分論壇,感覺(jué)銅仁在大數(shù)據(jù)的落地這塊做得非常好,應(yīng)用很多,豐富多彩。但是,這些應(yīng)用各種獨(dú)立,底層的數(shù)據(jù)共享不夠。如果引入數(shù)據(jù)湖的概念,打造一個(gè)高效的數(shù)據(jù)底座,將會(huì)大大提高數(shù)據(jù)的共享,提高數(shù)據(jù)的利用價(jià)值

前言:

2014626日,西瓜哥在高端存儲(chǔ)知識(shí)公眾號(hào)發(fā)表了一篇文章”你知道數(shù)據(jù)湖泊(DATA LAKE)嗎?”一文,首次把數(shù)據(jù)湖這個(gè)概念引入中國(guó)。由于那時(shí)還沒(méi)有標(biāo)準(zhǔn)的翻譯,為了和數(shù)據(jù)倉(cāng)庫(kù)術(shù)語(yǔ)字?jǐn)?shù)對(duì)齊,翻譯成數(shù)據(jù)湖泊。現(xiàn)在,數(shù)據(jù)湖已經(jīng)得到快速發(fā)展,很多廠商都推出了自己的解決方案。

今天西瓜哥作為嘉賓參加了2018中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)銅仁分論壇,感覺(jué)銅仁在大數(shù)據(jù)的落地這塊做得非常好,應(yīng)用很多,豐富多彩。但是,這些應(yīng)用各種獨(dú)立,底層的數(shù)據(jù)共享不夠。如果引入數(shù)據(jù)湖的概念,打造一個(gè)高效的數(shù)據(jù)底座,將會(huì)大大提高數(shù)據(jù)的共享,提高數(shù)據(jù)的利用價(jià)值和效率。

因此,我今天選登一篇文章,幫助大家認(rèn)識(shí)到數(shù)據(jù)湖的價(jià)值,希望以后搞大數(shù)據(jù)前,要提前規(guī)劃好數(shù)據(jù)湖。

匯聚成湖,乘云筑數(shù)

——云上大數(shù)據(jù)的最佳拍檔:數(shù)據(jù)湖

作者:張帥,許鐘生

2011年“數(shù)據(jù)湖”概念被提出,業(yè)界便對(duì)數(shù)據(jù)湖一直有著廣泛而不同的理解和定義。

“數(shù)據(jù)湖是一個(gè)集中化存儲(chǔ)海量的、多個(gè)來(lái)源,多種類型數(shù)據(jù),并可以對(duì)數(shù)據(jù)進(jìn)行快速加工,分析的平臺(tái),本質(zhì)上是一套先進(jìn)的企業(yè)數(shù)據(jù)架構(gòu)。”——這是對(duì)數(shù)據(jù)湖比較清晰且完整的定義。然而,從定義上看不出數(shù)據(jù)湖對(duì)企業(yè)的重要性,本文從數(shù)據(jù)湖架構(gòu)的發(fā)展,數(shù)據(jù)平臺(tái)對(duì)企業(yè)的重要性,華為數(shù)據(jù)湖方案等角度闡明數(shù)據(jù)湖的對(duì)企業(yè)的價(jià)值。

一、數(shù)據(jù)湖架構(gòu)的發(fā)展

數(shù)據(jù)湖架構(gòu)一直在不斷變革和發(fā)展,很多場(chǎng)景下,大家很容易將數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行混淆,數(shù)據(jù)湖方案最初確實(shí)是為解決數(shù)據(jù)倉(cāng)庫(kù)笨重,高成本,冗長(zhǎng)的分析周期等問(wèn)題而生,但是二者又有著明顯的不同,同時(shí)伴隨著云計(jì)算、大數(shù)據(jù)、人工智能技術(shù)的發(fā)展,數(shù)據(jù)湖與之不斷融合,數(shù)據(jù)湖的架構(gòu)也在不斷完善。

數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別

數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)之間的異同點(diǎn)有很多,很容易混淆,但是最重要的區(qū)別有兩個(gè):

  1. 存儲(chǔ)數(shù)據(jù)類型:數(shù)據(jù)倉(cāng)庫(kù)是存儲(chǔ)數(shù)據(jù),進(jìn)行建模,存儲(chǔ)的是結(jié)構(gòu)化數(shù)據(jù);數(shù)據(jù)湖以其本源格式保存大量原始數(shù)據(jù),包括結(jié)構(gòu)化的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。在需要數(shù)據(jù)之前,沒(méi)有定義數(shù)據(jù)結(jié)構(gòu)和需求。
  2. 數(shù)據(jù)處理模式:在我們可以加載到數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),我們首先需要定義好它,這叫做寫時(shí)模式(Schema-On-Write)。而對(duì)于數(shù)據(jù)湖,您只需加載原始數(shù)據(jù),然后,當(dāng)您準(zhǔn)備使用數(shù)據(jù)時(shí),就給它一個(gè)定義,這叫做讀時(shí)模式(Schema-On-Read)。這是兩種截然不同的數(shù)據(jù)處理方法。因?yàn)閿?shù)據(jù)湖是在數(shù)據(jù)到使用時(shí)再定義模型結(jié)構(gòu),因此提高了數(shù)據(jù)模型定義的靈活性,可滿足更多不同上層業(yè)務(wù)的高效率分析訴求。

數(shù)據(jù)湖與新技術(shù)的融合與發(fā)展

1、數(shù)據(jù)湖與大數(shù)據(jù)技術(shù)的融合

Hadoop技術(shù)已經(jīng)經(jīng)歷了十幾年的發(fā)展,而數(shù)據(jù)湖作為第二數(shù)據(jù)平面最重要的數(shù)據(jù)平臺(tái),與Hadoop技術(shù)的融合越來(lái)越緊密,相輔相成,相得益彰。例如:HBase可以讓數(shù)據(jù)湖保存海量數(shù)據(jù);Spark 使得數(shù)據(jù)湖可以更快的批量分析海量數(shù)據(jù);StormFlinkNiFi等使數(shù)據(jù)湖能夠?qū)崟r(shí)接入和處理IOT數(shù)據(jù)。Hadoop本身更多的聚焦于數(shù)據(jù)的處理與應(yīng)用,但是對(duì)于底層的數(shù)據(jù)存儲(chǔ)工作則并未過(guò)多的關(guān)注。例如:傳統(tǒng)的Hadoop使用三副本技術(shù)保存數(shù)據(jù),數(shù)據(jù)利用率只有33%,數(shù)據(jù)保存成本較高;同時(shí)客戶對(duì)于Hadoop承載的數(shù)據(jù)可靠性要求也越來(lái)越高,數(shù)據(jù)保護(hù)(備份、容災(zāi)等)需求越來(lái)越明顯,Hadoop3.x 開(kāi)啟了存儲(chǔ)和計(jì)算分離的趨勢(shì),但這些還不能完全滿足用戶需求,數(shù)據(jù)湖需要從數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)治理等方面繼續(xù)發(fā)展。

2、數(shù)據(jù)湖與云計(jì)算技術(shù)的融合

云計(jì)算采用虛擬化、多租戶等技術(shù)滿足業(yè)務(wù)對(duì)服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)等基礎(chǔ)資源的最大化利用,降低企業(yè)對(duì)IT基礎(chǔ)設(shè)施的成本,為企業(yè)帶來(lái)了巨大的經(jīng)濟(jì)性;同時(shí)云計(jì)算技術(shù)實(shí)現(xiàn)了主機(jī)、存儲(chǔ)等資源快速申請(qǐng)、使用,則同樣為企業(yè)帶來(lái)了更多的管理便捷性。在傳統(tǒng)建設(shè)模式下,大數(shù)據(jù)采用的都是物理機(jī)部署模式,在應(yīng)對(duì)多業(yè)務(wù)類型彈性計(jì)算資源需求以及計(jì)算性能和存儲(chǔ)容量增幅差異化較大的情況下,計(jì)算和存儲(chǔ)一體化的部署模式,既不夠靈活,同時(shí)也不能提供最優(yōu)性價(jià)比。這時(shí)利用云化技術(shù),將大數(shù)據(jù)計(jì)算部署在云上,把存儲(chǔ)資源與計(jì)算資源獨(dú)立開(kāi)來(lái),實(shí)現(xiàn)計(jì)算和數(shù)據(jù)各自獨(dú)立擴(kuò)展,彈性伸縮。當(dāng)前數(shù)據(jù)湖架構(gòu)已經(jīng)在公有云上得到了教完美的實(shí)現(xiàn)和應(yīng)用,例如:Microsoft Azure 2016年就推出了Data Lake云服務(wù),Amazon AWS 可以基于S3Glue等多個(gè)基本云服務(wù)快速構(gòu)建出一套數(shù)據(jù)湖服務(wù),Google內(nèi)部對(duì)海量數(shù)據(jù)集的管理和搜索系統(tǒng)也為數(shù)據(jù)湖的數(shù)據(jù)管理指明了道路(詳情參見(jiàn)《Managing Google’s data lake: an overview of the GOODS system》,一篇關(guān)于Google內(nèi)部的海量數(shù)據(jù)集搜索與管理的論文)。

3、數(shù)據(jù)湖與人工智能技術(shù)的融合

近些年,人工智能技術(shù)再一次飛速發(fā)展,訓(xùn)練和推理等需要同時(shí)處理超大的,甚至是多個(gè)數(shù)據(jù)集,這些數(shù)據(jù)集通常是視頻、圖片、文本等非結(jié)構(gòu)化數(shù)據(jù),來(lái)源于多個(gè)行業(yè)、組織、項(xiàng)目,對(duì)這些數(shù)據(jù)的采集、存儲(chǔ)、清洗、轉(zhuǎn)換、特征提取等工作是一個(gè)系列復(fù)雜、漫長(zhǎng)的工程。數(shù)據(jù)湖需要為人工智能程序提供數(shù)據(jù)快速收集、治理、分析的平臺(tái),同時(shí)提供極高的帶寬、海量小文件存取、多協(xié)議互通、數(shù)據(jù)共享的能力,可以極大加速數(shù)據(jù)挖掘、深度學(xué)習(xí)等過(guò)程。

二、數(shù)據(jù)湖對(duì)企業(yè)的重要性

很多人都說(shuō):“數(shù)據(jù)湖是新瓶裝舊酒”,只不過(guò)是一個(gè)概念的拼湊罷了,本質(zhì)上并沒(méi)有什么技術(shù)創(chuàng)新。其實(shí)數(shù)據(jù)湖這一名詞并不重要,重要的是它能不能在數(shù)字化浪潮下,真正幫助企業(yè)實(shí)現(xiàn)技術(shù)轉(zhuǎn)型,應(yīng)對(duì)快速發(fā)展的商業(yè)環(huán)境下層出不窮的新問(wèn)題。

數(shù)據(jù)湖的核心價(jià)值是為企業(yè)帶來(lái)了數(shù)據(jù)平臺(tái)化運(yùn)營(yíng)機(jī)制。當(dāng)前很多企業(yè)尚未意識(shí)到數(shù)據(jù)平臺(tái)化為企業(yè)帶來(lái)的好處。當(dāng)今的商業(yè)環(huán)境,在日新月異的技術(shù)變革驅(qū)動(dòng)下,正發(fā)生著劇烈的變化,傳統(tǒng)行業(yè)不停的被互聯(lián)網(wǎng)公司顛覆,給很多公司造成了極大的生存壓力。互聯(lián)網(wǎng)公司之所以能不斷顛覆傳統(tǒng)行業(yè),本身除了商業(yè)模式的變革,同時(shí)也是因?yàn)檫@些公司很多都是采用平臺(tái)化戰(zhàn)略,將最新的技術(shù)與競(jìng)爭(zhēng)力整合在平臺(tái)中,去賦能公司的運(yùn)營(yíng),使公司的業(yè)務(wù)發(fā)生跳躍式發(fā)展,跨界擠壓其他企業(yè)的發(fā)展空間。傳統(tǒng)企業(yè)急需變革,需要像互聯(lián)網(wǎng)公司一樣,利用信息化、數(shù)字化、新技術(shù)的利器形成平臺(tái)化系統(tǒng),賦能公司的人員和業(yè)務(wù),快速應(yīng)對(duì)挑戰(zhàn)。

三、華為數(shù)據(jù)湖解決方案

華為數(shù)據(jù)湖解決方案緊扣時(shí)代脈搏,幫助企業(yè)利用數(shù)據(jù)平臺(tái)化利器——數(shù)據(jù)湖,助力業(yè)務(wù)飛速發(fā)展。華為數(shù)據(jù)湖解決方案基于先進(jìn)的云上系統(tǒng)架構(gòu),著力解決線下企業(yè)數(shù)字化轉(zhuǎn)型中,數(shù)據(jù)無(wú)法驅(qū)動(dòng)業(yè)務(wù)發(fā)展、成本高昂、計(jì)算存儲(chǔ)等基礎(chǔ)設(shè)施資源浪費(fèi)等復(fù)雜問(wèn)題。

華為數(shù)據(jù)湖解決方案基本架構(gòu)

下文從數(shù)據(jù)集中存儲(chǔ)與共享、數(shù)據(jù)治理、計(jì)算側(cè)Cache,快速數(shù)據(jù)分析這四個(gè)維度詳細(xì)介紹華為數(shù)據(jù)湖解決方案。

  • 數(shù)據(jù)集中存儲(chǔ)與共享

許多企業(yè)通常忽略數(shù)據(jù)積累的價(jià)值,數(shù)據(jù)需要從企業(yè)的各個(gè)方面持續(xù)的收集、存儲(chǔ),才有可能基于這些數(shù)據(jù)挖掘出價(jià)值信息,指導(dǎo)業(yè)務(wù)決策,驅(qū)動(dòng)公司發(fā)展。華為數(shù)據(jù)湖解決方案實(shí)現(xiàn)數(shù)據(jù)集中存儲(chǔ)與共享是基于華為大數(shù)據(jù)解決方案FunsionInsight和華為海量對(duì)象存儲(chǔ)架構(gòu),實(shí)現(xiàn)萬(wàn)億級(jí)數(shù)據(jù)可靠存儲(chǔ)與高效分析。

使用一套數(shù)據(jù)存儲(chǔ)資源池,可有效解決企業(yè)中的數(shù)據(jù)煙囪問(wèn)題,提供統(tǒng)一的命名空間,多協(xié)議互通訪問(wèn),實(shí)現(xiàn)數(shù)據(jù)資源的高效共享,減少數(shù)據(jù)移動(dòng)。例如:很多的汽車制造企業(yè)都在進(jìn)行無(wú)人駕駛/自動(dòng)駕駛研究,車輛上的傳感器、雷達(dá)等IOT設(shè)備產(chǎn)生的文件,通過(guò)離線批量導(dǎo)入或者高速訪問(wèn)網(wǎng)絡(luò)進(jìn)入到存儲(chǔ)集群后通過(guò)Hadoop HDFS)進(jìn)行分析處理,再進(jìn)入HPC集群(NFS)進(jìn)行仿真計(jì)算,也可以讀取到GPU集群進(jìn)行訓(xùn)練(S3)。整個(gè)過(guò)程中,數(shù)據(jù)無(wú)需拷貝和移動(dòng),實(shí)現(xiàn)高效數(shù)據(jù)共享。

數(shù)據(jù)集中存儲(chǔ)與共享實(shí)際上是將存儲(chǔ)資源池化,將計(jì)算和數(shù)據(jù)進(jìn)行分離。當(dāng)前仍然有不少人不能接受大數(shù)據(jù)的計(jì)算和數(shù)據(jù)分離架構(gòu),認(rèn)為一旦采用分離架構(gòu),必然會(huì)導(dǎo)致性能的降低。但實(shí)際上,分離后可極大降低存儲(chǔ)成本,有效提高計(jì)算資源利用率,增強(qiáng)計(jì)算和存儲(chǔ)集群的靈活性。但不是所有情況下都要分離,根據(jù)我們?cè)谡⑦\(yùn)營(yíng)商、金融、企業(yè)等多個(gè)行業(yè)多個(gè)項(xiàng)目的經(jīng)驗(yàn),如下情況適合分離:

1.隨著數(shù)據(jù)量的增長(zhǎng),存儲(chǔ)和計(jì)算資源的使用率嚴(yán)重不均衡,比如:用戶行為分析中的用戶留存分析,存儲(chǔ)數(shù)據(jù)量不斷增長(zhǎng),但計(jì)算資源基本不變;

2.業(yè)務(wù)部門向平臺(tái)部門單獨(dú)申請(qǐng)計(jì)算或存儲(chǔ)資源,分離架構(gòu)可以更靈活的分配資源。

另外從數(shù)據(jù)生命周期的維度也可以找到適合的階段,綠色部分表示的數(shù)據(jù)的清洗、加工整合和歸檔備份場(chǎng)景適合存儲(chǔ)和計(jì)算的分離。

注意:存儲(chǔ)和計(jì)算分離往往伴隨大數(shù)據(jù)的服務(wù)化,需要從云化、資源彈性調(diào)度的角度管理資源。

  • 數(shù)據(jù)治理

數(shù)據(jù)不僅要存下來(lái),更要治理好,否則數(shù)據(jù)湖將變成數(shù)據(jù)沼澤,浪費(fèi)大量的IT資源。平臺(tái)化的數(shù)據(jù)湖架構(gòu)能否驅(qū)動(dòng)企業(yè)業(yè)務(wù)發(fā)展,數(shù)據(jù)治理至關(guān)重要。企業(yè)中收集的數(shù)據(jù)或從其他行業(yè)中采集數(shù)據(jù)種類多樣,格式不一,多數(shù)以原始格式存儲(chǔ),企業(yè)需要不斷對(duì)這些原始數(shù)據(jù)進(jìn)行整合加工,根據(jù)各業(yè)務(wù)組織、場(chǎng)景、需求形成容易分析的干凈數(shù)據(jù),盡可能多的讓更多的人訪問(wèn)分析數(shù)據(jù)。數(shù)據(jù)治理是個(gè)一系列復(fù)雜的工作,這里重點(diǎn)介紹下元數(shù)據(jù)的管理。

華為數(shù)據(jù)湖解決方案為企業(yè)中海量的數(shù)據(jù)集提供了一套集中的元數(shù)據(jù)管理系統(tǒng),提供全局的數(shù)據(jù)資源目錄、完整的數(shù)據(jù)元數(shù)據(jù)描述、數(shù)據(jù)血緣關(guān)系,方便員工快速查找了解數(shù)據(jù),更好的支撐數(shù)據(jù)分析,元數(shù)據(jù)管理異步的從數(shù)據(jù)服務(wù)中抽取元數(shù)據(jù),盡量不影響原系統(tǒng)的運(yùn)行。

  • 計(jì)算側(cè)Cache

計(jì)算和數(shù)據(jù)分離后必然會(huì)帶來(lái)一定的網(wǎng)絡(luò)I/O開(kāi)銷,計(jì)算側(cè)Cache可有效減少頻繁的網(wǎng)絡(luò)I/O次數(shù)。同時(shí)萬(wàn)兆網(wǎng)絡(luò)已經(jīng)得以普及,甚至更高,網(wǎng)絡(luò)對(duì)計(jì)算影響已經(jīng)非常有限。計(jì)算側(cè)Cache采用多種算法,將數(shù)據(jù)緩存在計(jì)算側(cè),可以使得很多場(chǎng)景下計(jì)算與數(shù)據(jù)分離方案的性能甚至高于一體化方式。

  • 數(shù)據(jù)快速分析

前述的大量工作實(shí)際上都是為了加速數(shù)據(jù)分析的過(guò)程。數(shù)據(jù)快速分析需要提供多種數(shù)據(jù)分析引擎,基于華為FusionInsight 大數(shù)據(jù)方案提供SparkHBaseESLibrA(一種融合數(shù)據(jù)的基于SQL的分布式數(shù)據(jù)關(guān)系型數(shù)據(jù)庫(kù))等多種分析方式,快速分析不僅是能在已經(jīng)被整合后變干凈的保存在LibrA中的數(shù)據(jù),還能直接訪問(wèn)海量對(duì)象存儲(chǔ)中的數(shù)據(jù),無(wú)需數(shù)據(jù)抽取,減少數(shù)據(jù)的轉(zhuǎn)換,支持高并發(fā)讀取,提升實(shí)時(shí)分析效率。同時(shí)可支持自助式的數(shù)據(jù)探索式分析。

華為數(shù)據(jù)湖解決方案提供了完整的數(shù)據(jù)架構(gòu)支持,為企業(yè)構(gòu)建一站式數(shù)據(jù)處理體驗(yàn),目前已在多個(gè)行業(yè)和客戶中使用。例如:華為數(shù)據(jù)湖解決方案支撐平安城市“一云一湖一平臺(tái)”系統(tǒng)架構(gòu),為公安客戶構(gòu)建了物理分散(分散在各地市、區(qū)縣的數(shù)據(jù))、邏輯統(tǒng)一的數(shù)據(jù)治理架構(gòu)。

大云網(wǎng)官方微信售電那點(diǎn)事兒

責(zé)任編輯:售電衡衡

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本站無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個(gè)贊
?
主站蜘蛛池模板: 欧美在线高清 | 正在播放国产无套露脸 | 精品免费国产 | 国产精品第十页 | 国产三级一区 | 日本色综合 | 国产乱老熟视频胖女人 | 国产在视频线精品视频 | 中文字幕一区二区三区久久网站 | 亚洲欧洲日产v特级毛片 | 国产香蕉尹人综合在线观 | 欧美中文字幕在线播放 | 成人日韩| 日韩久久免费视频 | 日本高清色视频www 日本高清色本在线www游戏 | 久久国产精品麻豆映画 | 一区二区欧美视频 | 2023中文字幕在线观看 | 天美传媒thetmme果冻传媒 | 欧美日韩精品在线 | 国产手机看片 | 日韩欧美中文字幕在线视频 | 在线观看中文字幕国产 | 黄色a一级片 | 免费黄色app网站 | 麻豆理论片 | 国产高清国内精品福利99久久 | 91精品国产福利尤物免费 | 精品日韩在线观看 | 日本不卡视频在线播放 | 精品推荐国产麻豆剧传媒 | 四川一级毛片 | 色婷婷精品视频 | 亚洲欧美成人网 | 国产五月天在线 | 亚洲人成在线影院 | 精品国产免费观看一区高清 | 国产一级做a爰片久久毛片男男 | 国内精品麻豆 | 黄页网站在线播放 | 欧美日韩国产成人精品 |