大數據來襲，你準備好了嗎

2014-06-12 09:31:39

大云網　點擊量：評論 (0)

最近有一則這樣的笑話在網上流程開來，有一個美國數學教授平生最怕坐飛機，他研究了近20年的統計數據，發現恐怖分子帶炸彈上飛機的幾率其實非常低，但是他還不安心，他又進一步研究數據發現，兩個人同時帶炸彈上

最近有一則這樣的笑話在網上流程開來，“有一個美國數學教授平生最怕坐飛機，他研究了近20年的統計數據，發現恐怖分子帶炸彈上飛機的幾率其實非常低，但是他還不安心，他又進一步研究數據發現，兩個人同時帶炸彈上飛機的幾率幾乎為零，于是從此他坐飛機都自己攜帶一枚炸彈。”這雖然是一個簡單笑話，但卻是一個大數據分析的真實案例。這名科學家最終的做法固然可笑，但是在整個過程中，他收集整理了20年來與之相關的數據，包括天氣數據、航班信息、新聞事件、乘客信息、出租車信息、交通信息、監控信息等等大量的相關數據，通過自己的研究，整理和分析了數據之間的相關性，構建了數據分析模型，并最終得出了分析結果。那么，什么才是大數據呢？
"大數據"是一個體量特別大，數據類別特別大的數據集，并且這樣的數據集無法用傳統數據庫工具對其內容進行抓取、管理和處理。 "大數據"首先是指數據體量(volumes)?大，指代大型數據集，一般在10TB?規模左右，但在實際應用中，很多企業用戶把多個數據集放在一起，已經形成了PB級的數據量；其次是指數據類別(variety)大，數據來自多種數據源，數據種類和格式日漸豐富，已沖破了以前所限定的結構化數據范疇，囊括了半結構化和非結構化數據。接著是數據處理速度（Velocity）快，在數據量非常龐大的情況下，也能夠做到數據的實時處理。最后一個特點是指數據真實性（Veracity）高，隨著社交數據、企業內容、交易與應用數據等新數據源的興趣，傳統數據源的局限被打破，企業愈發需要有效的信息之力以確保其真實性及安全性。
"大數據"的概念遠不止大量的數據（TB）和處理大量數據的技術，而是涵蓋了人們在大規模數據的基礎上可以做的事情，而這些事情在小規模數據的基礎上是無法實現的。換句話說，大數據讓我們以一種前所未有的方式，通過對海量數據進行分析，獲得有巨大價值的產品和服務，或深刻的洞見，最終形成創新之力。
由此可見，大數據的建設，我們首先要明確我們分析的目標，需要具備一個高性能的、大容量的具備數據采集、存儲、分析和展現能力的那么一個平臺或者系統。這就需要考慮以下幾個問題：數據從何而來？海量的數據如何存儲？這么多相關或非相關的數據怎么分析？分析出來結果如何展示？因此考慮上述問題，大數據分析不應該是一個系統，而應該一個平臺，是一個可以收集存儲不同格式不同規模的海量數據的高度數據共享的平臺，是一個隨時根據需求建立模型分析和展示不同結果的平臺。

圖1 大數據平臺系統結構

1.      數據采集
大數據的采集是指利用多個數據庫來接收發自客戶端（Web、App或者傳感器形式等）的數據，并且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。比如使用傳統的關系型數據庫MySQL和Oracle等來存儲數據，除此之外，Redis和MongoDB這樣的NoSQL數據庫也常用于數據的采集。
　　在大數據的采集過程中，其主要特點和挑戰是并發數高，因為同時有可能會有成千上萬的用戶來進行訪問和操作，比如火車票售票網站和淘寶，它們并發的訪問量在峰值時達到上百萬，所以需要在采集端部署大量數據庫才能支撐。并且如何在這些數據庫之間進行負載均衡和分片的確是需要深入的思考和設計。
2.      數據預處理
雖然采集端本身會有很多數據庫，但是如果要對這些海量數據進行有效的分析，還是應該將這些來自前端的數據導入到一個集中的大型分布式數據庫，或者分布式存儲集群，并且可以在導入基礎上做一些簡單的清洗和預處理工作。導入與預處理過程的特點和挑戰主要是導入的數據量大，每秒鐘的導入量經常會達到百兆，甚至千兆級別。
3.      數據分析
統計與分析主要利用分布式數據庫，或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等，以滿足大多數常見的分析需求，在這方面，一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存儲Infobright等，而一些批處理，或者基于半結構化數據的需求可以使用Hadoop。統計與分析這部分的主要特點和挑戰是分析涉及的數據量大，其對系統資源，特別是I/O會有極大的占用。
4.      數據挖掘
與前面統計和分析過程不同的是，數據挖掘一般沒有什么預先設定好的主題，主要是在現有數據上面進行基于各種算法的計算，從而起到預測（Predict）的效果，從而實現一些高級別數據分析的需求。比較典型算法有用于聚類的Kmeans、用于統計學習的SVM和用于分類的NaiveBayes，主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用于挖掘的算法很復雜，并且計算涉及的數據量和計算量都很大，常用數據挖掘算法都以單線程為主。
5.      結果呈現
    當通過分析子系統對數據分析和處理完畢，需要從在獨立的數據庫存放計算和分析結果，并最終通過分析展示子系統將分析結果展現給數據需求者。分析展示子系統采用B/S架構構建一個Web應用，可以是更多的用戶以最便捷的方式查看到分析結果。
上述內容就是普遍的一個大數據分析的基本步驟，大數據分析平臺是運用了多種技術構建的一個整體，對基礎設施建設具有很高要求，也是實現大數據分析平臺的關鍵，而分析模型和方法建立則是大數據分析的核心，其中每一個環節都包含了大量技術應用。例如：
數據采集：ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成，最后加載到數據倉庫或數據集市中，成為聯機分析處理、數據挖掘的基礎。
數據存取：關系數據庫、NOSQL、SQL等。
基礎架構：云存儲、分布式文件存儲等。
數據處理：自然語言處理(NLP，NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言，所以自然語言處理又叫做自然語言理解(NLU，NaturalLanguage Understanding)，也稱為計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支，另一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。
統計分析：假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析（最優尺度分析）、bootstrap技術等等。
數據挖掘：分類（Classification）、估計（Estimation）、預測（Prediction）、相關性分組或關聯規則（Affinity grouping or association rules）、聚類（Clustering）、描述和可視化、Description and Visualization）、復雜數據類型挖掘(Text, Web ,圖形圖像，視頻，音頻等)
模型預測：預測模型、機器學習、建模仿真。
結果呈現：云計算、標簽云、關系圖等。（彭勇）