鄔賀銓:大數據時代的發展趨勢
以從大數據中挖掘大價值為主題的第二屆中國大數據應用論壇于2013年7月21日在北京大學英杰交流中心陽光大廳隆重舉辦。本次活動由北京大學信息化與信息管理研究中心和北京大學CIO班教務辦公室主辦,北達軟
中心化,這個圖是全世界用戶互聯網帶寬,國際互聯網帶寬是增加的,但是比例是下降的。左上角的圖就是美國全球各個州到美國的國際互聯網的流量,除了上面的線是拉丁美洲,下來之后略有回升,其他的亞洲、歐洲、美國互聯網國際流量比例是下降的,也就是說絕對值增加、相對值下降,這是因為很多東西只需要就近訪問,并不需要跨洋越境了。
第四,大數據挖掘的挑戰。大數據技術涉及到數據采集、數據存儲、數據計算、數據挖掘、數據呈現、數據安全等,涉及到很多環節。比如說挖掘就需要對數據進行清洗,進行合并、壓縮,要轉換格式,然后進行統計分析,知識發現以及可視化處理。然后找出它的關聯規則,分類、聚類,排序列,優化路徑。這里涉及到一大批的數據挖掘的軟件,簡單來說,首先是MapReducers,左邊的圖上很多數據,不同顏色表示不同類型,首先通過Map把這些數據進行分類,不同業務類型的數據分到不同的存儲服務器里頭,這樣就是為了簡化運算,在分類過程當中數據是要加標簽的,同時要把重復的去掉,這是進行大數據的預分析前的一些操作。另外,大數據需要有很多服務器。曾經有人認為買高端服務器才可靠,后來Google首創利用低端的服務器,它認為沒必要用高端,只要用低端服務器就夠了,而低端服務器可靠性不好,怎么辦呢?冗余配置。就是把一個數據拷到三個服務器里頭,三個低端服務器的價格仍然比一個高端的服務器便宜,這樣一來既提高可靠性又降低了成本。所以大數據的分析需要分布存儲和冗余備份。還有Map Reducers要通過映射、調度,最后把結果歸納起來得出我們要得結果。大數據跟過去的分析不一樣,過去的數據都是存下來,存到靜止的數據庫里頭,然后再分析。而大數據每時每刻都有,比如說幾毫秒就要送一個數據出來,飛機引擎也是不斷的送數據出來,數據根本沒有停止的時候,我們不可能等數據停下來再來分析,我們必須一邊走一邊分析,怎么辦呢?過去的分析是靜止的,叫做“帶數據進程序”,現在的分析是在活動的,也就是“帶程序進數據”。所以大數據分析也會帶來很大的挑戰。
另外,更難的挑戰是非結構化的數據。所謂結構化就是說可以用文本表格等方式來表達,即便文本表格表達從語意理解還是比較難的。比如地震的時候,網絡上為了監控輿情,看看究竟是正面的評論多還是負面的評論多,有一條信息說“當他發現他兒子還活著的時候,他抱頭痛哭。”按照分析,“痛哭”肯定是負面的。但實際上這是正面的。這是因為什么呢?要讓計算機懂得人的感情,這就難了。文字的分析況且這么難,那么對照片的分析就更難了,要通過OCR掃描出里面的文字,把文字作為標簽加到照片上。照片還好說一點,而視頻分析就更難了,你怎么找這個人?去年1月份周克華在南京殺了人,當時攝像頭把他拍下來的,南京市調出幾十萬個攝像頭視頻,拍多長就要看多長,沒有分析的辦法就靠人看,所以這是很慢的。因此大數據互換智能化的處理、智能化的分析。
另外,大數據需要虛擬化和可視化。舉個例子,上海江蘇路,路上有很多攝像頭,每個攝像頭背后連一個電視屏幕,在交通管理中心的一面墻上放了很多屏。當然了,再大的墻壁也放不下全上海這么多交通攝像頭,所以只能10秒鐘顯示一條馬路的攝像頭,這些都是分離的,一個一個看很難看出問題。我們希望通過軟件把這條馬路的攝像頭合成一個視頻,只要看這個視頻就知道全馬路攝像頭的狀況了。當然只有一條馬路還不夠,我們還要把它合成全上海一幅圖,就像上海市領導坐著直升機俯視上海一樣,看到上海市整個城市里頭,在東京北緯某個緯度,在某個時刻段,哪段路交通堵塞。大數據,無論數據有多大,無論是PB還是TB,最重要結果都應該非常直觀的一幅圖。
Gartner公司在發布2012-2016的IT發展趨勢,有五點:大數據、云存儲、移動應用、社交網絡、網絡安全。我們可以看到其中最主要的是大數據。大數據推動ICT發展的時代,云計算、移動互聯網、下一代互聯網、大數據、物聯網、社交網絡,我叫做“大智移云”,你可以看到這些新的信息技術適應大數據新一代發展。
第四,大數據挖掘的挑戰。大數據技術涉及到數據采集、數據存儲、數據計算、數據挖掘、數據呈現、數據安全等,涉及到很多環節。比如說挖掘就需要對數據進行清洗,進行合并、壓縮,要轉換格式,然后進行統計分析,知識發現以及可視化處理。然后找出它的關聯規則,分類、聚類,排序列,優化路徑。這里涉及到一大批的數據挖掘的軟件,簡單來說,首先是MapReducers,左邊的圖上很多數據,不同顏色表示不同類型,首先通過Map把這些數據進行分類,不同業務類型的數據分到不同的存儲服務器里頭,這樣就是為了簡化運算,在分類過程當中數據是要加標簽的,同時要把重復的去掉,這是進行大數據的預分析前的一些操作。另外,大數據需要有很多服務器。曾經有人認為買高端服務器才可靠,后來Google首創利用低端的服務器,它認為沒必要用高端,只要用低端服務器就夠了,而低端服務器可靠性不好,怎么辦呢?冗余配置。就是把一個數據拷到三個服務器里頭,三個低端服務器的價格仍然比一個高端的服務器便宜,這樣一來既提高可靠性又降低了成本。所以大數據的分析需要分布存儲和冗余備份。還有Map Reducers要通過映射、調度,最后把結果歸納起來得出我們要得結果。大數據跟過去的分析不一樣,過去的數據都是存下來,存到靜止的數據庫里頭,然后再分析。而大數據每時每刻都有,比如說幾毫秒就要送一個數據出來,飛機引擎也是不斷的送數據出來,數據根本沒有停止的時候,我們不可能等數據停下來再來分析,我們必須一邊走一邊分析,怎么辦呢?過去的分析是靜止的,叫做“帶數據進程序”,現在的分析是在活動的,也就是“帶程序進數據”。所以大數據分析也會帶來很大的挑戰。
另外,更難的挑戰是非結構化的數據。所謂結構化就是說可以用文本表格等方式來表達,即便文本表格表達從語意理解還是比較難的。比如地震的時候,網絡上為了監控輿情,看看究竟是正面的評論多還是負面的評論多,有一條信息說“當他發現他兒子還活著的時候,他抱頭痛哭。”按照分析,“痛哭”肯定是負面的。但實際上這是正面的。這是因為什么呢?要讓計算機懂得人的感情,這就難了。文字的分析況且這么難,那么對照片的分析就更難了,要通過OCR掃描出里面的文字,把文字作為標簽加到照片上。照片還好說一點,而視頻分析就更難了,你怎么找這個人?去年1月份周克華在南京殺了人,當時攝像頭把他拍下來的,南京市調出幾十萬個攝像頭視頻,拍多長就要看多長,沒有分析的辦法就靠人看,所以這是很慢的。因此大數據互換智能化的處理、智能化的分析。
另外,大數據需要虛擬化和可視化。舉個例子,上海江蘇路,路上有很多攝像頭,每個攝像頭背后連一個電視屏幕,在交通管理中心的一面墻上放了很多屏。當然了,再大的墻壁也放不下全上海這么多交通攝像頭,所以只能10秒鐘顯示一條馬路的攝像頭,這些都是分離的,一個一個看很難看出問題。我們希望通過軟件把這條馬路的攝像頭合成一個視頻,只要看這個視頻就知道全馬路攝像頭的狀況了。當然只有一條馬路還不夠,我們還要把它合成全上海一幅圖,就像上海市領導坐著直升機俯視上海一樣,看到上海市整個城市里頭,在東京北緯某個緯度,在某個時刻段,哪段路交通堵塞。大數據,無論數據有多大,無論是PB還是TB,最重要結果都應該非常直觀的一幅圖。
Gartner公司在發布2012-2016的IT發展趨勢,有五點:大數據、云存儲、移動應用、社交網絡、網絡安全。我們可以看到其中最主要的是大數據。大數據推動ICT發展的時代,云計算、移動互聯網、下一代互聯網、大數據、物聯網、社交網絡,我叫做“大智移云”,你可以看到這些新的信息技術適應大數據新一代發展。

責任編輯:何健
免責聲明:本文僅代表作者個人觀點,與本站無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
我要收藏
個贊
-
曹志剛:我們期待風電成為中國的主力能源
2020-11-17風電,能源,主力能源 -
張鈞:未來配電網內涵特征與發展框架研究
2020-11-03配電網,智能配電網,智能配電網建設研討會 -
習近平:持續增強電力裝備、新能源等領域的全產業鏈優勢
2020-11-02電力裝備,新能源,通信設備
-
曹志剛:我們期待風電成為中國的主力能源
2020-11-17風電,能源,主力能源 -
張鈞:未來配電網內涵特征與發展框架研究
2020-11-03配電網,智能配電網,智能配電網建設研討會 -
杜祥琬:創新觀念,推動能源高質量發展
2020-09-28能源,創新,觀點
-
PPT丨王繼業:電力系統儲能發展與挑戰
2020-10-14儲能,電力儲能,儲能應用 -
奮斗姿態書寫人生底色 銀隆儲能“小哥哥”的職場進擊姿勢
2020-10-12銀隆新能源,儲能,新能源汽車 -
鄒驥:通過發展清潔能源 提高中國公信力
2020-06-28鄒驥,清潔能源,綠色低碳能源
-
習近平:持續增強電力裝備、新能源等領域的全產業鏈優勢
2020-11-02電力裝備,新能源,通信設備 -
重磅 | 發改委發文7月起電價降5%
2020-06-29國家發改委,企業,用電成本,電費 -
李克強:放寬配售電業務市場準入 推動建立市場決定能源價格機制
2019-10-12配售電業務市場準入