《電力大數據》引發技術變革的電力大數據
3 引發技術變革的電力大數據
3.1 數據規模大,數據處理時效性要求高——傳統技術手段不能經濟地滿足業務性能需求
3.1.4實際案例:基于大數據的短期負荷預測
4.具體案例
為了體現該方案在負荷預測過程中呈現的良好效果,將該部分結合一個實際算例來做出分析。目標電網為國內配備用戶用電信息采集系統的某市級電網,該市級電網的用戶數為120萬,用電信息采集頻率為每15分鐘一次。在具體案例的介紹中,主要分為兩大部分:第一部分主要介紹該方案中數據挖掘算法在用戶用電行為分析及預測模型上的應用;第二部分則主要介紹該方案如何移植到大數據平臺上完成數據的存儲和計算。
第一部分:基于數據挖掘算法在用戶用電行為分析及預測模型;
在形成與預測日曲線類型、負荷水平以及影響因素相近的相似日時,需要對大量的歷史數據集進行有效的歸類和分析。由于原始數據集的簇結構以及與影響因素的耦合關系均未知,因此需要結合數據挖掘算法予以解決。
☆凝聚層次聚類算法對歷史樣本分類
對于每一個用戶來說,其歷史負荷曲線因為天氣、節假日等影響會產生走勢各異的不同曲線類型對其進行有效的聚類,可以幫助縮小待預測日的相似日數據樣本集規。凝聚層次聚類算法在這里被采用來獲取良好的預測結果,層次聚類算法是一種自下而上的歸并算法,通過計算每個樣本之問的歐式距離.來實現最終歸類的效果。
計算任意兩個歷史負荷樣本的歐式距離;
設n維樣本空間s中任意兩個數據序列X、Y分別為:X={x1、x2、x3…xn},Y={y1、y2、y3、yn},其歐式距離為:
設定閾值合并相近的類。
設定曲線間的距離閾值為d,在S中有N條負荷曲線序列{L1、L2、L3…Ln},任意取出曲線Ln并計算與其他曲線間的歐式距離,合并最近的兩個簇,直到達到預定的分類目標即可停止。我們在第一部分數據挖掘算法的描述中都采用目標電網中的一個用戶做出分析,該用戶記為用戶1.對用戶1的2012年365天的數據聚類結果如圖—3所示。
圖3-3 2012年1月1日到2012年12月31日期間的用戶1日負荷曲線
在經過凝聚層次聚類算法的處理分析后,圖3-3中用戶I全年的負荷數據可以歸類為圖3-4中的六類負荷曲線。可以看出六類負荷曲線在幅值大小及曲線走勢上均存在較大的差異、同時在表3-2中,可以看出類3和類4主要為工作日負荷,類2主要為周末負荷,進一步分析其節假屬性,發現第六類中含有大量的節假日如國慶節等的負荷,而第一類中則主要為節假日前一天的負荷、分析表明,該算法成功完成了分類的任務。
表3-2每一類中各類型日的數量
圖3-4用戶1的六類負荷曲線圖
☆灰色關聯分析選取關鍵影響因素
通過對用戶1的歷史負荷數據及歷史天氣數據進行灰色關聯分析,可以得出影響用戶1負荷變化規律的關鍵影響因素,有利于縮減樣本集的數據維度,進一步提高準確度。對用戶I的灰色關聯度,計算結果見表3-3
表3-3
其中,可以看出最高氣溫、平均氣溫、日類型、平均濕度對負荷變化趨勢的影響較大.為關鍵影響因素,在后續的分析中主要關注這幾項影響囡素值。
☆CART決策樹建立分類規則
這一步的計算結果需要在前兩步的計算結果上完成。CART決策樹算法根據信息增益度將樣本按其若干影響屬性値不斷劃分,最后歸入指定的類。而用CART決策樹來建立分類規則的思想如圖3-5所示。
圖3-5分類規則建立圖
中間為決策樹的箅法模型、左側輸入為日屬性向量集,即2012年每一天對應的負荷影響因素數據集合。右側輸入為在層次聚類分析后得到的若干個類別。通過CART算法對用戶1的數據進行若干次分裂,即可得到如圖3-6所示的分類規則。
圖3-6用戶1決策樹分類規則圖
根據決策樹算法對用戶1的負荷曲線進行分析,得到圖3-6所示的決策圖。該樹也是久特變負荷曲線分類規則.同時也表征了負荷聚類結果與關鍵。影響因素值的定量關系。舉例如下:
2UI3年4月29日影響負荷的關鍵因素值如下表。
表3-4某日影響負荷的關鍵因素
由圖3-6中黑色實線所示,該日被最終歸入了第二類。而由聚類分析得出的第二類負荷在曲線特征上極其相似,這樣就給出了負荷的分類規則。
☆找到待預測的同類型日數據集
我們已知了待預測日的相關因素數據,在圖3-6所示的分類規則中可以將待預測日分到與之對應的類中,結果見表3-5
表3-5
☆針對每一類訓練対應的支持向量機模型
支持向量機因其對非線性數據集較好的數據擬合能力而受到眾多研究學者的青睞,本書采用支持向量機算法完成最終的負荷預測工作。支持向量機有幾個關鍵參數會對最終的預測結果產生較大的影響,通過遺傳算法對六類歷史數據集分別進行尋優和計算,可以得到最為匹配的參數組合,詳見表3-6
表3-6六類歷史數據集的最優支持向量機參數組合
☆對用戶1的預測結果如圖3-7所示。
圖3-7用戶1的2013年4月29日的負荷預測結果對比圏
第二部分:在Hadoop大數據平臺上完成系統負荷預測
由于上述案例僅針對120萬用戶中的用戶1做了預測,而為了得到系統總負荷,則需要對每個用戶執行上述操作,這個過程我們在Hadoop平臺上給以實現。整個技術框架分為數據存儲、數據管理,數據計算三個部分。
☆數據存儲
在Hadoop的底層數據層中,分布式文件系統HDFS負責用戶負荷及影響因素的分布式存儲。
☆數據管理
HBase在分布式文件系統基礎上,對底層的數據進行數據管理。HBase是采用KeyValue的列存儲,Rowkey是KeyValue的Key,表示唯一一行。Rowkey是一段二進制碼流,最大值為64KB,內容由用戶自定義。數據的加載根據Rowkey的二進制序由小到大進行排序。HBase根據數據的規模將數據自動分切到多個Region的多個HFile中。
HBase的基本存儲單元為列簇(columnfamily)。HBase數據選輯由行和列組成二維矩陣存儲。其中由HBase列簇、列組成了一維矩陣中的一維,由Rowkey組成了另一維,每-個非空的行列節點稱為一個Cell,Cell是HBase最小的邏輯存儲單元。
圖3-8為負荷數據的存儲結構圖,鍵值(key)代表的是對應時間點,從0點到23點45分,一天共96個點。圖3-9中Value值為對應時間點的負荷值。UserId為用戶的編號,而data則表示是該用戶對應的某一天數據。
圖3-8HBase邏輯存儲架構
圖3-9負荷數據存儲結構圖
☆數據計算
MapReduce具有分布式計算框架,以及頂層的應用集成和相關的協調功能。對于大數據方案來說,該負荷預測方案具體的分布式實現是我們關注的重點。因此,這里主要介紹該大數據預測方案的MapReduce分布式實現思想。圖3-10是MapReduce的邏輯圖。
圖3-10MapReduce邏輯處理圖
其中,每一個Split代表的是一個數據段,讀數據段為存儲一個用戶的全年歷史負荷數據及相關因素數據;每一個MaP進程負責對每個用戶進行步驟1~4的計算和分析;在Reduce環節,則完成對120萬用戶的數據整合,得出整個系統的總體負荷預測結果。
通過以上兩部分的計算,得出的最終預測結果如圖3-1所示
圖3-11系統負荷預測結果
對上述120萬個用戶的負荷預測結果進行累加,即可得到最終的系統負荷,結果如圖3-11所示。傳統方法的最大相對誤差為3.36%,最小相對誤差為0,51%,平均相對誤差為1.68%;而采用大數據方案得到的預測結果為:最大相対誤差為1.35%,最小相對誤差為O.O7%,平均相對現差為1.68%。因此,可以得出本方案取得了較傳統方案好的預測結果。
書名:電力大數據:能源互聯網時代的電力企業轉型與價值創造
ISBN:978-7-111-51693-4
作者:賴征田
出版日期:2016-01
出版社:機械工業出版社

責任編輯:繼電保護
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網
-
新基建助推 數據中心建設將迎爆發期
2020-06-16數據中心,能源互聯網,電力新基建 -
泛在電力物聯網建設下看電網企業數據變現之路
2019-11-12泛在電力物聯網 -
泛在電力物聯網建設典型實踐案例
2019-10-15泛在電力物聯網案例
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業發展
-
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網 -
5G新基建助力智能電網發展
2020-06-125G,智能電網,配電網 -
從智能電網到智能城市