當(dāng)前位置: 首頁 > 能源互聯(lián)網(wǎng) > 綜合新聞

加強非結(jié)構(gòu)化數(shù)據(jù)治理 為業(yè)務(wù)工作賦能

中國電力網(wǎng)發(fā)布時間:2022-11-22 00:00:00

  數(shù)字信息時代,數(shù)據(jù)對經(jīng)濟建設(shè)、社會生活和企業(yè)管理等產(chǎn)生了重要影響。根據(jù)高德納(Gartner)公司分析,企業(yè)近80%的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù)。隨著數(shù)據(jù)爆炸式增長,非結(jié)構(gòu)化數(shù)據(jù)將成為數(shù)據(jù)增長主力。實施非結(jié)構(gòu)化數(shù)據(jù)治理、提升數(shù)據(jù)質(zhì)量、挖掘數(shù)據(jù)價值是企業(yè)邁入數(shù)字化時代的關(guān)鍵。對電網(wǎng)企業(yè)而言,海量智能終端所生成的文檔、圖像、語音、視頻等非結(jié)構(gòu)化數(shù)據(jù)量已達(dá)到PB級。加強非結(jié)構(gòu)化數(shù)據(jù)治理,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)解析與價值挖掘,對電網(wǎng)企業(yè)發(fā)展具有重要的意義。

  何為非結(jié)構(gòu)化數(shù)據(jù)及數(shù)據(jù)治理

  非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義模型的數(shù)據(jù)。在企業(yè)的整體數(shù)據(jù)架構(gòu)中,非結(jié)構(gòu)化數(shù)據(jù)往往是指不適用于數(shù)據(jù)庫二維關(guān)系邏輯表表達(dá)的數(shù)據(jù),包括所有格式辦公文檔、工程圖紙、圖像和音視頻文件等。在國家電網(wǎng)有限公司數(shù)據(jù)資產(chǎn)中,非結(jié)構(gòu)化數(shù)據(jù)包括由地理信息系統(tǒng)、95598客服系統(tǒng)、項目管理系統(tǒng)、電子商務(wù)平臺等產(chǎn)生的地理信息數(shù)據(jù)、客服語音、項目資料、物資采購信息等數(shù)據(jù)。

  數(shù)據(jù)治理是指在管理數(shù)據(jù)資產(chǎn)過程中行使權(quán)力,包括計劃、監(jiān)控和實施三個步驟。數(shù)據(jù)治理聚焦如何制訂有關(guān)數(shù)據(jù)的決策、人員在數(shù)據(jù)管理方面的行為方式,確保根據(jù)數(shù)據(jù)管理制度和最佳實踐正確地管理數(shù)據(jù)。

  非結(jié)構(gòu)化數(shù)據(jù)治理統(tǒng)籌和協(xié)調(diào)非結(jié)構(gòu)化數(shù)據(jù)各項管理工作有序開展,核心要素體現(xiàn)在組織、制度、文化和考核四個方面,這些是開展非結(jié)構(gòu)化數(shù)據(jù)管理工作的關(guān)鍵。

  電網(wǎng)企業(yè)非結(jié)構(gòu)化數(shù)據(jù)治理的前景和挑戰(zhàn)

  公司于2019年開展數(shù)據(jù)中臺建設(shè),2022年數(shù)據(jù)中臺邁入深化運營階段,非結(jié)構(gòu)化數(shù)據(jù)通過非結(jié)構(gòu)化組件基本實現(xiàn)了集中存儲,滿足基于文檔全周期的存、取、用需求。電網(wǎng)企業(yè)的非結(jié)構(gòu)化數(shù)據(jù)貫穿于發(fā)電、輸電、變電、配電、用電和調(diào)度所有環(huán)節(jié),也幾乎存在于企業(yè)經(jīng)營管理的所有業(yè)務(wù)應(yīng)用當(dāng)中。隨著人工智能等信息處理技術(shù)發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)管理的內(nèi)涵及外延都在發(fā)生深刻變化,有必要重新審視當(dāng)前企業(yè)非結(jié)構(gòu)化數(shù)據(jù)管理現(xiàn)狀,規(guī)劃新時期非結(jié)構(gòu)化數(shù)據(jù)管理體系及實施路徑。電網(wǎng)企業(yè)非結(jié)構(gòu)化數(shù)據(jù)治理工作主要面臨著以下挑戰(zhàn):

  存在信息孤島。電網(wǎng)企業(yè)在日常經(jīng)營管理和業(yè)務(wù)管理過程中使用功能各異的應(yīng)用系統(tǒng)或信息化管理平臺,產(chǎn)生各種非結(jié)構(gòu)化數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)具有來源多、格式多、涉及專業(yè)多等特點,這一方面是由于信息系統(tǒng)的建設(shè)具有階段性,另一方面是由于各個系統(tǒng)自成體系,導(dǎo)致系統(tǒng)之間的數(shù)據(jù)呈現(xiàn)孤立狀態(tài),數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,缺少數(shù)據(jù)貫通接口。

  管控體系不完善。電網(wǎng)企業(yè)部分系統(tǒng)之間實現(xiàn)了文件之間的流轉(zhuǎn),但是非結(jié)構(gòu)化數(shù)據(jù)管理方法和制度仍然不夠完善,如部分文件在各個系統(tǒng)內(nèi)歸檔管理、流轉(zhuǎn)主要基于數(shù)據(jù)導(dǎo)出方式,難以進(jìn)行統(tǒng)一檢索和共享利用。

  存在數(shù)據(jù)黑盒。當(dāng)前電網(wǎng)企業(yè)文檔管理制度并非建立在徹底理清數(shù)據(jù)的基礎(chǔ)上。非結(jié)構(gòu)化數(shù)據(jù)缺少必要的分類和元數(shù)據(jù)項,缺乏清晰和規(guī)范的管理流程和要求,數(shù)據(jù)量和數(shù)據(jù)內(nèi)容難以掌握,影響非結(jié)構(gòu)化數(shù)據(jù)價值發(fā)揮。

  電網(wǎng)企業(yè)非結(jié)構(gòu)化數(shù)據(jù)治理工作探索與實踐

  國網(wǎng)大數(shù)據(jù)中心遵循公司數(shù)據(jù)發(fā)展戰(zhàn)略,以充分發(fā)揮數(shù)據(jù)作用、驅(qū)動企業(yè)數(shù)字化轉(zhuǎn)型為目標(biāo),按照“基于中臺、統(tǒng)籌推進(jìn)、統(tǒng)一納管、安全共享”的工作原則,把核心非結(jié)構(gòu)化數(shù)據(jù)資源匯聚至數(shù)據(jù)中臺,形成全生命周期和全業(yè)務(wù)系統(tǒng)端到端非結(jié)構(gòu)化數(shù)據(jù)治理思路,建立從非結(jié)構(gòu)化元數(shù)據(jù)體系研究與數(shù)據(jù)資源目錄構(gòu)建到非結(jié)構(gòu)化數(shù)據(jù)協(xié)同治理的工作模式,推動中臺非結(jié)構(gòu)化數(shù)據(jù)質(zhì)量提高,為業(yè)務(wù)工作賦能。

  非結(jié)構(gòu)化數(shù)據(jù)的全生命周期管理包括非結(jié)構(gòu)化數(shù)據(jù)采集、傳輸、存儲、交換等各個環(huán)節(jié)的數(shù)據(jù)集整體管理,以及各個數(shù)據(jù)項處理方法。

  基于數(shù)據(jù)中臺開展非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一存儲?;跀?shù)據(jù)中臺非結(jié)構(gòu)化組件集中存儲和管理所有接入業(yè)務(wù)應(yīng)用系統(tǒng)的非結(jié)構(gòu)化數(shù)據(jù)。將非結(jié)構(gòu)化存儲空間劃分為存儲區(qū)和共享區(qū),其中存儲區(qū)用于接入、存儲源業(yè)務(wù)系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù),相關(guān)數(shù)據(jù)滿足各專業(yè)系統(tǒng)對本系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)全生命周期的存、取、用需求。共享區(qū)匯聚具有高共享價值的非結(jié)構(gòu)化數(shù)據(jù),相關(guān)數(shù)據(jù)經(jīng)數(shù)據(jù)盤點、業(yè)務(wù)部門確認(rèn),用于跨專業(yè)跨系統(tǒng)數(shù)據(jù)共享和構(gòu)建數(shù)據(jù)服務(wù),并在數(shù)據(jù)資源目錄可視可查。

  建立元數(shù)據(jù)管理體系。將非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)分為基礎(chǔ)元數(shù)據(jù)和增強元數(shù)據(jù),梳理形成非結(jié)構(gòu)化數(shù)據(jù)元數(shù)據(jù)體系。其中基礎(chǔ)元數(shù)據(jù)參考國家標(biāo)準(zhǔn)《信息與文獻(xiàn)都柏林核心元數(shù)據(jù)元素集》(GB/T25100-2010),實現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)對象的規(guī)范定義,如標(biāo)題、來源、摘要等。增強元數(shù)據(jù)依據(jù)應(yīng)用業(yè)務(wù)需求進(jìn)行設(shè)計,包含源端系統(tǒng)業(yè)務(wù)元數(shù)據(jù)、管理元數(shù)據(jù)及操作元數(shù)據(jù)。采用統(tǒng)分統(tǒng)管原則,基礎(chǔ)元數(shù)據(jù)統(tǒng)一管理,增強元數(shù)據(jù)按需設(shè)計,形成一套完整的元數(shù)據(jù)管理體系。

  打造中臺非結(jié)構(gòu)化數(shù)據(jù)共享區(qū),實現(xiàn)文件流轉(zhuǎn)與共享。新建應(yīng)用系統(tǒng)基于數(shù)據(jù)中臺建設(shè),存量業(yè)務(wù)應(yīng)用系統(tǒng)逐步按需將非結(jié)構(gòu)化數(shù)據(jù)遷移至數(shù)據(jù)中臺,基于數(shù)據(jù)中臺非結(jié)構(gòu)化組件,統(tǒng)籌不同應(yīng)用系統(tǒng)的文件在數(shù)據(jù)中臺流轉(zhuǎn)與共享。通過數(shù)據(jù)中臺構(gòu)建文件智能分析能力,使各使用方可以快速檢索并在不同應(yīng)用系統(tǒng)之間傳遞所需文件,保證文件的準(zhǔn)確性、一致性、及時性、安全性等,支撐非結(jié)構(gòu)化數(shù)據(jù)在不同專業(yè)之間、端到端有序高效地傳遞和交互。

  開展質(zhì)量管理。依據(jù)數(shù)據(jù)在生命周期各個階段的特性,建立數(shù)據(jù)質(zhì)量控制機制,及時發(fā)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)質(zhì)量問題,提升數(shù)據(jù)可用性。數(shù)據(jù)使用方在使用過程中提出數(shù)據(jù)質(zhì)量需求或數(shù)據(jù)質(zhì)量問題,協(xié)同數(shù)據(jù)管理方、數(shù)據(jù)提供方進(jìn)行數(shù)據(jù)質(zhì)量治理,開展非結(jié)構(gòu)化數(shù)據(jù)治理流程管控,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)治理閉環(huán)管理。

  建立常態(tài)運營機制,建設(shè)多元化應(yīng)用樣板間。完善非結(jié)構(gòu)化數(shù)據(jù)運營機制,常態(tài)開展非結(jié)構(gòu)化數(shù)據(jù)需求受理、解決方案制訂、數(shù)據(jù)接入、數(shù)據(jù)溯源、數(shù)據(jù)共享等工作。專項推進(jìn)建設(shè)多元化應(yīng)用樣板間,聚焦制度標(biāo)準(zhǔn)管理體系開展數(shù)字化賦能建設(shè),擴大技術(shù)資料、標(biāo)準(zhǔn)制度等公開數(shù)據(jù)接入范圍,滿足基層用戶查數(shù)據(jù)、用數(shù)據(jù)需求;圍繞項目中臺智能化提升工作,構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)提取功能和專題檢索服務(wù),輔助項目過程材料智能審查,改變現(xiàn)有線下傳遞、低效審閱的局面。

 ?。ㄗ髡邌挝唬簢译娋W(wǎng)有限公司大數(shù)據(jù)中心)

評論

用戶名:   匿名發(fā)表  
密碼:  
驗證碼:
最新評論0

相關(guān)閱讀

無相關(guān)信息