雖然西電的信息化建設已經取得了不錯的成績,但是隨著學校全面推動由傳統教學向信息化教學方向的轉變,學校業務需求也從以“管理為目標向以服務為目標”和“從以流程為中心向以數據為中心”的轉變,原有的技術架構已無法滿足學校新的業務需求,在這樣的大背景下西電的信息化建設工作也在業務需求的驅動下不斷完善。具體可分為如下三期:
第一期:擴展數據維度
2017年6月1號隨著《網絡安全法》的頒布:要求采取檢測、記錄網絡運行狀態、網絡安全時間的技術措施,并按照規定留存相關的網絡日志不少于六個月;西電也提出了通過網絡日志數據進行學校網絡環境的安全監測和輔助學??茖W研究的需求。
因此本期希嘉為西電提供了基于分布式存儲計算架構(hadoop)的日志數據處理系統,將學校近10類日志數據進行集中采集、結構化解析存儲和按需計算供給,西電近10類日志數據每天可產生700G的數據,截至目前經過近三年的運行已為學校存儲了PB級的日志數據資產,日志數據先后被提供出去支撐了學??蒲欣蠋煹目茖W研究(防火墻數據分析師生上網時長和喜好),支撐了學校網絡態勢感知的分析(提供了山石防火墻、華為BAS、綠盟WAF、深瀾認證、漢領NGDAP數據庫防火墻等幾類設備的日志數據),支撐了學校學生安全管理等使用場景,當前網絡日志數據已成為學校數據體體量最大且不可或缺的數據資產。
第二期:解決數據使用瓶頸
2018年初西安電子科技大學校制定了信息化“五個一工程”建設目標,但是支撐這個目標實現的所有的數據交換需求基本都需要通過信息中心的數據管理員來完成,隨著學校各科研部門、業務科室和三方開發者對數據使用需求和頻次的指數級增加,信息中心數據管理員已成為了阻礙學校數據正常流通的瓶頸所在,具體表現在:
1、?工作吃力不討好:學校每天少則幾十次多則近百次的數據調用需求,需要信息中心3位數據管理員幾乎全部的辦公時間都耗在(查找數據—》整合數據—》溝通數據推送方式—》推送數據—》解釋數據含義—》解決數據質量問題)的無盡循環中,而且大多數數據申請需求申請的數據是一樣的,例如統一身份認證基本只會用到人員信息表、組織架構表、一卡通賬號、照片和外鏈表的數據,但是我校158個系統或應用做統一身份認證都需要用到這幾張表的數據,這就導致我校數據管理員不得不將大量的精力花在這單調重復的工作中,即使信息中心工作量這么大數據需求方遇到數據推送不及時或者數據質量不滿足需求的問題都把責任歸咎于信息中心工作沒做到位。
2、?數據供給方式單一:通過ETL推送方式對外提供數據的方式,時間一長由于推送的中間庫太多,給多少個中間庫提供了哪些數據、數據是否有被繼續使用,都無法自動留痕管理,給數據的安全帶來了很大的隱患。
3、?數據實時性得不到滿足:ETL數據推送方式延時比較大,像課表查詢、工資查詢、考勤等對數據實時新要求較高的需求武大得到滿足。
以上問題得不到解決不僅無法滿足學校的正常數據使用需求,而且各數據需求方對信息中心提供數據服務的滿意度也日益下降。因此希嘉第二期為西電提供了統一數據開放平臺及相關服務來幫助學校解決當前數據使用過程中遇到的問題,具體如下:
1、?工作輕松又討好:統一數據開放平臺可以統一注冊管理學校多源異構數據庫中的數據資產,可以將數據資產向淘寶商家銷售商品一樣呈現給數據申請者,讓數據中心的管理人員可以從傳統的查找表格、提供接口、同步數據的方式解放出來,只需要對數據的申請方進行管理、審核和檢測即可??梢詫⒏嗟木Ψ旁跀祿Y產質量的把關、數據資產全面性的審核和補充上,同時也為眾多數據申請者簡化了數據申請流程,節約了數據申請時間。
2、?多種數據供給方式:統一數據開放平臺在ETL推送數據的基礎上基于不同業務場景又擴展了以下三種數據供應方式平:

(1)事務/分析應用建設:以標準數據API接口開放,屏蔽異構的數據源類型。并通過線上開發者中心提供完整的API集市、調用文檔、示例等服務。
(2)BI可視化分析構建:提供數據源連接開放,可線上登記申請,同時為學校提供管控功能。
(3)師生用戶數據服務:提供文本數據開放服務,申請審核通過后直接生成Excel、TXT文件,方便不具備開發能力的校內用戶也可以快速獲取全面的實時數據。
三種方式都支持數據的一次發布、多次使用,(例如:類似統一身份認證數據只發布一次即可被申請者自主調用無數次),同時使用過程全部留痕(可用于信息中心工作成果匯報),不僅保障了數據的安全性,又支撐了全場景應用生態。
3、?數據的實時性得到滿足:以上三種數據供給方式都支持直連源業務系統將數據發布出來供數據申請者調用,源業務系統任意數據的變動,目標系統都可以實時捕獲,解決了學校課表查詢、工資查詢、考勤等眾多有數據實時需求的業務場景。
希嘉通過向客戶提供統一數據開放平臺和對需要發布的數據提供數據治理服務徹底幫助信息中心在邏輯層面構建了“數據一個庫”,解決了數據使用瓶頸的問題,用學校馬老師的話說:幫他們解放了80%的工作量(原來3個人忙不過來的工作量,現在一個人輕松搞定),同時該平臺也降低了數據使用者的數據使用門檻、簡化了數據申請流程,提升了用戶數據使用體驗和滿意度,協調數據所花費的時間顯著減少,應用平均上線時間從之前的11個月減少到了3.5個月。讓數據真正意義上成為資產及時有力的支撐了學校18年“五個一工程”戰略目標的落地。18年具體落地成效如下:
●? 數據一個庫成效:共完成了192張數據表匯聚,ETL上行接口共390個,ETL下行接口共812個,為全校117個系統提供了數據共享。為上層應用通過API共發布了211個API,一年之內支撐了學校51個應用的上線,API被調用總次數超過千萬次;
●??認證一個號成效:在數據開放平臺的支撐下18年新增近百個系統的統一身份認證對接,共認證系統158個,調用數據表1186張次,業務系統覆蓋率95%;
●??管理一張表成效:支撐了學校上線表單59個不同種類,力求推進數據多跑路,提高管理服務效率,全校師生共完成6萬多份自主打印。其中支撐學生自助打印本課程成績單近三萬份,研究生成績單近1.5萬分,其他供給1.5萬余份;
●??服務一個站成效:通過數據開放平臺支撐一站服務大廳上線微應用/服務總數266個,PC總訪問量高達62萬次,日均訪問量達3500+。移動校園APP(i西電)上線微應用/服務百余個,用戶數20000+;
●??決策一個鍵成效:通過數據開放平臺支撐了學校自研的《大數據決策支撐平臺》輔助管理和決策支持的效果初顯,建成了包括教育教學、綜合預警、招生就業、精準資助、科研貢獻、學生畫像、資源使用及人事分析在內的10個主題分析模塊,并建立相應的評估評價指標,為精準決策提供支撐。
第三期:實現數據全生命周期管理
2019年初學校在《教育信息化2.0行動計劃》指導下,制定了以信息化促進管理服務創新。在“五個一工程”基礎上推進落實信息化體制機制升級改造,以保障全校數據實現“互聯互通”、全校業務實現“一網通辦”、徹底解決師生辦事重復填表的信息化建設目標。
對標19年目標要求,經過信息中心對數據資產多年持續的積累和運營后,18年在支撐學校信息化建設目標:“五個一工程”落地方面取得了顯著成效,這已經讓學校包括校領導、職能部門、及師生在內的廣大群體切身感受到了數據帶來的紅利、感受到了通過數據服務對日常工作和管理服務帶來的創新和變革。但隨著數據的不斷匯聚和使用,仍然在以下幾方面發現了不足:
1、?數據質量問題日益凸顯
當數據被當做資產用起來后,高頻、大量、全場景的數據使用需求會把每一個細小的數據質量問題無限放大,數據資產不全面、數據格式不統一、數據無注釋、數據內容錯誤或者缺失等問題的被動響應讓信息中心應不暇接,這又成為了信息中心推進信息化工作新的瓶頸所在,而且該問題的解決已迫在眉睫,學校急需一套數據質量的閉環管理機制來解決日益凸顯的數據質量問題。
2、?共性數據萃取不足
學校的整體業務是有很多不同的業務場景共同構建的,在前期的信息化建設過程中,西電信息中心的數據已經能夠為業務場景提供數據,但是提供數據需要從不同的數據庫表中獲取數據,組成場景需要的數據,這種支撐業務場景的方式效率低下,不熟悉業務的數據管理員不能提供具體的數據,只能提供全量數據,導致數據安全管理存在一定隱患。
西電在數據使用過程中發現大多數業務需求所需要的數據比較固定,例如統一身份認證基本只會用到人員信息表、組織架構表、一卡通賬號、照片和外鏈表的數據,但是西電158個系統或應用做統一身份認證都需要用到這幾張表的數據,這就導致西電數據管理員不得不將大量的精力花在這單調重復的工作中。
結合西電數據管理員近幾年的經驗來看當前80%的業務場景事實上都可以由20%具有共性的數據集來支撐(統一身份認證案例),但是由于這些共性的數據表未被歸納整理出來,導致西電數據管理員即使花費80%的精力來準備業務層所需要的數據表,都仍然無法滿足業務層應用開發對數據需求的速度。
3、?數據資產不清、流向不明
當前信息中心已經建成了包含全校大部分業務系統主數據的共享數據庫,已能夠支撐絕大部分的數據共享交換需求,但是因為數據資產不清,數據流向不明的問題給數據的使用帶來了眾多的困惑,具體表現在:
●??對于校領導:信息中心無法為校領導提供一個直觀的展示界面,讓校領導可以一目了然的了解學校的數據資產現狀、各部門數據提供排名情況、各部門數據質量排名情況、各部門數據標準遵循情況、各部門數據問題解決情況等,讓校領導可以在宏觀層面實時監督學校數據資產運行現狀,為校領導部門問責和關鍵協調提供決策支撐。甚至校領導自己想要及時了解學校的預決算等數據的統計情況都沒有辦法及時準確的知道。
●??對于職能部門:?各個部門想直觀了解自己到底已提供出去了多少數據,提供的數據支撐了學校哪些業務運行,還有哪些業務需要本部門提供什么樣的數據來支撐,本部門需要的數據應該有哪些部門供給?本部門在數據使用過程中遇到的數據質量問題總是不能得到及時有效的解決。業務部門對這些情況都有迫切的知情權,但是信息中心又沒法給出準確的答復。
●??對于廣大師生:沒有渠道了解學校與自身相關的數據資產到底由哪些部門分管,導致好多數據每年都存在重復填報的問題,關鍵是填來填去最后反饋回來的數據還是有一堆問題,但是就是不能清晰的知道到底應該找誰來核對解決?這種情況導致師生在各部門辦事時經常遇到阻礙、浪費了個人時間,或與部門工作人員之間產生不必要的矛盾,而為了協調解決這些問題也給信息中心和各職能部門帶來了無盡的煩惱和巨大的工作壓力。
●??對于信息中心:信息中心雖然作為全校數據資產供需管理的樞紐節點,但是卻缺乏對數據全周期、全流向的有效監管能力;比如信息中心無法及時掌握源頭數據的變更情況,這樣不僅會使得下游有實時性要求業務場景就沒法得到很好的滿足(工資條案例),而且這些變更對下游帶來的業務影響也無法及時準確的評估。這就會導致作為全校數據樞紐節點的信息中心會成為背鍋俠,任何數據問題都是信息中心的問題,導致工作中總是吃力不討好,信息中心也繼續新的技術手段救自己于水深火熱之中。
?
以上問題成為了掣肘西電2019年信息化目標實現的主要障礙,因此西電啟動了第三期《數據治理與共享》建設項目來解決以上問題,具體建設內容如下:
一、?通過治理提升數據質量
本期項目希嘉完成了西電11個處級單位、38個科室、46個業務系統數據的全面調研,建設了較完善的數據倉庫體系(數據湖—》數據倉庫—》數據集市三層架構)。治理后基本解決了之前存在的數據質量問題,同時也對數據的全面性、完整性、準確性進行了補充。具體表現在:
1、?輸出數據標準及數據管理制度
希嘉通過調研為學校數據了符合學校實施數據標準的西安電子科技大學校級數據標準V1.0和多個配套的數據管理制度。
2、希嘉新建的數據湖中
●??治理前學校老共享庫中共有783張數據表、字段數12000+、注釋率37%,學校日均處理10余件數據質量相關的問題。
●??治理后識別出老共享庫中有495張有用的數據表(288張無用的數據表),有用的字段數8000+,希嘉新建數據湖完成了對學校老共享庫的融合替換。
●??希嘉根據學校的業務需要又從46個業務系統共補采了近3000張數據表,最終新建的數據湖中共集成了3698張數據表、字段數68590、字段注釋率提升到了87.9%。
3、希嘉新建的標準化數倉中
校級數據標準在數倉中完成標準數據模型的創建,然后從數據湖中把數據按照標準加載轉換到數據倉庫中,最終進入到數據倉庫的數據表共計566張(包括253張標準代碼表和313張標準數據表)、20460個字段、字段注釋率95%。
二、?通過數據集市萃取共性數據能力
希嘉以學校實際業務需求為導向萃取相應數據集,按照西電實際業務經驗來看,本期項目按照部門職能、業務需求、分析需求三個方向完成了數據集的萃取工作,截止目前共創建API近800個,支撐了學校近百個應用的正常運行,接口累計被調用4500萬次,日均調用11萬次,有效支撐了學校的日常管理和教育教學工作。
三、?通過數據資源門戶理清數據資產和流向
本項目為西電電子大學定制化開發了數據資源門戶系統,目的就是通過對數據進行全生命周期的梳理幫助學校解決數據資產不清、流向不明給學校各個角色(校領導、職能部門、信息中心、廣大師生)帶來的數據使用問題。具體建成成果如下:
●? ?對于校領導:通過資源門戶的總覽界面可以直觀的了解到數據資產現狀,掌握數據提供排名情況、數據質量排名情況、數據標準遵循情況、數據問題處理情況等,既可以為校領導提供宏觀層面的決策支撐,也可以讓校領導根據數據使用需求自主完成excel電子表格數據的下載。
●? ?對于職能部門:通過數據資源門戶的部門或主題界面可以讓各個部門對每一張數據表的供需情況、流向情況和被使用情況,本部門需要的數據提供了在在線的申請界面,數據質量問題也可以直接溯源查看,不僅滿足了部門對數據的知情權,還降低了各個部門使用數據的門檻。
●? ??對于廣大師生:通過希嘉的數倉架構對學?!耙痪W、一次、多端(PC端、移動端、自助端)”服務體系的支持,基本上解決了師生重復填報的問題。同時師生也可以通過數據門戶直觀的了解到與自身相關的所有數據到底分別由哪些部門產生,被用到了什么地方去,遇到數據質量問題在線上直接就可以發起處理申請。
●? ??對于信息中心:通過數據智能門戶提升了信息中心對數據全生命周期和全流向的監管能力,對數據的變更及數據質量問題帶來的影響也能夠通過數據門戶一目了然的知道,讓信息中心從背鍋俠變成了蜘蛛俠,為學校提供了共享共建、共生共贏的信息化建設解決方案。