現代商業銀行日常經營活動中積累了大量數據,這些數據除了支持銀行前臺業務流程運轉之外,越來越多地被用于決策支持領域,風險控制、產品定價、績效考核等管理決策過程也都需要大量高質量數據支持。銀行日常經營決策過程的背后,實質是數據的生產、傳遞和利用過程。
此外,日益全面的和嚴格的監管措施和信息披露要求,也對銀行數據提出了前所未有的挑戰。如果不能對這些數據進行有效管理,其價值就得不到很好體現,甚至會給運營管理帶來負面作用,具體表現為:
一是缺乏統一數據標準,難以建立全面、準確、完整地反映企業運營狀況的單一數據視圖,難以做到數據的邏輯整合而不僅僅是物理集中;
二是缺乏規范的數據質量治理流程和考核機制,不能及時發現數據質量問題,或缺乏有效解決途徑;
三是對數據采集、分布、流轉及應用的規劃存在不合理現象,數據需求、數據質量、數據應用等問題的管理和解決分散在不同業務和技術部門,沒有一個清晰的協調機制和統一的報告渠道,業務不能及時、按需獲得數據支持;
四是缺乏有效的數據安全管理機制,對敏感信息的訪問缺乏有效控制,對銀行形成潛在的聲譽和法律風險等。為使這些數據“包袱”變成“金礦”,數據治理體系的構建就變得尤為重要和迫切。
01 數據治理體系簡介
數據治理是為滿足企業內部信息需求,提升企業信息服務水準而制定的相關流程、政策、標準以及相關技術手段,用于保證信息的可用性、可獲取性、高質量、一致性以及安全性。數據治理體系建設的目的,是建立數據擁有者、使用者、數據以及支撐系統之間的和諧互補關系,從全企業視角協調、統領各個層面的數據管理工作,確保內部各類人員能夠得到及時、準確的數據支持和服務。通常認為,數據治理至少應當涵蓋如下功能域:數據質量管理、元數據管理、數據標準管理數據安全管理和主數據管理,現對上述功能域說明如下:
1.數據質量管理
對支持業務需求的數據進行全面質量管理,通過數據質量相關管理辦法、組織、流程、評價考核規則的制定,及時發現并解決數據質量問題,提升數據的完整性、及時性、準確性及一致性,提升業務價值。
2.元數據管理
元數據是關于數據的數據,即對數據的描述信息。根據其屬性的不同,元數據可分為技術元數據和業務元數據。元數據管理是元數據的定義、收集、管理和發布的方法、工具及流程的集合,通過完成對相關業務元數據及技術元數據的集成及應用,提供數據路徑、數據歸屬信息,并對業務術語、文檔進行集中管理,借助變更報告、影響分析以及業務術語管理等應用, 以此保證數據的完整性、控制數據質量、減少業務術語歧義和建立業務人員之間、技術人員之間,以及雙方的溝通平臺。
3.數據標準管理
通過建立一整套數據規范、管控流程和技術工具來確保銀行各種重要信息,包括產品、客戶、機構、賬戶等信息在全行內外使用和交換的一致和準確。數據標準可分為技術標準和業務標準。
4.數據安全管理
通過建立對數據及相關信息系統進行保護的一系列措施, 確保數據免遭未經授權的訪問、使用、修改或刪除,保證數據完整性、保密性和可用性,具體可分為管理和技術兩大類措施。
5.主數據管理
主數據指描述核心業務實體的數據,如客戶、機構、員工、產品等。這些數據變化相對緩慢并通常在企業內跨業務重復使用。主數據管理適用于管理、協調、監控與企業主要業務實體相關聯的主數據的一系列規則、技術、應用、策略和程序。
02 數據質量管理簡介
業界普遍認可的數據質量定義為數據對其期望目的的適合度,即數據質量管理生命周期及其相關的數據質量管理流程,都要為確保數據滿足其自身預期目標提供相應的方法和手段。
數據質量管理基礎和問題分類
下列要素是進行數據質量管理的基礎:
1.數據質量的好壞是由用戶以及數據使用價值所決定的。
2.數據質量的好壞代表著數據在數據知識應用中、數據所存在的系統中以及數據使用過程中被應用或者有價值的程度。
3.只有當數據被下游過程(系統或用戶)所接收并使用時,數據質量問題的研討才有意義。
4.數據是持續變更的,數據質量管理是一個持續過程而不是一次性活動。
銀行關注的常見數據質量問題可以歸成如下7類:
1.定義缺失,指缺少關鍵業務元素定義,導致對同一字段的理解偏差。例如,
什么是“一個客戶”,不同業務有不同理解,通常風險應用將組織機構號作為對公客戶的“身份證”,一個組織機構號代表一個客戶;而核心系統對客戶號的分配較為隨意,允許一個組織機構號下存在多個客戶號。
2.數據異常,指系統的個別字段出現了異常信息,包括取值錯誤,格式錯誤、多余字符、亂碼等。
3.信息缺失或不準確,指在系統表中已經設計了某些字段,但在使用過程中, 很多記錄卻沒有收集這些字段的信息,或存在信息收集不準確、信息重復登記等情況。信息缺失或不準確通常在客戶信息方面最為嚴重。
4.系統之間數據不一致,主要體現在兩個方面:
(1)系統間數據維護不一致。為了滿足各個系統內部邏輯、提高訪問效率和減少數據傳輸,相同信息可能在不同系統進行冗余存放。但冗余存放的數據如果不進行同步或及時的數據維護,則必會導致這些數據的不一致。例如,銀行通常存在核心系統與信貸系統數據不一致的問題。
(2)系統之間數據同步時效性造成的不一致。典型案例如下:由于某些銀行的貸記卡系統是外包系統,因此總賬系統在 T+1 日才能取到貸記卡 T 日的數據,但是其他系統的科目余額缺失 T+1 日的數據,于是此種同步時效性的差異就導致了系統之間數據不一致。
5.數據完整性問題。數據完整性問題主要體現在兩個方面:(1)參照完整性,是指一個表 A的外鍵不包含無效的鍵值,例如,借據表中記錄了合同號,但是在合同表中無法找到相關記錄;(2)數據含義沖突,如某些賬戶,從賬戶屬性、存期等字段看,應是通知存款產品,但從科目看,又是普通定期產品。
6.數據生命周期問題。銀行中的關鍵數據,例如,賬戶、客戶、產品信息等, 都有若干日期字段記錄其生命周期,這些日期字段包括創建/開戶日期、關閉/
銷戶日期、最后交易日期和最后修改日期等,但是在業務系統中往往存在修改了記錄狀態卻并未同步更新相關日期字段的情況。此外,還有一個違反合理數據生命周期的常見做法,就是直接在物理上刪除記錄。
7.代碼問題。包括三個與代碼相關的問題:
(1)代碼不統一問題,即不同應用之間相同用途代碼的編碼不一致;
(2)未代碼化問題,即常見情況使用文字存儲,而非將信息代碼化,很多時候會發現信息存儲的不少,但卻不便于分析使用。
(3)意外代碼,即實際數據中出現了未定義的代碼值。
03 數據質量管理方法論
圖 1 描述了權威人士普遍認可的數據質量管理方法論,共分六步。

圖1 數據質量提升步驟圖
第一步:定義及驗證
首先,從技術和業務兩個層面對數據應當滿足的質量目標進行定義。表1列出了一系列數據質量度量標準,但最終的定義應當以更規范的形式進行描述。例如,屬性 X的缺失率不超過2%。其次,對于派生數據,其源數據和轉換的規則必須詳細說明。最后,上面描述的定義和規則將作為數據質量評估計劃的輸入源。數據質量評估計劃主要用來驗證定義和規則的正確性,并且這個計劃將詳細描述數據必須滿足的、適合它預期用途的屬性,即它定義了數據質量。這個計劃還將指導初始的數據度量,通常也成為數據剖析。
表1 數據質量度量標準

第二步:影響分析與共性分析
完成數據質量目標定義后,需要評估一個特定的數據質量問題在預期的數據使用適合性方面帶來的影響,并根據影響分析結果可以確定數據質量問題的重要性與優先級別。
所謂共性分析就是分析錯誤具有的共性,我們期望一次可以將許多錯誤歸結到某類共同原因。這個分析將為下一步追蹤根本原因做好準備。
第三步:追蹤根本原因
圖 2 所示魚骨圖是一個眾所周知的用于鑒別數據質量背后根本原因的工具,它反映了需要達到的和實際的數據質量之間的差距原因,通常是信息、流程、技術、人員等因素所導致。
第四步:預防/修復數據質量問題
圖 3 描述了在追蹤數據質量問題的根本原因時可用到的選擇。每一個選擇都有相關的優點和弱點。
1.導致數據質量問題的根本原因,最常見的有人員、流程、業務系統前端、業務系統數據庫、數據抽取和加載過程等方面處理不當,這些因素都有可能產生數據質量問題。對于圖3前三項(人員、流程、業務系統前端),重點在于預防,對于后三項(業務系統數據庫,抽取、加載),則通常通過修復的手段來解決。
2.每類數據質量問題的預防/修復都有有利和不利的一面,比如,由于人員產生的質量問題,有利方面是可以再源頭預防,不利方面在于人員往往會疏于管理、容易遺忘以及不同人員的差異性、專注點不同,這些都會不可避免地產生一定的數據質量問題。

圖2 數據質量根本原因圖
3.涉及的數據量。通常數據質量問題需要修復的數據量有大致規律,如人員、流程、前端應用產生的質量問題需要修復的數據量往往不大,而數據庫處理、數據抽取和加載等后臺環節導致的數據質量問題通常設計的數據量較大。對于已經發生的數據質量問題,只能通過修復措施解決,但是從長遠來看,重視預防措施, 在源頭控制錯誤的產生更為重要。

圖 3 預防/修復數據質量問題圖
第五步:趨勢監控
一個已知的數據質量問題被修復后并不意味著這個特定問題就被永遠解決了。如果沒有有效地預防措施,錯誤仍有可能再現。因此,對重要數據質量問題應當持續監控。圖 4 所示控制圖經常被用來做質量問題監控,當錯誤的個數在一定范圍之內浮動時,質量問題被認為處于可控狀態。

圖 4 數據質量趨勢監控圖
第六步:識別和研究偏差
監控流程來識別問題。例如,當一個已知數據的質量超過了允許的控制范圍, 流程將需要從該分支返回到第三步再一次識別根本原因。

圖 5 識別和研究偏差圖
04 數據質量問題特征分析
根據數據質量定義,數據的不同使用目的會導致不同的數據質量要求,例如, 業務系統對數據的使用目的主要是為了保證業務流程的正常運轉和滿足一些簡單的統計功能,因此只要業務流程和統計正常,就可以認為數據質量滿足要求;而分析型系統對數據的使用目的則多種多樣,而且涵蓋企業運營的方方面面,那么滿足業務流程正常運轉的需要并不一定就能保證滿足分析的需求,因此分析型應用的需求是決定數據質量管理目標的主要因素。
在這一前提下,對企業內部數據流轉過程各環節中呈現出來的數據質量問題特性作如下分析,如圖6所示,數據流轉過程被分成三個階段(環節):
1.數據生產環節:企業內部的原始數據,絕大部分都產生自業務源系統,很少量的增值數據(Value-addedata)產生于分析型系統。
2.數據集成環節:在基礎數據平臺類系統(ODS/數據倉庫和數據集市)中,集成來自不同源系統的數據,并按照數據模型整合。
3.數據使用環節:由各類分析型應用組成,也包括隨機業務查詢、數據分析、數據挖掘等信息訪問手段。
從圖6中可以看到,數據質量問題的產生主要在于數據產生環節,其次在于數據集成環節的數據加工過程,而在數據使用環節,由于原則上不再對數據作修改,因此基本上不產生數據質量問題。

圖 6 數據質量問題分析圖
數據質量問題的發現則不同,基本呈現出相反特征:一是業務源系統雖然是數據的主要產生環節,但是通常只能發現業務流程相關的數據質量問題,而且僅限于本系統內部;二是數據集成環節由于是企業內部數據的一個最主要會聚點,因此通常也是數據質量問題暴露最多的環節;三是數據使用環節是數據質量問題頻繁暴露的另一個環節,主要是因為對數據的使用決定了數據質量問題的定義,所以很多質量問題都是在使用時被首次發現。
05 在不同流轉環節關注的數據質量
基于數據質量管理的關鍵環節和質量問題特性,再結合業界事實數據質量管理的最佳實踐,建議在不同流轉環節側重完成的功能點實現應如下:
1.數據產生環節。
修正——數據質量問題必須在源頭得到修正,這是數據質量管理的一項基本原則。
預防——相對于修正,預防的意義更大,主要原因在于可以防止產生新的數據質量問題。
定義——由于數據質量問題的定義主要取決于使用目的原則,因此數據質量問題的定義主要應當結合數據使用環節來發起,但事實上常常都是基于源系統的數據結構來進行定義。
2.數據集成環節。
檢查——技術數據平臺類系統作為銀行數據的主要會聚點,在此環節進行數據質量問題檢查的效用最高。
報告——對于數據質量檢查結果,應當以報告形式展開,并通過一定的機制(自動工作流程或人工流程)通知相關的數據質量問題責任人,如業務源系統項目組、業務部門、數據倉庫或應用項目組等。
跟蹤——由于來自業務源系統的數據每天都會加載到基礎數據平臺類系統中,因此,基礎數據平臺類系統應當被利用來對數據質量問題的解決進行跟蹤,并將跟蹤結果作為提升數據質量問題治理成效的一個依據。
3.數據使用環節。
定義——如前所述,在數據使用環節就根據數據的使用目標來定義數據應當滿足的質量標準,并作為日后上下游系統之間服務水平協議(Service LevelAgreement,SLA)的輸入接口。
評估——作為數據的最終使用者,在使用環節應當對數據質量治理的成效進行評估,并作為下一階段設定數據質量管理目標的依據之一。
06 數據質量管理流程的關鍵點
數據質量管理流程應當涵蓋從“數據產生”到“數據集成”再到“數據使用”在內的全過程。為了在銀行全行范圍內進行有效的數據質量管理,數據質量管理的不同功能點應恰當分布在個流程的相應環節,在基礎數據平臺類系統上構建數據質量管理系統,并將源系統、相關應用以及相關科技和業務用戶都納入數據質量問題的發現——修正——跟蹤——評估的閉環流程當中,如此才是實施數據質量管理的最佳選擇。
此外,數據質量管理成敗的關鍵在于合理有效的組織架構和流程,而不是管理系統自身,因此應當更為重視數據質量管理配套的組織架構和管理流程建設。
在構建數據質量管理體系時,以下關鍵因素應當考慮:跨部門以上主管領導的重視和牽頭;負責解決數據質量問題的專門和專業組織;負責解決數據質量問題的統一和專業流程;負責解決數據質量問題的統一平臺;負責偵測數據質量問題的專業工具。
07 數據質量管理與數據治理體系的有機結合
數據質量管理應當與整個企業級的數據治理體系有機結合,圖7 簡要說明了這些治理體系各主要組件之間的關系。
圖 7 反映的數據質量管理相關治理組件的關系如下:

圖 7 數據治理主要組件之間的關系圖
1.數據標準是數據質量管理進行質量檢查的規則,因此數據與標準不相符,就是一個典型的數據質量問題,通過部署數據質量管理系統,可以對數據標準的落地實施提供有效的監控、檢驗和督促手段。
2.元數據管理系統可以作為數據質量管理的一個輸入端,輔助數據質量檢查 腳本的自動生成,而數據質量管理系統中存儲的檢查規則等信息又是一項元數據, 應當被元數據管理系統所采集。
3.數據安全管理中定義的數據所有者,是構建數據質量治理閉環流程和確定數據整改權責的重要依據。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。