用戶名:

密碼:

驗證碼:

2014年
當前位置: > 信用新聞 >

彩票11选5计划:建立央行征信數據倉庫初探

2017-03-02 15:38 征信 點擊次數 :次

山东11选5计划 www.xlfrl.icu

中國人民銀行于2006年建立了全國統一的企業和個人信用信息基礎數據庫(以下簡稱“人行征信系統”)是國家為加快社會主義市場經濟建設、改善我國金融生態環境、完善金融基礎設施的一項重要舉措。人行征信系統的建設目標分為三期:一期目標是采集個人和企業在商業銀行發生的信用信息,向商業銀行提供信用報告查詢服務,這期目標已圓滿完成;二期目標是采集其他社會信用信息,如司法、稅務、社保等,逐步完善整合海量的信用信息數據庫,提供全面的信用評分和咨詢服務;三期目標是在二期全面數據整合的基礎上,利用數據挖掘技術對數據進行深度分析,不斷開發深層次的增值服務與產品,如風險預警、決策支持、市場分析等,同時利用互聯網、云計算、移動通信技術拓寬信用產品服務渠道,滿足社會各界多元化的征信需求。數據倉庫是對海量數據整合、保存、統計分析、數據挖掘的關鍵技術,征信數據倉庫的建立和應用將對完成二期、三期目標起到很好的推動作用。


建設征信數據倉庫的意義


數據倉庫是對海量數據整合、保存、統計分析、數據挖掘的關鍵技術。在過去的十多年中,數據倉庫技術已經在我國多個領域中取得了眾多研究成果,但在征信領域的應用和實施一直是空白。在互聯網、大數據、云服務技術蓬勃發展的今天,如果能夠把握好當前的發展機遇,積極發展、研究數據倉庫技術并將其應用央行征信系統中,就能實現征信產品的創新,提高產品競爭力與公信力,為社會公眾提供更加優質的服務,加快完善我國金融基礎設施建設,推動金融事業健康發展。建設征信數據倉庫對于央行征信系統的意義,可主要概括為以下幾個方面:一是歷史數據的保存平臺。目前征信系統內還保存全量的歷史數據,僅有部分數據參與信用報告和其他信用產品的生成,絕大部分數據對系統的存儲空間和效率產生極大的負擔,需要一個系統來保存這些數據,并且可以做到隨時調取、查詢和分析。二是各渠道信息的采集平臺。征信系統在現有金融數據基礎上還要逐步征信引進其他渠道的數據,其中包括半結構化和非結構化的數據,目前征信系統僅支持結構化數據存儲,需要一個平臺來保存各種類型的數據。三是數據統一整合平臺。不同渠道的數據在采集之后,需要一個平臺進行統一整合,形成統一標準、相關聯的、易用的數據模型。


征信數據倉庫的實現方式


數據倉庫之父比爾恩門在《數據倉庫》中將數據倉庫的定義為:“一個面向主題的、集成的、時變的、非易失的數據集合,支持管理部門的決策過程?!幣皇侵賦雋聳薟摯夂誦牡囊滴袷糶?,按照業務劃分為不同的主題數據域來組織數據;二是指出數據倉庫的數據并非元數據簡單地堆積,是整合、加工后的新數據集合;三是數據應定期更新,重點是更新策略的設計;四是在數據倉庫的數據分析過程中,也就是在非數據更新時段,一般來說數據是穩定的。經過多年發展后,數據倉庫概念又被賦予了強調數據的生命周期管理,包含非結構化數據以及突出元數據管理三方面內容。

  

在過去十多年中,隨著各行業的信息化建設及大數據、云計算、物聯網技術的興起和推動,信息系統對于數據倉庫的需求逐步向巨量數據、非結構化、實時性發展。數據倉庫不再僅僅是獨立業務系統的離線數據分析系統,而是融入到了業務系統中產生實時的業務規則。由于數據倉庫的理論和技術不斷發展創新,數據倉庫的軟硬件實現也歷經了多種方式。目前主流的實現方式包括事務型數據庫、并行數據庫、數據倉庫一體機、大數據倉庫、云服務數據倉庫幾種方式。


一般來說,小微企業可以選擇事務型數據倉庫,其中對于數據安全性要求不高的企業,也可選用云數據倉庫模式;對于中型企業,通常選用并行數據庫或中低端一體機的方式;對于大型的電信或金融企業,大多選擇高端的一體機,如中國移動和工商銀行選擇天睿公司數據倉庫方案;而對于新興的互聯網企業,特別是提供電子商務或社交服務的互聯網企業通常選擇具備大數據處理能力的數據倉庫解決方案。

  

央行征信數據倉庫選型分析

  

征信數據倉庫主要數據來源于征信業務系統。征信業務系統負責征信相關數據的采集、整合、加工、生成信用產品并對外提供產品服務,包括個人征信系統和企業征信系統,其數據源分析如下:

  

一是數據量分析。目前征信系統含有存量數據50T,且每年新增數據為5-7T,當前絕大多數大中型金融信貸機構都已接入征信系統,新接入的信貸機構包括村鎮銀行、小額貸款公司等地方信貸機構及將要接入P2P等新興信貸機構,要求系統存儲具備橫向擴展能力;二是數據儲存結構及處理方式。金融機構數據上報按照人民銀行接口規范要求,屬于結構化數據。數據處理邏輯復雜,信用報告中的身份信息整合、違約率和評分等指標的加工需要大量的歷史數據的關聯計算,以上特點要求系統采用分布式的數據存儲結構,充分采用并行計算技術提高數據處理效率;三是數據實時性要求。目前信用報告按周更新,評分、違約率等增值產品按月更新,今后可能要求按日更新;四是非結構化數據源。數據倉庫的數據源還應包括社交網絡、電信、電商等和信用密切相關的各種非結構化大數據。

  

基于以上分析,數據倉庫選型應具備以下要求:一是核心數據庫存儲容量150T以上??悸竅低辰ㄉ柚芷?,數據倉庫建成時初始入倉數據近60T,年增量為6-9T,考慮系統壽命一般為12年左右,則估算系統設計容量應為150T;二是系統架構并行數據庫??悸塹叫龐檬菪枰叢喲硪約敖窈蟮母吒縷刀紉?,建議數據倉庫應用并行數據庫架構以提高橫向擴展性和效率;三是專用分析型數據庫。應采用具備高速緩存、數據壓縮等技術的專用分析型數據庫,而并非傳統的關系型OLTP數據庫;四是采用一體機型。一體機具有較高安全性、安裝維護較為簡單,成本低于其它形式等優勢,建議采用一體機形式;五是選取Hadoop生態系統用于非結構化數據存儲和處理。系統應具備非結構化數據存儲和處理能力,考慮業內的主流實現方式,選擇Hadoop生態系統是合理的選擇。

  

征信數據倉庫建設的深遠影響

  

央行征信數據倉庫的建設將對我國征信服務從五個方面產生影響:一是擴大受眾面。由于數據倉庫內包含來自于互聯網的非結構化數據,這樣可以為眾多原來在征信系統無金融信貸記錄的信息主體提供服務;二是提高信息完整度。數據倉庫可以將金融信貸信息與互聯網征信信息進行整合,提高信息主體信用信息的完整度;三是提供更多產品。數據倉庫作為產品研發的平臺利用數據挖掘方法可以開發出更多產品為社會服務;四是提高服務實時性。數據倉庫具備高效的數據處理能力,可以提升產品更新頻度;五是提高央行征信服務質量。數據倉庫的一部分功能用于機構內部的管理決策使用,改進服務水平,提升服務質量。


文章來源 金融時報

(責任編輯:紅麗)
文章人氣:
(請您在發表言論時自覺遵守互聯網相關政策法律法規,文明上網,健康言論。)
用戶名:
驗證碼:
  • 企業靠“誠信”可獲銀
    企業靠“誠信”可獲銀行信用貸款 4月25號,赤峰青年誠信信用協會與元寶山農村商業銀行...
    企業靠“誠信”可獲銀行信用貸款
  • 赤峰市開展義務植樹活
    赤峰市開展義務植樹活動暨“青年雷鋒生態林”奠基揭幕儀式 為提高全民的綠化意識,形...
    赤峰市開展義務植樹活動
  • “先看病后付費”是一
    廣州婦女兒童醫療中心聯手支付寶、芝麻信用,推行“先診療后付費”。芝麻信用評分650...
    “先看病后付費”是一帖“誠信藥”
  • 中國人行分支行春節期
    2016年春節期間,廣西轄內分支機構將誠信文化與春運服務相結合,開展形式多樣的征信文...
    中國人行分支行春節期間以多種形式推進轄區征信文化建設