国产丁香婷婷妞妞基地-国产人人爱-国产人在线成免费视频麻豆-国产人成-91久久国产综合精品-91久久国产精品视频

公務員期刊網 論文中心 正文

多源數據下多維企業信用風險評估

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了多源數據下多維企業信用風險評估范文,希望能給你帶來靈感和參考,敬請閱讀。

多源數據下多維企業信用風險評估

[提要]本研究針對多源數據融合場景下多維企業信用風險評估,探索有效的模型學習方法。根據實驗結果與分析,可以得出結論:XGBOOST能夠較好適應多源數據分布不一致性和多維場景指標數量繁多的特點,同時該方法不需要對數據細節進行較深入的處理,因此能夠快速調整模型,適應市場監管動態變化的特點。

關鍵詞:企業信用風險;多源多維;XGBOOST

政府部門作為社會企業的主要監管機構,職責涉及海量企業的大量信用指標、安全指標、合法合規指標的監督和抽查,為企業的公平穩健發展和社會的和諧文明與穩定提供了最堅實的保障。此外,將各部門負責的不同指標聯合用于對企業整體風險的考察,不僅有利于對部門工作任務和工作流程的優化,而且能起到及時預警作用,防患于未然?,F有對于企業信用風險評估的研究工作多從開展評估的主體的不同業務角度出發,如信貸業務、電力業務、供應鏈金融、醫藥等角度,相關研究所使用的評估指標具有較高針對性、專業性,指標數量有限。從開展評估所用到的評估模型或算法進行劃分:統計學習方法,如Logistic回歸模型、結構方程模型;現代機器學習方法,如SVM、隨機森林、XGBOOST;深度學習算法,如CNN模型。其中,現代機器學習方法由于模型性能較好、便于進行適應性算法優化與集成,成為目前信用風險評估的主流方法;回歸模型結果可解釋性強,但該算法對數據分布有一定要求;深度學習方法在其他領域應用廣泛,但信用風險評估數據集通常呈現極大的類別不平衡、缺失值現象,難以直接應用深度學習算法,但也有學者組合其他算法來解決類別不平衡現象,從而促進深度學習算法的應用。本文從多業務多維度指標出發進行企業信用風險評估,模型所覆蓋的指標種類較多,類別不平衡與缺失值現象更為嚴重,難以保證多源數據分布的一致性。因此,本文重點觀察數據整體對評估性能的影響,提升模型泛化性;模型具有目標傾向性,減少“第Ⅱ類錯誤”(高風險公司未被識別)。本研究減少對各指標下數據細節的考慮,重點研究對比了不同機器學習算法,從中選出針對當前數據特點與任務場景效果最優、方法最適合的模型。針對多源多維度企業信用風險評估,借鑒大數據場景數據挖掘思想,考察數據整體特點,便于發現數據隱藏的關聯與規律,同時能夠提升評估模型的泛化性。此外,應用現代機器學習算法,有利于提升信用風險評估的客觀性,提高信用風險評估業務的效率。

一、數據介紹

選擇深圳市市監局“雙隨機、一公開”結果公示的191,824條餐飲服務食品安全量化雙隨機檢查結果數據,進行統計分析。通過數據去重和數據清洗,獲得3,827家商事主體,其中291家有違法違規記錄,2,736家沒有違法違規記錄。利用當下前沿技術多維度采集3,827家商事主體包括工商登記信息、欠稅記錄等在內的52個維度的公共信息,整合成為模型建設的樣本數據,依據正負性樣本比例,從中隨機選取3,027家上市主體數據作為模型訓練數據,其余800家商事主體作為模型測試數據。

二、設計方案

(一)系統設計。本產品按照功能分為三個模塊,數據預處理模塊、指標篩選模塊和模型訓練與選擇模塊。預處理模塊對多維企業數據進行數據離散化、歸一化、獨熱編碼等預處理;指標篩選模塊通過IV值、相關性、正則化等不同篩選方式為各指標打分,保留有效特征供后續模型使用;模型訓練與選擇模塊采用不同機器學習及深度學習的方法,建立企業基本信息和企業信用間的映射模型,訓練后的模型可用于對新企業信用的風險評估。

(二)數據預處理模塊。數值形式轉換。以日期、貨幣、文本格式數據為例的數值形式轉換:(1)從文本型描述中抽取貨幣信息,文本型描述中噪音類型包括貨幣國別種類不同(美元、人民幣等)、貨幣單位不同(元、萬元、百萬元等)、文本型數值字符混用等,觀察分析并匯總各類型噪音,分類進行貨幣換算與貨幣轉換;(2)對不同日期格式進行轉化,進行天數、月份數、年數等粒度的絕對值或相對值獲取,最終統一為以月為單位的時間跨度;(3)將具有有限類別的文本數據進行判定,轉換為分類數值標簽,如風險等級判定。異常值、缺失處理。對于空值處理,實現高頻值、指定固定值、相似數據預測值三種方式,綜合考慮后采用固定值處理方式。異常值處理,根據數據量統計,判定出異常值(極大極小值或罕見文本類別),按空值情況處理。特征轉化。各指標的數值分組、各分組分值計算?;谥髁黜椖縏oad進行數值區間劃分,Toad是針對工業屆建模而開發的工具包,針對風險評分卡的建模有針對性功能;基于信用風險領域的WOE分值計算方法進行數值對應的組別分值計算。進行數值分組能夠提升模型泛化性,降低數據誤差的影響。

(三)指標篩選。大數據場景下的數據挖掘需要處理的是海量、多渠道的數據集,且指標(或因變量)數量較多(一般都在50個以上,通常稱之為高維空間),由于難以預先得知相應的規則或模式,且場景復雜,單一規則或模型對海量樣本的覆蓋與解釋能力有限,應盡可能收集更多的樣品指標以防止遺漏重要解釋變量。但是這不等于把全部指標都應用到數據建模過程中,這樣會嚴重影響建模的效率與對挖掘結果的解釋,同時過于依賴部分指標,將降低模型的泛化性能,少量的指標有利于模型的因果分析,提升模型魯棒性。因此,在建模之前必須對指標進行必要篩選,以挑選出對目標變量或模式有重要影響的變量。指標篩選即指標歸約,是指用部分指標來代替原有的指標集合,即進行適當降維。降維的方法主要有兩類:一是選擇指標的子集來代替原有的指標集合,如相關分析、回歸分析、信息增益與模糊集等;二是對原有指標進行變換,合成新的綜合性指標,如主成分分析。本文所述的指標篩選是子集的選擇。指標選取的方法有多種,常用的有相關分析、回歸分析、信息增益、正則化等。本文選擇相關分析、信息增益、正則化方法。基于回歸分析篩選方法包括前進、后退法以及步進法,試圖從線性因果關系來說明各個自變量對因變量的影響大小,該類方法避免了模型受部分指標影響從而帶來偏頗,但由于本文重點考察不同分類方法對于復雜指標、高維空間的柔性,此外本文數據稀疏程度較高,部分指標直接影響樣本評估結果,應用該類方法淘汰掉該類指標將導致生成大量無效數據。因此,未對該類方法進行嘗試。相關性方法僅從各指標數值分布向量之間的相似程度出發進行考慮,易于使用和解釋。信息增益方法源于熵理論,即熱力學第二定律,目前在社會學科、管理科學以及空間科學上取得了相當多的成功應用,其基本思想是以指標的信息含量(對分類準確性提升的增益、貢獻)來評價指標的重要程度,進而篩選指標。正則化方法是機器學習領域中的常用方法,可以在降低模型復雜度的同時,保證模型的有效分類性能,并且提升模型的泛化性能。上述三類方法結合使用,實現IV值、相關性、正則化等不同篩選方式,完成多層級的嚴格指標篩選。(1)IV值的作用就是衡量一個變量整體的預測能力,好處在于每個變量的IV值是可比的。所謂IV值,是指一個變量對于判定客戶屬于y1還是y0的信息貢獻,貢獻越大,IV值越大。(2)相關系數越大,兩個指標相關性越高,從而導致評價指標所反映的信息重復。通過相關性分析,刪除相關系數較大的指標,簡化了指標體系,保證了指標體系的簡潔有效。(3)正則化通過在擬合模型時的代價函數中加入范數,其中范數表示模型參數的復雜程度,擬合結束,部分維度參數變為零,從而能夠有效剔除評價體系的無用指標。篩選前指標總數52項,最終保留指標15項,如表1所示。(表1)

(四)模型算法選擇。1、Logistic邏輯回歸。Logistic邏輯回歸是線性回歸的拓展,由于模型可解釋性強、模型簡單等優點,在信用評分模型中應用廣泛。以信貸風險管理為例,信用卡申請人的基本信息如文化程度、月薪、婚姻狀況以及過去是否存在違約記錄等情況和未來出現違約的概率之間存在何種關系。邏輯回歸是線性回歸的拓展,但不像線性回歸那樣對數據分布有較高要求,只需要自變量之間不存在高度相關的多重共線性關系即可。在金融行業中,邏輯回歸應用于對個人信用風險進行評級具有三個優點:其一,不需要對自變量分布做假設,不要求同方差性;其二,生成的回歸方程易于理解,方便解釋各個變量對模型的影響;其三,可求出一個發生比,更直觀判斷分類的準確性。2、XGBOOST。XGBOOST是基于決策樹模型的集成分類方法。決策樹模型根據數據特征進行樹狀層級劃分,具有易于解釋、識別效率高、產生判別規則等優勢;但其仍具有不少缺點,比如決策規則復雜、易產生過度擬合、分類非全局最優解而是局部最優解等?;谶@些特點,產生了隨機森林方法,集成多棵決策樹,根據投票決策思想,提升了模型分類的準確度。XG-BOOST在其基礎上進一步優化,加入正則化技術,提高模型泛化性,其特點有:高效處理大型數據集,甚至在輸入變量龐大的情況下;能夠估計變量的重要性并排序,并計算其相似性;能夠泛化誤差;具備高精度,甚至在數據中存在大規??罩禃r仍保持較高精度;計算效率高,不會過度擬合。3、CNN。本文同樣將深度學習算法用于企業信用風險預測,卷積神經網絡(CNN)是其中主流算法之一,被廣泛運用于計算機視覺、自然語言處理、數據挖掘等領域,本文訓練CNN模型作為風險評估的分類模型。采用CNN進行多維數據的特征提取與分類。CNN是一種包含卷積計算并具有深層結構的前饋神經網絡,基本結構通常由三層神經網絡組成,分別是卷積層、池化層和全連接層。其能夠在大量數據樣本中自動學習原始數據的特征表示,因此能夠適用于對多維數據的復雜特征進行有效提取。由于深層神經網絡強大的擬合性能,能夠充分對語料進行學習,進而具備較好分類性能。

三、實驗結果與分析

實驗主要探討多源多維數據場景下模型的分類擬合性能與泛化性,因此將“高低風險”作為信用風險評估的學習目標,即二分類學習。實驗從訓練語料隨機劃分20%的數據作為模型學習的驗證集,保證測試語料不在訓練集和驗證集中泄露。所用到的評估指標包括準確率,即高風險公司“準確預測的公司數量(高低風險)/公司總數量”的比率。實驗證明,回歸方法與CNN方法準確率分別為82%與87%,XGBOOST準確率為96%,達到最優效果。分析認為,XGBOOST由于集成學習具備良好分類性能,適用于具有較多細分指標的復雜評估任務場景,即對多維數據的學習;同時,該算法基分類器為多個決策樹模型,對數據分布無任何要求,且能夠對依賴局部指標的特殊樣本進行有效劃分,因此能夠適用于多源數據,無需做復雜的特征篩選、特征映射及特征表示的轉換等。此外,在損失函數計算過程中調整權重,使其對指定目標(類別)數據代價敏感,一定程度上緩解了數據類別不平衡對模型訓練的影響。此外,XGBOOST不需要對原始數據做細致處理及進行復雜的指標篩選和特征映射,因此能夠適應任務和數據的動態變化,及時更新、訓練,滿足動態調整的要求。綜上,針對企業信用風險評估,基于大數據場景數據挖掘思想,能夠發現細分場景所未能表現出的隱含規律與特征關聯現象。從行政機構對市場監管的場景考慮,對多源多維度的歷史監管數據進行聯合學習,有利于對監管條目進行整合,優化業務流程;同時,引入自動化評估預警方法,能夠提升監管的效率和有效性。本文考慮到企業風險評估多源多維數據特點,對企業信用評估用到的各類主流方法:統計學習、機器學習、深度學習等進行實際效果比較,發現現階段機器學習類型下的XGBOOST分類方法具備最佳性能,并詳細分析了其在本文任務場景下的實用性。在未來研究中,將納入更多機器學習與深度學習方法及模型解釋機制,提升大數據視角下基于多源數據融合的企業信用風險多維度評估的有效性和可解釋性。

作者:張喜會 單位:深圳市標準技術研究院

主站蜘蛛池模板: 色屁屁一区二区三区视频国产 | 国产成人免费网站 | a国产视频 | 欧美综合视频在线观看 | 一区一精品 | 亚洲天堂免费 | 欧美一级久久久久久久大片 | 波多野结衣在线视频免费观看 | 日韩中文字幕一在线 | 成人国产视频在线观看 | 久久亚洲国产高清 | 亚洲免费观看视频 | 国产真实乱子伦精品 | 欧美国产综合日韩一区二区 | 免费观看三级毛片 | 日本不卡高清免费 | 女人张开腿让男人捅爽 | 国产精品青草久久久久福利99 | 日韩精品一区二区三区 在线观看 | 三级c欧美做人爱视频 | 91精品一区国产高清在线 | 国产黄色a三级三级三级 | 97视频免费观看2区 97视频免费上传播放 | 成人在线观看午夜 | 国产欧美一区二区日本加勒比 | 国产高清在线免费视频 | 国产精品高清在线观看地址 | 久色视频在线 | 在线毛片观看 | 亚洲国产韩国一区二区 | 欧美成人 一区二区三区 | 一级特级毛片 | 欧美日韩在线视频播放 | 99久久国产综合精品1尤物 | 日本特黄特色大片免费视频网站 | 国内精品久久久久久影院8f | 996re免费热在线视频手机 | 二区三区在线观看 | 自拍网在线 | 亚洲国产欧美在线人成 | 成人精品一区二区三区 |