数据挖掘银行业应用案例:企业贷款信用风险
在给企业贷款时,银行不可避免地面临着信用风险,这种风险可以通过两类指标来刻画:一是企业贷款违约的概率,二是一旦企业违约所带来的损失。如果能够很好地预测信用风险,银行能够根据信用风险的大小,基于自身的风险偏好选择客户群体,为不同的客户提供不同的贷款产品或不同的贷款利率。
对违约事件进行预测可能存在两类错误,第一类错误将实际会违约的企业判断为不违约者,这会产生大量的信用损失(贷款的本金、利息等);第二类错误将实际不会违约的企业判断为违约者,这会导致银行失去潜在的业务和盈利机会。最大限度地减少这两类错误,将会为银行带来可观的收益。
在20世纪90年代早期美国经历经济衰退之前,大多数美国银行及穆迪、标准普尔等风险分析仲裁机构的决策依赖于信贷人员、信用调查分析人员等的专家意见,很少使用基于统计方法的风险分析。在这次危机之后,美国银行开始重视如何更加一致地诠释并管理风险。他们的解决办法是使用数据仓库和数据挖掘技术,对大量数据进行收集、存储和维护,应用高级建模方法对信用风险进行建模,并对所使用的模型进行经常性的监测和修正。巴塞尔协议就特别强调银行内部的信用风险管理,因此,很多银行都使用内部的历史数据和现代统计技术,建立了内部评级模型。
以花旗银行为例。它收集了反映企业财务状况的年度财务报表、企业所处行业的总体情况、企业的市场地位、企业管理质量、企业管理层的风险偏好、审计报告的质量、企业开业时间、企业作为花旗银行客户的时间等信息。在收集这些信息时,重点关注违约行为的确认,以及有违约行为的企业在违约之前的各种信息。
数据中存在的自相矛盾和错误会导致任何建模努力付诸东流,所以花旗银行对所收集的数据进行了大量的清理工作。因为数据发生的频率比较低,例如财务报表多为年度数据,所以每一个数据点都是有价值的,需要尽一切努力保证数据的准确性,并尽可能少地丢弃数据。数据清理需要自动过程与手动过程的有机结合,例如,需要详细验看资产负债表是否平衡、违约日期能否确定等。根据这些数据,花旗银行建立了分地区、分行业的一系列模型来预测风险类别,每一个风险类别都与一定范围的违约概率相联系。
模型建立后,还需要验证模型的预测是否准确。对信用风险模型最重要的验证是通过收集实际违约企业的数据实现的,需要查验模型是否将实际信用水平低的企业归入风险比较高的类别,模型预测为高风险的企业中是否实际违约率更高。随着时间的推移,由于行业环境变化等因素,模型验证时会发现现有信用风险模型的性能逐步下降,所以还需要及时对模型进行更新。这时,可以将新的企业的数据加入建模数据集,同时将时间过长的数据从建模数据集中去除,根据新的数据集更新模型。