CHAID算法即 检验法自动交互检测(Chi-squareAutomaticInteractionDetector,卡方自动交互检测)。CHAID也用于生成决策树,但是它不使用信息增益或者Gini来度量最佳分裂,它采用列联表中使用的 检验法来决定哪个类别预测属性与预测值能最大程度地独立。因为CHAID是依靠列联表对每个预测属性的重要性进行测试,所以所有的预测属性都必须是类别形式,或通过重新分级强制转化成类别形式。
决策树是一个类似于流程图的树结构,其中每个内部节点表示一个属性上的测试,每一个分支代表一个测试输出,而每个叶节点代表类或类的分布。树的最顶层节点是根结点。利用决策树对客户进行分类,分析客户的综合印象,本文从以下几步进行细分:
1、确定决策树的主属性;
2、对数据进行预分类,选出对综合印象有关、有价值的数据,减少无用数据的影响,并避免建立的决策树过于冗余,影响结果;
3、分析各属性与综合印象的关系,去除无关属性;
4、利用有用属性建立决策树;
我们的数据总共有35782例,剔除无效数据,得到有效数据共有34624例。首先用各属性分别做分类分析,从每一单项属性的结果看该属性对客户的综合评价是否有影响,最后去除无关属性,再对那些有影响的属性做一个总的分类,综合考虑客户评价,得出对最终结果影响最重要的属性和其他属性等。各单项属性分别为:出生日期(代表年龄)、个人年收入、受教育程度、还款方式、担保方式(篇幅所限,未将所有的单项属性分类结果列出来)。具体分析结果见下面图1:
根据出生日期对其分类,即是依年龄来评价客户的综合印象,从上面的分类决策树可以看出,出生日期越早,即年龄越大的客户的综合印象中良好的越少。这是由于:
1、年龄越大的客户,其积累的积蓄越多,若购房,则一般不需要从银行取得贷款,这导致年龄大的贷款客户的基数比较少,需要贷款的一般都是收入不是很理想的那些客户,从而良好率较低;
2、年龄越大的客户,其住房问题可能早以解决,暂时不需要再次购房。而对于年轻人来说,刚开始工作,没有什么积蓄,却急需要解决住房问题以建立新的家庭,因此,产生了大量的住房贷款需求,而这些客户的职业一般有较大的发展潜力,可能良好率较高。这也解释了为什么年龄在30岁左右的客户占了数据的绝大多数。但是,这些客户一般刚处于事业的起步阶段,其职业发展只是潜在的,带有很大的不确定性,这种不确定性会导致较高的还款违约率,这就需要银行在发放贷款时,充分利用各种信息,结合数据挖掘技术,发现潜在的优质客户和风险客户,及时采取措施提高客户整体的综合素质。

由于个人年收入的数据跨度很大,我们选用CHAID分类和CART分类对比来看。选用CART方法进行分类,上图SPSS做出的CART决策树先将年收入以26898为界限,划分为两个分支,在收入大于此界限时,又以36767为界划分为两个分支。整体看来,收入越高,综合评价越好,这符合我们一般的认识。
图3用CHAID分类的结果将个人年收入分成了多个档次,结果很明显,随着年收入的增多,综合评价为良好的比例越高。个人年收入是贷款能否正常归还的一项很重要的要素,银行在审查客户的这些信息时,一定要保证所得的信息及时准确,避免一些假收入、假证明所致的不良贷款。这些不需要专门的技术,只要银行严格执行审查程序,细心认真,由此导致的风险便可以降低。
从此分类看出,教育程度为大学本科及高中/中专/技校占了所有贷款客户的92.9%,而这些大量的客户的综合评价却是所有中最低的,低于总体的综合评价。其他的以受教育程度分类的客户中,硕士研究生中评价为良好的比例最高,为75%,其次为大专/电大/博士及以上,再次为普及教育及以下。系统会自动将大学本科和高中/中专/技校归到一类,将大学专科/电大和博士及以上归为一类是因为他们两类的良好率相近,直觉不良和一般的比例也相差不大,这从我们下面的交叉分布表可以看出。从这种分析结果可以看到,教育程度越高,客户的综合评价不一定最好,究竟是什么原因导致这种结果,有待探讨。
表1综合印象、受教育程度交叉分布表


从还款方式的分类看出,等额还款方式占了所有还款方式的非常大的一部分,为95%,而在三种还款方式中,等本还款客户的综合印象是最好的,其综合评价为良好的占了11.2%,远高于整体客户的综合评价——4.7%的良好率,利随本清的客户综合评价最差,综合评价为良好的仅占了1.1%。可见,还款方式对客户的还款意愿是有一定的影响的,原因是利率不同,还款年限不同时,还款方式对客户的还款压力是不一样的,银行应在客户满意的情况下,尽量让客户选择出现违约情况较少、对银行来说风险较小的还款方式。 2/3 首页 上一页 1 2 3 下一页 尾页 |