浅谈风控,如何提高风控的准确性?

涵儿 2024-11-15 09:52:21
最佳回答
由于你没有具体提出那种风控,所以我就给你列举一个,希望对你有所帮助,在不同的业务形态下,风控的宏观的核心目标都可以概括为:不放过任何一个坏人,不错杀任何一个好人。 我们以消费贷款业务的的贷前风控场景为例,尝试解释在数据环境理想的情况下如何尽可能的达到“不放过一个坏人,不错杀一个好人”的目标。(在消费金融领域,常见的风控场景有贷前、贷中、贷后。这三个场景也对应业界常说的a卡,b卡,c卡) 在信贷贷前场景,为了达到风控的目标,一般可以分为下面三部分来实现: 在信贷业务中,我们怎么定义好人和坏人呢? 首先,我们可以肯定的是,好坏的判定和逾期行为肯定是相关的,但是不能简单说逾过期的用户就是坏用户,也许人家其实想还,只是不小心忘记还款。而且,有的时候,“适当”的逾期还能增加公司的逾期利息收入。同时我们也不能简单的把目前还没逾期的用户直接定义为好用户。需要通过数据分析的方法,来确认如何定义好人和坏人。 其次,在做数据分析的时候,好坏的判定标准跟逾期金额相关性比较弱,跟用户的逾期的次数相关性比较强。对于一个用户来讲,逾期三期,这三期欠了一千块还是欠了一万块,他们都是一样坏的;同样,一个逾期三期的用户,一定是比一个只逾期一期的用户要坏。也就是说我们其实是要定义,用户逾期多少期,就算一个坏用户。 滚动率是一个业内常用来衡量用户逾期转化的指标,能有效的表达用户从未逾期或逾期等级较低向逾期等级较高或者完全没救的状态的整体情况。可以通过滚动率来分析用户的逾期程度,从而确定什么样的用户是坏用户。简单地说就是以某一时间点为观察节点,观察客户在该点前一段时间内(比如半年)最坏逾期阶段,并追踪其在观察点之后的一段时间向其他逾期阶段发展的情况,特别是向更坏程度发展的情况。 下面我们举例来看下如何运用滚动率进行逾期程度变化的分析: 要分析滚动率,首先我们先要把我们的用户,根据情况区分等级,如分成以下等级: 那么根据上述等级,举例用户半年内的滚动率情况如下:(数据纯属虚构) 根据上面的滚动率的数据,我们可以分析得出:(以下数字纯属虚构) 因而,进一步分析我们可以得出,逾期3期以上的客户,都是无力抢救的客户了,他们大多都会转为呆账,他们都是坏透了的坏客户了。假如我们想把条件收紧一点,那么我们可能会选择逾期3期或者2期就是坏客户。再假如,如果我要给坏定等级,逾3期及以上可能设置为极度坏,逾3、2期的话可能设置为中毒坏,逾1期的可以设置为轻度坏。 这些特征将来可以放到风控建模的样本特征中来。 同时需要注意的是,在分析滚动率的时候,有必要将用户按他们各自的账龄进行分组分析。因为账龄为3个月的和12个月的用户,他们的逾期长短的意义是不同的,表现可能也有所不同。最终我们可能会针对不同的账龄设置不同的好坏客户标准。 确定了好人和坏人的区分区分标准,我们就可以建立评分模型了(我们假设逾期超过3期的用户是坏用户) ps:以上分析好人和坏人仅提供了一种思路,在实际的分析过程中可能要结合具体的业务。 建立评分模型 建立评分模型的一般可以分为四个阶段: 数据样本的确立,主要涉及以下几点: 样本期间 跟好坏的定义一样,我们不能通过“经验”主观的判断我们应该设置多长时间的样本期间,而应该通过数据分析出合理的样本期间。我们通过观察正常的用户,在多长时间以后变坏的比例趋于稳定,来定义样本期间。如,正常的用户在10个月后变坏的比例趋于稳定,那么样本期间就定义为10个月。 样本组成 为了让样本能为模型提供充分的建模依据,样本应能尽可能的覆盖足够多的好客户和坏客户。通常我们能获取到的样本数据好客户会较多,因此实际情况中,我们应尽可能的保证我们样本中的坏**不低于总样本的25%。(25%是行业中的一个参考值) 样本用途的分配 在建模开发的过程中,我们准备好了充分样本后,应大致将70%的比例的样本用于开发建模;将30%左右比例的样本用于效果验证。(这里的70% 和30% 是行业内的参考值) 变量的筛选,主要涉及以下几点: 变量的筛选 首先我们可能拥有非常多的变量,我们要从手中拥有的数据中挑选或组合出可能影响风险的变量。由于这个数量可能非常多,我们需要对每个变量逐一分析,分析他们其对好坏客户的预测能力,从而从众多变量中挑选出有预测能力的变量; 变量属性的分组 随后我们对每个变量的每一属性值进行分析,分析变量内每一属性区隔好坏客户的能力,并通过调整变量属性分组,提升每一属性的区隔能力 上述两个步骤涉及到的关键指标为:voi值和woe值。 voi值 (value of **rmation):voi即信息值,可以协助模型开发人员了解各个变量对于目标事件的单一预测能力的高低,借以挑选出高预测能力的变量进行开发,voi值的计算公式为: voi值的判断标准为(业界参考值): woe值 (weight of evidence):woe值用于衡量每一变量中好客户和坏客户户数比的差异程度,woe的绝对值越大,表示好坏户数比的差异越大。且woe越大,表示该变量越不容易发生违约。woe值的计算公式为: 我们可以通过给变量重新分组,来提升变量属性的woe值和整体的voi值。 如学历这个变量,如果我们把学历分成以下几个枚举分组的值:初中以下、初中、高中、大专、本科、硕士、博士及以上。他们的woe和voi值可能还不错。但是他们的woe值很有可能不是单调的,voi值也都很小,改变分组前 但是如果我们进行一些简单的合并分组,变成:初中及以下、高中、大专、本科及以上。这时候woe的值可能就是单调的,voi值也都被放大了不少,改变分组后 当我们完成对变量进行逐一的voi值分析,过滤掉了预测能力较低的或者并无预测能力的变量;然后在通过对每一变量的每一属性进行woe值分析,调整变量的分组策略,从而使得woe单调且能获得更大的voi值之后,就可以进行模型的建立了。(模型的建立在本文中我们就不展开了哈) 拒绝推论 为什么需要拒绝推论呢?由于初步建立的模型所采用的样本皆来自核准通过的案件,这些案件当初都已经经过了征审人员的筛选,质量相对较好。因此建模时若仅使用核准案件而把拒绝案件都排除在外,将会造成模型的偏误。问题是拒绝以后的案件,事后无法观察其实际的表现,也无从得知有哪些案件当时遭到了误判,因此必须借助拒绝推论来推测拒绝案件的好坏,以进行模型修正,使未来的模型预测更接近实际情况。 拒绝推论的方法有很多种,如扩充法(先以核准客户为样本建立初步模型,接着讲拒绝案例套入该模型,以推测其好坏,在与元核准客户样本合并建立新模型),模型质量与监控 建立好模型之后为了观察模型是否持续有效,我们应当为模型设立质量监控。通常我们把他们分为前端监控和后端监控。 前端监控 前端监控主要是观察现行客户的类型与模型的开发样本是否一致并呈稳定的形态。常见的前端监控方式主要有以下几种: 评分分布表是统计各个兴奋组别的评分客户数占全体户数的比例。举例如下: 我们可以把评分分布表画成柱状图,能更直观的感受: 在评分分布表的基础上,我们还可以可以通过“群体稳定度指标(psi)”进一步量化评分分布的稳定情况。 psi,全称 population stability index,用来衡量评分模型在开发样本与限行客户占比的差异程度。psi指标越小,代表客户群体越稳定,psi越大,代表群体与开发样本相比越不稳定。但psi仅显示客户群体是否产生变动及变动幅度,而无法确定客户群体朝哪个方向转移(高分方向/低分方向),需要通过评分分布表来判断。 psi的计算公式为: 举例如下:(相关数据纯属虚构) psi的衡量标准如下(行业参考值): 除了产出此时的群体稳定度指标外,还可以将各个月的psi绘图表示,以便了解psi的变化趋势情况。 模型整体出现较不稳定,分布变化较大时,并不代表模型内所有变量均呈现不稳定的形势,此时可以通过变量稳定度来分析了解可能是什么变量导致了模型的偏移。 我们可以使用变量分布差距来衡量变量稳定度,其计算公式如下: 变量分布差距的绝对值越大,表示变量越不稳定;反之差距绝对值越小,标识变量较为稳定。 在模型的使用过程中,往往还是会有人工干预结果的情况。高分否决率和低分否决率,往往能用来观察评分模型与征审人员对于案件风险认知的差距。 高分否决:指评分高于核准点但人工干预拒绝了; 低分否决:指评分低于核准点但人工干预核准了; 高分否决率=高分否决案件数/评分高于核准点的案件数 低分否决率=低分否决案件数/评分低于核准点的案件数 后端监控 后端监控主要是为了观察评分模型对现行客户是否仍具备有效的鉴别能力。 常见的后端监控主要有以下几种: 模型鉴别能力基础指标包括:准确率、精确率、召回率,这三个指标是在二分类问题中,用于判断模型好坏的基础指标。 如图,所有的数据被分为4个区域: 图片来自网络 那么,这三个基础指标的意义和计算公式如下: 通过这三个指标,能较为直观的看出模型最终的分类性能情况。但是由于基于评分模型为好坏分类基础的风控模型,好坏的分类不仅仅由模型决定,还由好坏分类的评分决策点来决定。而这三个基础指标,并不能带来与评分相关的性能指标。 因此,我们还需要其他更为有效的监控数据指标,即:好坏客户评分分布表。 与前端监控中的评分分布表的区别是:前端监控的评分分布表是比较开发样本与现行评分的不同群体的分布差距;而后端监控中,好坏客户评分分布表是指同一时刻,实际表现为好客户与坏客户的评分分布差距。 举例如下图: (相关数据纯属虚构) 根据这个好坏客户评分分布表,好客户大部分分布在右方高评分组别,坏客户大部分分布在左方低评分组别,与期望相符(获得高评分的为好客户,获得低评分的为坏客户),显示此评分模型具备较好的鉴别力。同时,该分布图也能较为直观的看出基础指标中的tp/fp/tn/fn区域 ,模型最终对好坏的分类预测输出,不仅仅与模型的优劣有关,还与最模型最终的分类决策点有关。这更充分的说明了,仅仅通过基础指标(准确率、精确率、召回率等),无法更准确的评估模型质量。 模型鉴别度用于衡量评分模型用于判断全体客户好坏的能力。通常有k-s值和基尼系数两种指标。 k-s值:k-s值的概念是各个评分组别中,好坏客户累计占比差距最大的数值。若以此数值对应的评分组别作为决策点,则可取的较佳的好坏客户区隔能力。 由于k-s值仅表示某单一评分组别的好坏客户差距,不代表所有评分组别的好坏客户分离程度,所以不以差距最大的评分组别作为决策点时,需参照好坏客户评分分布图,决定何时的决策点。 k-s值的标杆值为30%,即当k-s值大于30%时,代表模型对决策点所在评分组别有较好的区隔能力(行业参考值)。 好坏客户累计占比评分分布图是将整体评分客户分为好坏两个客群,再分别绘制每个客群再各评分组别的累计占比曲线。由于坏客户应大部分落在低评分组别中,因此,累计占比曲线会在低评分组别中快速累计,而好客户大部分落在高评分组别中,累计占比曲线会直到高评分组别才快速增加,因此,坏客户累计占比曲线应在好客户累计占比曲线之上。 同时我们绘制好坏客户累计占比差距的曲线,使得我们更易于判断各个评分组别好坏客户的差距,差距的最大值即为k-s值。 我们用前文所举的数据例子作为实例,得到好坏客户累计占比评分分布及差距表: 好坏客户累计占比评分分布图: gini系数是用来衡量评分模型鉴别全体客户好坏能力的一个数值(k-s值仅仅是用来评估单一评分组别的区隔能力)。 gini系数是由gini曲线而来。gini曲线是依据各评分组别所累计的好客户与坏客户占比,分别作为纵轴与横轴,绘制散点图,在将各个散点相连而成。(即各个评分组别的坏客户累计占比为y轴,好客户累计占比为x轴,绘制散点图) gini系数的定义为:gini系数=阴影部分面积/∆abc的面积 gini系数的标杆值为40%,即当gini系数大于40%时,评分模型整体具有较好的鉴别力。(行业参考值) 以此前的数据例子为例,其计算结果为gini系数=73.69%,即:当gini曲线为线段ac时,gini值为0%,代表评分模型无鉴别能力;当gini曲线为线段abc时,gini值为100%,代表评分模型具备完全鉴别能力。 根据我们前文所举的例子,该模型对于例子中所去的观察时点的k-s值为59.48%,gini系数为73.69%,故该模型不仅个别评分组别具有良好的区隔能力,此评分模型整体也具有良好的鉴别力。 当模型鉴别能力下滑时,并不代表模型内所有的变量鉴别度都下滑。此时,可以通过监控变量鉴别度来分析了解是哪些变量造成整体评分模型的鉴别能力下滑,从而做出适当的调整动作或重新建立计划。我们在前文中讨论变量的筛选和分组时,曾经提到过的voi值就是用来衡量变量鉴别度的;同时我们还可以通过前文所提到的woe值衡量变量在每一属性区隔好坏客户的能力强弱。 20210311
汇率兑换计算器

类似问答
  • 银行如何提高风险防控合规管理
    • 2024-11-15 16:36:26
    • 提问者: 未知
    在经济高速增长的背景下,银行高盈利能力和盈利高增长可以将许多管理问题和风险消化掉,但是在经济形势较为复杂的环境中,银行进入微利化的阶段时,管理的过程控制不仅是风险控制的需要,也是成本控制的需要,是银行有效度过相对危机环境的必然选择。  银行的业务以经营风险为本,缺乏过程控制将意味着业务风险无法有效控制。银行的传统核心业务贷款是典型的以风险为本的业务,贷款发放的每一个环节都需要控制,稍有控制不当,都...
  • 浅析商业银行内控制度的重要性与风险防范
    • 2024-11-15 23:05:37
    • 提问者: 未知
    [摘要]文章结合笔者自身从事审计项目的实践,深入揭示目前商行面临的内控缺陷和潜在风险,并提出风险防范的措施,以商业银行内控失控的案例警示银行管理者重视内控制度的设计合理性和执行有效性,同时,提升员工知识水平,加强员工道德教育。[关键词]商业银行内控制度;贷款的风险限额管理;客户评级制度[doi]10.13939/j.cnki.zgsc.2018.30.058根据**人民银行颁布的《商业银行内部控制...
  • 如何提高众筹系统的风险控制能力?
    • 2024-11-15 20:39:10
    • 提问者: 未知
    这方面,如果没有自己的开发团队的话,可以用三方的众筹**。个人认为使用帝隆众筹**,会好一些。主要是因为他们一直做金融行业的解决方案。安全方面做得比较好。你可以自己也了解一下啦。
  • 浅谈如何做好危化品安全管控工作
    • 2024-11-15 01:48:30
    • 提问者: 未知
    浅谈如何做好危化品安全管控工作 “安全第一、预防为主”是我国的一个重要方针,因而,抓好危化品安全监管工作,尤为重要。危化品大多具有易燃、易爆特性,还有毒性、腐蚀性;工艺过程复杂,工艺条件苛刻,高温高压、深度冷冻等;作业方式多样化主要潜在危险:火灾、**、致人中毒重要性。危化品使用单位应从危化品购买、作业场所、储存、运输等环节加强安全监管,保证必要的安全生产投入,配备符合标准的设备、设施,为从业人员...
  • 浅谈风控,如何提高风控的准确性?
    • 2024-11-15 06:19:40
    • 提问者: 未知
    我是证券投资顾问,我将对交易类风控做出如下解释。1,无论什么证券投资,只要是交易,就必须有风控。这个风控,可以是一种交易系统,也:-风控,浅谈,准确性,提高:浅谈风控...
  • 物流企业如何控制风险,提高效率与效益?
    • 2024-11-15 03:03:08
    • 提问者: 未知
    从根本上还是靠专业的人才,有了人才,才能不断的完善管理制度,加强监督和提升管理水平,避免各种风险
  • 浅析公司财务风险控制
    • 2024-11-15 16:45:39
    • 提问者: 未知
    财务风险是包含有企业2113可能丧失5261偿债能力的风险和股东收益的4102可变性。随债务、租赁和优先股筹1653资在企业资本结构中所占比重的提高,企业支出的固定费用将会增加,结果使企业丧失现金偿付能力的可能性也增大了。企业财务风险的另一方面涉及股东可能得到的收益的相对离差。企业财务...
  • 浅谈建筑企业的税务风险及控制
    • 2024-11-15 20:11:46
    • 提问者: 未知
    浅谈建筑企业的税务风控【摘要】施工企业的税务风险是客在的,但税务风险以化解的,可以合理规避的,可以被控制在一个合理的范围,所以建筑企业应当明白企业存在的税务风险,并采取措施进行控制。【关键词】建筑企业;税务风险;控制一、建筑企业面临的主要税务风险(一)税务风险管理机构中存在问题许多施工企业在施工项目上没有设置税务岗位或设置不合理,大多数施工企业并未有设置特定的税务管理机构,有些设置相应岗位的也没有...
  • 如何看信托风控
    • 2024-11-15 20:19:34
    • 提问者: 未知
    信托的风控比银行要严格的多,主要风控措施有抵押/质押物,第三方无限连带责任,设置安全垫(分层级)等,一个信托的抵押/质押率越低,第三连带责任方实力月雄厚,安全垫比例越大,信托就越安全。
  • 浅谈如何提高统计数据质量
    • 2024-11-15 22:26:18
    • 提问者: 未知
    在这二十余年中,通过这些不起眼的统计数据,我亲眼目睹了我们的**和我们的企业一步一步发展变化的历程,也亲身感受到了统计工作越来越被各级领导所重视,因为统计工作在...
汇率兑换计算器

热门推荐
热门问答
最新问答
推荐问答
新手帮助
常见问题
房贷计算器-九子财经 | 备案号: 桂ICP备19010581号-1 商务联系 企鹅:2790-680461

特别声明:本网为公益网站,人人都可发布,所有内容为会员自行上传发布",本站不承担任何法律责任,如内容有该作者著作权或违规内容,请联系我们清空删除。