大数据风控必看,挖掘学历数据中暗藏的还款意愿及还款能力
对于一款信贷产品或者信用卡,要严格把控进件门槛及风控规则,避免出现恶意拖欠贷款的现象。笔者通过研究总结发现,合理利用学历数据做门槛筛查,有利于过滤掉高风险人群,降低还款中出现的风险。
市场上80%以上的信贷产品或信用卡,在申请人填写基本信息时都会需要填写学历情况,银行信用卡部门还会根据学历等级来设置进件门槛及额度标准。
那学历情况对于消费金融行业风控部门设置进件门槛或风控规则权重处于什么位置?行业内多数风控除了学历信息也到处在找学籍信息,学历和学籍信息可以透露借款人的哪些情况?这些情况如何在风控环节进行体现?本文将逐一讲解。
(来源网络)
一、学历与学籍是什么
学历
指求学的经历,曾在哪些学校肄业或毕业,或获得某种学位或证书。因此,报考某主考院校的自考,并获得了毕业证的自考生可以在学信网上查到自己的学历信息。
国家承认的学历在初等方面有小学、初中、普通高中(包括中职),在高等教育方面有专科、本科、硕士研究生、博士研究生四个层次。经国家主管教育部门批准具有举办学历教育资格的普通高等学校(含培养研究生的科研单位),成人高等学校所颁发的学历证书,国家予以承认。
通过自学考试,由国务院自学考试委员会授权各省(自治区、直辖市)自学考试委员会颁发的自学考试毕业证书,国家同样予以承认。
(学历查询报告样式)
学籍
是指一个学生属于某学校的一种法律上的身份或者资格。
根据《普通高等学校学生管理规定》,按照国家招生规定录取的新生,持录取通知书,到校办理入学手续,复查合格者予以注册,取得学籍。复查不合格者,由学校区别情况,予以处理,直至取消入学资格。
未经省级招生部门录取的学生,不管其在校学习时间多长,均无学籍。即使修业期满,成绩合格,也不能获得国家承认的普通高等教育学历证书。
(学籍查询报告样式)
二、学历及学籍来源-学信网
学历及学籍数据主要由中国高等教育学生信息网(简称“学信网”)统管,而学信网由全国 高等学校 学生信息咨询与就业指导中心(以下简称“中心”)主办。
学信网依托中心建立的集高校招生、学籍学历、毕业生就业和全国高校学生资助信息一体化的大型数据仓库,开通“阳光高考”信息平台、学籍学历信息管理平台、中国研究生招生信息网、全国高校学生资助信息管理平台、内地高校面向港澳台招生信息网等平台,开通学历查询系统、在线验证系统、硕士研究生网上报名和录取检查系统、硕士研究生招生调剂服务系统、全国高校学生资助管理系统、学历认证网上办公系统等20余个信息系统。
学籍查询范围
国家承认的各类高等教育在籍学生的学籍注册信息(不含自考),以及2001年以来的学籍档案(已离校学生在籍期间的学籍注册信息)。
学籍查询服务仅提供给学生本人,需实名注册后进入学信档案使用。
学历查询范围
2001年以来国家承认的各类高等教育学历证书电子注册信息(含学历证明书)。包括研究生、普通本专科、成人本专科(注册进度)、网络教育(注册进度)、开放教育、高等教育自学考试(注册进度)以及高等教育学历文凭考试(注册进度)等
截至2018年底,学信网数据仓库累积各类数据总量已接近14.5亿,且仍在不断增长中。其中包括:
1. 报名数据:硕士研究生(2005年以来)、普通本专科(2000年以来)、成人本专科(2000年以来)、网络教育(2008年以来)的报名数据累计24980万人次;
2. 报名照片:硕士研究生(2006年以来)、普通本专科(2009年以来)、成人本专科(2012年以来)的报名照片累计14344万张;
3. 成绩数据:硕士研究生(2000年以来)的入学考试成绩、普通本专科(2000年以来)的高考成绩、成人本专科(2000年以来)的高考成绩数据累计22121万人次;
4. 录取数据:博士、硕士研究生(2001年以来)、普通本专科(1999年以来)、成人本专科(2000年以来)、网络教育(2004年以来)的录取数据累计20412万人次;
5. 学籍数据:博士、硕士研究生、普通本专科、成人本专科、网络教育、开放教育等高等教育当前 在校学生的学籍数据5088万人次 ;
6. 学历数据:各类 高等教育毕业生 1991年以来的 学历数据累计18046万人 (包括博士研究生、硕士研究生、普通本专科、成人本专科、网络教育、开放教育、自学考试、学历文凭考试);【市场的接口主要查询,能查询到的为这部分群体学历数据】
7. 学历照片:各类高等教育毕业生2002年以来的学历照片累计16772万张(包括博士研究生、硕士研究生、普通本专科、成人本专科、网络教育、开放教育、自学考试、学历文凭考试);
8. CET成绩:2011年以来的大学英语四、六级成绩数据累计13194万人次;
9. 就业数据:博士、硕士研究生、普通本专科2004年以来的 就业数据累计8254万人次 。【学信网的就业数据应该是根据学籍材料挂靠机构的类型判断的,可信度和参考价值应该不大】
(来源:学信网)
大学类:(大专、本科,研究生、自考、成考)的毕业证可以上学信网。
中专技校毕业证书查询,可以到省级提供的官方地址查询,也可以向当地教育局、学校提供查询鉴定。
【由于专科以下的学历,鲜有途径查询,所以专科以下学历的客户大多填写学历时为了提高资质,不管有无上过学,都会填写高中学历,高中学历是部分金融产品的最低学历进件标准】
目前开通网上查询的地区
北京、吉林、黑龙江、江西、河南、湖北、湖南、广东、海南、陕西、甘肃、新疆
未开通网上查询地区
天津、河北、山西、内蒙古、辽宁、上海、江苏、浙江、安徽、福建、山东、广西、重庆、四川、贵州、云南、西藏、青海、宁夏
三、以学历数据为基础的产品形态
1. 学历及学籍信息API
原则上只有直连学信网才有的接口产品,学籍由于有学生民族信息,非常敏感,因此对外的基本只有学历信息。市场价2元/条。【对接难点在于接入方的资质及场景合规性问题】
2. 学历学籍爬虫接口
直连很难,但难不倒各技术公司,只要用户授权,能抓的信息都可以抓取回来。但市场上金融机构都不怎么喜欢使用。市场价0-0.3元/条。
【技术难点不大,难点在于爬虫接口都是用户有感知的,一般在学历前可能有其他的需授权接口,这样会影响产品体验,用户主动授权意愿不强,需要友好引导用户。当然那些急需用钱的人除外,能下款什么都可以配合。但由于监管政策问题,无直连渠道的机构也只能采用这个爬虫接口去识别是否在读学生。】
这2种产品主要的字段详情分别是:
学籍字段
性别、真实姓名、民族、出生日期、身份证、考生号、学号、院校名称、分校、系、专业、班级、层次、学制(4/3/2.5(年))、学历类别、学习形式、入学时间、学籍状态、离校时间、头像
学历字段
性别、真实姓名、入学时间、毕业时间、学历类别、学历层次、毕业学校、是否结业、毕业、专业、学习形式、身份证、出生日期、校长姓名、学制、发证日期、辅修开始时间、辅修结束时间、辅修学校、辅修专业、证书编号、头像
然后一些维度还有细分的字段:
层次
专科、专科(高职)、本科、硕士研究生、博士研究生
学习形式
业余、全日制、函授、夜大学、开放教育、普通全日制、电视教育、网络教育、脱产、远程教育、非全日制
学历类别
成人、普通、研究生、开放教育、成人高等教育、普通高等教育、网络教育、高等教育学历文凭考试、高等教育自学考试
学籍状态
在籍(休学)、在籍(保留学籍)、在籍(暂缓注册)、在籍(注册学籍)、保留入学资格、不在籍(取消学籍)、不在籍(已转段)、不在籍(开除学籍)、不在籍(毕业)、不在籍(结业)、不在籍(退学)
【下文做风控应用时假设学历相关的数据字段,通过学信网直连API接口都可以获取。学籍由于比较敏感,学信网是不会开放输出的。】
四、新版征信报告展现完整学历信息
新版央行征信比旧版征信内容丰富,央行的推动下百行征信(央行征信的补充)的成立,其实这些都在发散一个信号——国家对个人征信的重视程度与日俱增,个人相关的越来越多与征信可能沾边的信息都有可能录入征信体系。
新版征信报告中就完整展现学历信息,原则上来说用户的学历数据需要准确展现应该会直连学信网。现在虽还无明确消息,但猎人觉得接入只是时间问题。为什么这么说呢?
因为征信本是个震慑性工具,通过公开个人的信用行为,提高违约用户存活成本及降低用户社会福利。借贷未还场景、各种欠费场景及社会恶劣影响等场景都会影响个人征信。但非不良征信的个人信息均可用于提高个人信用资质,例如车房、婚否等,那么拥有学历学籍也可以。 具体可以下文会解析。
2015年前从事信贷行业或者有过个人信用贷款或信用卡申请的人应该都清楚,教育程度是个必填项(虽然基本都不需要申请人提供学历证书原件来证明)因为教育程度是个非硬性进件标准,但也会进入人工审核范围,填高中以下的基本都很难通过初审,半年流水和工作证明是主要的风控参考维度。
但随着现金贷行业的爆发及不良企业推出针对学生的高利率贷款产品,裸贷及造成一部分学生因无力还款自杀而造成的社会影响过大,监管部门正式发文不能对学生群体发放无消费场景的贷款。导致各合规机构的合规现金贷产品生怕吸引学生党来申请,学信网的学历验证接口的需求突然就爆发了。
前期学历接口因为没有做行业接入及场景使用的严格限制,导致各金融机构在贷款申请环节补充了学历核验信息,每个来贷款的人,其学历信息都被获取。
一些不良机构则选择其中学历为在读的学生,强推高利率的现金贷或套路贷产品,造成更大的影响,所以学信网才开始把接口回收,选择性的给部分银行开放。
(来源网络)
学历信息上征信,可以看出央行对学历信息的重视,这也是对学历群体的重视。而学历学籍数据在消费金融行业应用很广,风控环节对学历学籍的需求也很大,在细说风控环节学历学籍数据的应用前,我们先看看消费金融客群分布情况。
五、消费金融客群的年龄、学历、职业及收入分布情况
消费金融行业有着各种利率的产品,分别针对着不同资质的客群,但对于客户的准入门槛其实简单归为2个——1是有还款能力,2是有还款意愿。缺一不可。还款能力主要判断标准是借款期限内客户的持续收入来源或可变现资产及可预借资金可以覆盖其当前负债,还款意愿主要判断标准是借款期限内客户愿意按时足额还款。
影响还款能力和还款意愿的因素可以延伸出很多维度,接下来围绕学历对还款能力及还款意愿可能造成的影响开展分析。
消费金融这类信用贷款,其客户的还款能力主要判断还是依旧收入水平,收入水平大部分情况与学历正相关,也就是学历越高,平均收入水平就越高。
收入水平决定了其负债能力,因此根据不同学历人群相关的收入水平有着相匹配的信贷产品,不同的信贷产品分别分布传统银行、民营银行、消费金融机构、P2P及高利贷中,对应不同的利率水平及额度水平。
为了找出学历与信贷之间的关系,挖掘学历在风控中的应用,我们先了解消费金融行业的客户现状分布情况。
我们先看看《2018中国消费信贷市场研究》报告的一些数据:
首先从年龄看,报告通过1169份样本问卷研究显示:居民消费信贷的客户偏向年轻群体,其中18-29岁的在校及刚毕业的群体占比36%,30-39岁群体占比为30%,40-49岁群体占比为33%,而50岁以上的中老年群体则很少有使用消费信贷的。
【通常到了50岁,正常情况应该处于事业有成,家庭稳定的状态,收入也逐渐稳定,各种消费日趋理性,因此能用上消费贷有可能都是有突发事件或混的不好的群体,逾期风险会很大。】
(样本年龄分布)
从学历角度来看,消费金融的客户中,专科生占比57.5%,本科生占比24.5%。
【受教育程度越高的人,大多情况获取信息的能力或维度会比受教育较少的更强。猎人认为被消费金融相关广告应该覆盖了100%专科及以上学历群体,因此本专科生对消费信贷比高中及以下群体更了解。
同时,因为对消费理念、消费金融的认识,以及刚毕业收入较低,潜在需求比较大,使得专科和本科毕业生对消费金融有着强烈的意愿需求。
同时作为消费金融的风控,默认专本科学历客户资质比专科以下用户更优,坏账和逾期也相对容易控制。这个想法也是由于传统银行的其中一个风控维度就是根据学历设置了进件门槛及额度判断,虽说学历核验也就是近几年才真正开始的。】
从职业来看,职业和收入较稳定的企业员工、公务员事业单位人员是消费信贷的客户主体,占比达84%。这就意味着,还有16%的消费贷用户是收入不稳定、工作不稳定的人,这更值得关注。
【84%里面有多少是专本科学历的?猎人觉得起码占比70%以上。
这里先从学历求职状态和招聘成本来看,企业无论大小,除了部分打杂或销售或无需特殊能力的岗位外,招聘的学历一般都是专科及以上。一是因为国家重金在教育行业,培养人才,这些有学历的人在同岁数人中起码学历能力大多是可以保证的。二就是刚提到的招聘成本,也称筛选成本。小公司一般老板上阵,识人会比HR更直接和准确。
但当公司发展达到一定规模以后,每天都有上百甚至上千封的简历。不论是从时间成本,还是从对职位的了解深度上,普通HR都很难具备像公司老板/创始人那样筛选简历的能力。
这个时候,学历就会成为一个筛选条件,至少学习能够筛选出了一批平均水平相对来说更聪明,特别是考分要求更为严格的名牌高校,确实名牌高校毕业生的平均水平要比普通高校高出许多。这样简单的选择题,也为HR减少了不必要的错误成本及时间成本。】
从收入层次来看,我国消费金融的主要群体,集中在月收入5000以下的群体。其中,月收入在2000-4999元的群体占比70%;其次为5000-9999元群体;而2000元以下低收入群体和10000元以上的高收入群体消费金融行为较少。
【这个用户群体,其实是与消费金融公司的风控相关的。
月收入2000以下的群体,通常会被这些金融机构认为不具备还款能力的,即使是短期的小额贷款额度一般也在800左右,加上利息什么的,用户还款金额分分钟过千,拿着2000不到工资的群体,交了房租和伙食费什么的,剩下的钱大多无法按时还款,因此会在风控上被排除在外。而收入超过五千元的,甚至在一万以上的,基本上靠收入生活基本够了,需求会没那么强。高利贷或超利贷公司除外。】
(样本收入分布)
以上做个简要概括,消费金融行业客群主要为18-50岁,学历为专科及以下还有部分本科学历,收入在 2000-10000万/月左右,这部分群体大多职位是企业普通职员及公务员。虽然有近20%左右的非专本学历客户,但这部分客户资质相对较差。
六、各金融机构信贷产品客群学历比例
接着我们看下消费金融行业布局的5大类典型机构中客户学历的分布情况。
传统银行<民营银行<消费金融<P2P<超利贷,这5类经典的金融机构在信贷业务上的对于风险的接受能力是逐层递减的,传统银行最讨厌风险,超利贷用高利率覆盖高风险。先看几组数据:
平安银行-股份制银行
2018年个人客户数1.66亿,具有大专及以上学历客户占整体客户比例为39.1%。
【大专及以上学历客户有5146万。银行客户基本分为存款理财用户及借款客户,按照正常的借贷比10%来计算,平安的借款用户有1660万,平安银行的助力信贷产品严格来说还是偏传统的。
猎人猜测:其本科以上学历应该占30%以上,大专及本科学历的客户占比应该有60%以上,,本科学历应该有近500万,大专及以上群体有996万在平安体系借过款。】
百信银行-民营银行
2019年3月最新公布数据,其用户数量超过1200万,2018年下半年专科及以下学历用户占比72%,本科及以上学历占比28%,35岁以下年轻用户占比71%。
其用户分布地域中,既有一二线城市沿海发达地区,也有三四五线以下的偏远地区和农村地区,三线及以下城市用户占比50%,三成以上用户为首次获得银行贷款服务。
消费金融
消费金融公司行业基本客户定位为中低收入群体,自试点以来,至2018年行业已累计发放贷款2084.36亿元,服务客户2414万人,平均单笔贷款金额0.86万元,专科生占比57.5%,本科生占比24.5%。
2016年前三季度行业累计发放单笔5000元以下贷款的笔数占全部贷款笔数的60%,通过提供额度小、门槛低的金融产品,有效提升了中低收入者的消费能力。
招联消费金融总经理章杨清称,截至2016年11月末,招联授信客户超过600万,累计放款金额超过500亿元。
目前,招联的服务覆盖全国广泛地区,包括金融服务不充分的二三线城市和农村等地区,合计客户占比63%,用户涵盖传统银行业务覆盖不到的低学历,大专及以下学历客户占比72%、本科及以上学历占比28%。中低收入年轻人群,34岁以下客户占比83%,户均贷款约5000元。
据苏宁消费金融总经理陈鸣介绍,苏宁在2016年,共计投放消费贷款超110亿元,累计笔数超1000万笔,平均单笔贷款1100元,服务客户超200万人,其中70%是中低收入人群。
P2P
零壹财经的2019年5月发布的《P2P借款人画像报告》,在学历分布层面,银行机构更倾向于受过高等教育、拥有较高收入的群体,但P2P网贷服务范围进一步扩大。《报告》以捞财宝和向上金服为样本进行学历统计,本科学历以上人群占比不足15%,大专占比约为50%,高中学历占比超过20%。
超利贷与学历
一本财经曾从多个超利贷平台随机抽取了256万用户数据。其中,203万是男性,53万是女性,男性借款用户占比79%;学历大专和大专以下的借款用户,多达86%,而学历本科的,占比13%;借1000-3000元这个数额贷款的人数,占比高达92%。
从地区分布上看,广东人最多,占比8%;四川人其次,占比7.5%。
【猎人猜测在传统银行系统应该有超过1000万本科及以上学历有过信用贷款行为,在P2P行业有近1500万本科及以上学历有过贷款行为,各产品层中的客群如果按30%左右的重叠,则从股份制银行到超利贷,应该有近2000万本科及以上学历群体在这些行业机构有过借款记录。这里暂不考虑消费分期产品的覆盖情况。】
(大数据猎人制图)
七、学历如何影响逾期
从上文可得知,除了P2P和超利贷等高利率产品,银行及持牌消费金融的信贷产品是受本科及以上用户欢迎的,反过来说本科及以上用户相对能接受这类金融机构的产品额度及利率水平。
那么这些银行及持牌消费金融的信贷产品为什么偏爱高学历人群呢?如果只用一个指标来反应的话,应该就只有逾期不良率是相对其他客群更低更可控的。
为了找出学历是如何影响逾期的,我们先看看造成逾期的大概率原因有哪些。
贷款客群出现逾期,要么是借款人还款意愿出问题,要么是还款能力出问题,或者二者兼而有之。导致借款人意愿和能力出现问题的具体原因是多方面的。
如果细分维度,是与当前借款人性别构成,经济收入实力,不同地域经济发展状况与人均可支配收入水平,个人家庭社会变故、个人消费观念是否正确等因素息息相关。
还款意愿:团伙骗贷;客户主观恶意拖欠及政策整改P2P,规范催收等造成客户的侥幸心理;还款能力影响导致的还款意愿降低。
还款能力:失业造成的收入不稳定;客户家庭出现变故;客户经营不善;被骗造成的资金损失等;信贷产品授信金额、利率及期限等超出客户还款能力,包括多头共债情况。
【其中失业又会受自身能力被裁,经济下行企业裁人等;信贷产品造成的客户还款能力问题,也有内部员工引导非匹配用户借款等因素】
以下细分下维度详解:
1. 团伙骗贷
黑产团队通过非法手段获取用户个人信息,绕过风控规则,获得贷款,这种金融机构基本收不回款的。
2. 客户主观恶意拖欠及政策整改P2P,规范催收等造成客户的侥幸心理
很多人在借款之后就抱着侥幸的心理不按照合同约定的时间足额还款,政策规范P2P及高利贷行业,催收机构也被严格监管,导致部分客户存在侥幸心理,企业被监管倒闭或者催收压力不大,不想还钱。
这2种情况也是造成贷款逾期的一大原因,当然,这样人是少数,不是贷款逾期的主要原因。
3.借款人还款能力影响的还款意愿
正常客户,还款能力充足时,还款意愿也不会受影响,但如果生活都无法保障了,特别是发生无法控制的风险情况时,那还款意愿也会受影响。
4. 借款人收入发生变动
借款人的收入来源保障其有足够的能力还款,如果借款人的主要经济来源发生变动个,比如像上班族,突然失业了或者是企业倒闭等等一些原因导致不能维持正常的收入;亦或者经济下行,企业不得不裁员保障正常运转,也都有可能造成客户收入被中断而还款困难,造成贷款逾期。
5. 产品不匹配或多头借贷
一些不正规的贷款机构或不良中介,办理贷款的时候为借款人开后门或提供材料包装,对于借款人的还款能力不做充足的也能通过审批,导致放款额度过多或利率过高导致借款人没有能力还款,从而致使贷款逾期。
另外,有些借款人以贷还贷,在多家机构有借款,借款金额远远高于其当前收入,也会导致无能力还款。
以上是一些常见的导致逾期的原因,其中的还款能力及还款意愿是与学历是强相关的。接着我们看看不同学历群体与逾期的关系,不同学历群体在不同年龄及不同的职业有着不一样的逾期原因及表现。
围绕年龄、学历、职业来看其造成逾期的原因
1. 从年龄角度看
年龄在20-30岁之间,逾期的重要原因有可能是是很多是因为年纪小或刚毕业,缺乏稳定较高收入的情况下,又经不住消费的诱惑,过度超前消费提升生活品质,导致逾期。
31-40岁的人群大多都已成立家庭,或者事业上升人际交往都需要耗费大量资金,导致存款不够多,月收入却不足于还款,容易发生逾期。
2. 从学历角度看
从逾期人群总体来看,学历为大学专科及以下的人群为主。这类人群的收入可能相对不稳定,具有较大的还款压力,因此逾期的可能性也较大。金融机构应对大学专科及以下学历的申请者进行严格把关,结合其他相关因素如年龄、职业等来确定申请贷款的发放。
这其实侧面可以反映出本科及以上的用户还款意愿比其他学历人群相对更高。
(来源网络)
从职业角度看
在逾期人群总体中,企业基层工作人员的占比是最高的,达到30%以上,这类人群收入较低,但对金钱的需求量较大,并且工作性质相对不稳定,发生逾期的可能性也就相对较高。
【因此金融机构对客户资料进行审核时,应加强对工作单位的审核,应根据真实工作单位情况以及固定收入来确定发放贷款的金额。这块正常需要出示工作证明及收入证明来证明真实性】
(来源网络)
不同学历的就业率及收入水平影响着客户还款能力,但学历对就业率的影响在刚毕业那几年相对更明显,因此我们主要通过毕业生的就业率及收入水平的关系来看不同学历可以如何影响客户的还款能力,这里特指稳定的收入能力及相关影响维度。根据学历的接口产品可以获取的几个字段,年龄、学院及类别、专业、学院所在城市等找出可能影响不同学历群体的收入水平。
八、学历与收入的关系
学历越高、就业率越高、失业率越低
收入的稳定性与就业有关,就业稳定,收入就稳定。我们通过就业率与学历之间的关系,了解不同学历的就业情况,就业情况决定了不同学历的毕业生找工作是否容易。
由于找不到国内相关的数据,暂拿美国国家教育统计中心的数据做参考,20-24岁的人口的受教育程度与就业率正相关,而与失业率负相关,也就是说,学历越高,就业率越高而对应的失业率也越低。
就业率表示的是就业难易程度,而不同职业岗位决定了不同学历的平均收入水平。
【这个数据建议参考群体是毕业生或者刚毕业1-2年的,随着毕业时间越长,影响就业率最大的就是工作经验和能力了】
学历越高,平均收入水平越高
根据2009年美国统计概要(SAUS)的数据,不同的学历之间的差距,就像我们常说的阶级壁垒,有着明显的区别。最低学历的五倍,才勉强赶上最高学历群体的平均收入,而本科学历以下的平均收入,还没有达到整体的平均收入,这才是不同受教育阶层之间的真实的收入鸿沟。【知识改变命运在这个数据中体现无疑】
收入一般是指当下的指标,随着时间推移,收入沉淀的多少决定了个人财富的多少。
美联储圣路易斯分部的统计数据,说明了家庭中受教育程度最高者(需大于40岁)的受教育程度与家庭净财富超过100万美元的比例的关系。【这个图其实已经可以说明,消费金融的主要群体为什么是专科及以下学历为主了,本科及以上学历的财富足够优质的生活,即使贷款也是需要高额信贷产品为主,对于小额产品的需求及意愿不大。】
如果说国外的数据不代表中国国情,下面我们看看国内的数据情况:
从1977年恢复高考以来,累计毕业的大学生,大约有1亿人,去掉一半的专科生,本科生的数量大概在5000万人。看起来的确很多,但中国的人口总共是13亿人,本科生占据总人口的比例是3.69%,换句话说,只要你是本科生,你就碾压了97%的中国人。【根据第6次人口普查的数据,专科6861万人,本科及以上4976万人】
(数据来源国家统计局,大数据猎人制图)
(数据来源国家统计局,大数据猎人制图)
城市分布影响收入水平
根据2018年全国应届毕业生各城市的平均薪资情况,北京、上海和深圳这三个一线城市牢牢占据着排行榜前三名,平均薪资分别为7114元、6662元和6231元,这也是我国仅有的三座平均薪资超过6000元的城市。
而随着互联网和独角兽企业的崛起,位于浙江省的杭州市和宁波市分别以5819元和5563元的平均薪资位于我国第四名和第五名。
再往下是广东省的东莞,广州和佛山市,而中西部地区排名最高的是武汉市,平均薪资为5244元,下面是各城市的具体情况:
一般来说,北京,上海,深圳等城市被认为是三高城市,分别是房价高、消费高、薪水高。所以当地工作的高校毕业生平均薪资也比较高。
院校等级不同的毕业生收入水平不同
我们参考2018年发布的TOP200强院校收入排行榜数据解读的内容:
前25名
清华大学2017届毕业生薪酬水平最高,达到9065元。北京大学和北京外国语大学分别位居第二和第三位,平均薪酬为9042元和9020元。位居前十薪酬水平的大学还有上海交通大学、对外经济贸易大学、外交学院、复旦大学、浙江大学、同济大学、 中央财经大学。
在前25名的薪酬排行榜中,学校基本上都是处于北上广深一线城市,只有浙江大学、中国科学技术大学、南京大学3所学校除外,也就是说学校的地理位置对薪酬水平的影响是相当大的。【院校等级越高,所处位置经济越发达,毕业生薪酬越高】
26-50名
这部分大多是有城市标签的高校,例如西安交通大学、厦门大学、东南大学,这些毕业生在院校本地就业的话还是有相当大的竞争力的。当地企业对这些院校的学生的能力会有历史毕业生能力数据的参考,因此也更愿意招聘当地院校的学生。【本地毕业生有着属地化优势】
51-75名
四川省的电子科技大学、湖南省的中南大学、湖北省的华中科技大学,作为老牌的985工程高校,薪酬水平已经排到了50名开外。其实这与当地的物价以及城市薪酬待遇有很大的关系,这些学校的毕业生在学校所在地的薪酬水平可能已经算是高的了。【毕业生薪酬会受当地物价及经济水平影响】
(数据榜单来源于中国薪酬网)
院校类型及专业影响毕业生的平均收入
在众多高校类别中,理工类、语言、财经院校一直深受企业青睐。总体来看,在200所高校中,理工类占比最高,达到37%,其次为综合类学校,占比21.5%,财经类占比也达到了8.5%,师范类占比达到8%。
理工类学校中,平均月薪最高的学校为清华大学,接下来依次是同济大学、华南理工大学、北京航空航天大学、中国科学技术大学等。
语言类学校中,本次上榜的北京外国语大学、外交学院、上海外国语大学、广东外语外贸大学等高校排名均位居前30位,超过不少985和211高校。
另外,对外经济贸易大学、中央财经大学、上海财经大学、上海对外经贸大学等财经类高校排名都很靠前,也是财经类平均月薪最高的四所学校。
从榜单还可以看出,985、211高校毕业生薪酬水平大幅度领先普通高校。榜单中平均月薪最高的前50所大学中,绝大部分都是985、211学校。
理工类专业月薪最高。从薪酬最高的20个专业来看,绝大部分都是理工类专业,其中软件工程专业2017届平均月薪超过9000元,是平均月薪最高的专业。
(图来源:腾讯可视化实验室)
从薪酬最低的20个专业来看,主要集中在管理学、法学、理学等专业,其中城市管理专业2017届平均月薪只有2008元,是所有专业里平均月薪最低的专业。
不同年龄层与学历及收入的关系
猎人简单画了幅图,学历在刚毕业的那几年,是有初始优势的。但越往后,收入的高低、失业率的高低都逐渐与工作年限及经验有关,收入能力也会逐渐提高,但由于高学历的先发优势,在平均水平上,各年龄阶段,都会比低学历者的收入水平都高。下图指已毕业群体。
(大数据猎人制图:大众群体学历、收入、年龄之间的关系)
总的来说,城市平均收入水平、院校等级、院校类型均影响着不同学历的毕业生的平均收入水平,不同学历的就业率影响着长期稳定的收入情况。
高学历的先发优势还是挺明显的,但从历年毕业生的收入水平变化,我们也需要关注到毕业生的收入水平是逐年降低的,这其中一个原因是毕业生的基数每年在变大,之前的需要高学历的岗位需求逐渐被填满,岗位强需求在逐渐减弱,因此导致高学历人群的毕业收入也在递减。这种情况需要风控环节结合毕业生的毕业时间、年龄、及毕业生基数、就业大环境下综合考虑授信额度。
九、学历学籍在大数据风控的应用
识别在校学生群体
学历或学籍数据识别在校群体,知道哪些学生还在读书有什么用?
金融机构的现金贷产品怕踩红线,其次是将分期产品提前占领学生市场。
消费金融在蓬勃发展,但很多不良机构瞄准了还没踏入社会的大学生。这些学生群体未毕业就背负上了高额校园贷,无法自拔,甚至有女生为了借贷而选择裸贷,最终被要求肉偿,造成极坏的社会影响。
为此,相关部门出文禁止针对学生群体的金融活动,同时把本可以对外的学历网出来的学历学籍接口都掐断,仅限少部分银行使用。
以下是关于禁止向22岁以下在校学生群体发放无场景金融信贷产品的一些相关文件:
《关于规范民间借贷行为维护经济金融秩序有关事项的通知》
《通知》指出,严厉打击以下非法金融活动:利用非法吸收公众存款、变相吸收公众存款等非法集资资金发放民间贷款;以故意伤害、非法拘禁、侮辱、恐吓、威胁、骚扰等非法手段催收贷款;套取金融机构信贷资金,再高利转贷;面向在校学生非法发放贷款,发放无指定用途贷款,或以提供服务、销售商品为名,实际收取高额利息(费用)变相发放贷款行为。同时,《通知》要求,严禁银行业金融机构从业人员作为主要成员或实际控制人,开展有组织的民间借贷。
《关于识别和暂停“现金贷”等产品中学生贷款的通知》
通知称,目前清理整顿和停止开展校园贷业务取得良好成效,但仍有部分在校学生通过网贷平台“现金贷”、“消费贷”、“白领贷”、“信用贷”等业务进行借款,突破了校园贷的范畴和底线。
为此,协会要求,各网贷会员单位应建立客户适当性管理制度,对借款人的年龄、身份等进行必要性审核;尤其是对年龄22周岁以下的借款人应进行审核,核实为学生的身份的,不得提供借款撮合服务。
“各网贷机构会员单位认真自查‘现金贷’、‘消费贷’等相关业务借款人实际情况,进一步加强合规管理,规范业务发展。如若发现违法违规行为,协会将配合金融监管部门进行整治和查处。”
通知称,对于拒不执行的机构,协会将报金融主管部门暂停其开展网贷业务,依法依规予以关闭或取缔。对涉嫌恶意欺诈、暴力催收等严重违法违规行为,将移交公安、司法机关依法追究刑事责任。
监管部门严打向学生群体发放无真实场景的现金贷,但无法防范学生群体主动去金融机构申请贷款。因此这里有个强需求就是——除银行外,大部分合规金融机构的产品针对人群年龄是18岁以上即可,因此这些金融机构需要接入学历接口中的是否在校字段来判断未满22岁的年轻群体,哪些是在校生,针对这些学生设置进件门槛拒绝申请,以防不小心触碰政策红线。
这里如果采用猎人之前《运营商数据产品7大类型分析,其中3大接口至少可产生12亿元收支差》文中根据互金机构历年累计借贷人数推测的上千万的年活跃借款人数产生的借款次数,这个借款次数等于学历调用次数。通过这个测算学历带来的年收入规模,则这里可以产生8400万次*2元=1.68亿/年的收入规模。这个未将持牌消费金融公司及高利贷超利贷等场景产生的数据计算进去。
另按上央行征信部分数据计算,则有1.76亿*2元=3.52亿元/年的收入规模。【越是头部机构,这个市场价格其实会越低,市场规模测算应该会低个50%左右。】
对不同学历群体做资质分层
上文已分析了不同学历毕业生的就业率、失业率、院校等级、院校类型、专业、城市分布、年龄等多维度对收入水平及收入稳定性的影响。
单纯依靠学历接口获取的字段信息,我们同时可以提取到院校等级、院校类型、专业等维度,然后通过学院所在城市及申请人申请贷款城市作为工作城市的参考依据,年龄作为毕业年限的依据,同时将毕业年限约等于工作年限作为维度之一,便有了下图的学历信息相关的5个基本维度做出的资质分层及策略流程图。【工作地点和工作真实收入,原则上是工资流水比较准确,工作年限无公信力的数据来源】
(大数据猎人制图)
流程图举例:
- 客户1学历画像:清华大学数学系研究生,工作地点在上海,工作年限1年
- 客户2学历画像:清华大学数学系本科生,工作地点在某3线城市,工作年限1年
- 客户3学历画像:某学院专科生,工作地点广州城区,工作年限2年
- 客户4学历画像:小学毕业,工作地点在广州城区,工作年限20年
按照上文分析过多维度间对收入水平的影响关系,则资质分层可能是这样的客户1>客户2>=客户3=客户4.
为什么会这样?
同样的学校、学科一样,学历更高者,收入水平更高,而且1线城市的收入水平也比3线城市高,工作年限一样的前提,客户1的收入水平会比客户2的高点;这就决定了客户1获得授信额度应该会比客户2更多,这样金融机构才能将收益最大化。
客户2的学历比客户3的高,虽然客户3在1线城市,但客户3工作2年,工作年限会在一定程度下增加平均收入水平。客户2的学历虽高,在3线城市的平均水平约束了刚毕业群体的基本工资水平。所以客户2大几率是可能和客户3 的资质相等。匹配的金融信贷产品也应该一致。
【这里如果细挖,在学历学籍信息够多的前提,做人脉关联图谱的话,高学历者的人脉资质在一定程度上会为其加分很多,贷后催收也比低学历更容易催收。当然这在刚毕业阶段相对更有效,随着年限延长,工作或交际人脉会比学历人脉更准确】
客户4虽然小学毕业,但工作年限已有20年,只要无太多变故,大多情况,还是有一定的还款能力,只要产品匹配(授信小,利率正常),这样的产品匹配度,与刚毕业不久的客户3甚至客户2这些高学历群体是一样的。
(大数据猎人制图:学历、贷款意向、收入水平的关系)
这里猎人仅从学历出发,去匹配可能的产品应用流程。反过来,如果从产品维度去找不同学历的人群,逻辑应该是这样的。
将产品分层,根据产品属性找匹配群体,排除不匹配群体:
产品1 (额度1万+,年利率10%左右,期限1-3年),对应人群——在1线城市的高学历人群、一线城市打拼多年的非高学历人群。
产品2 (额度5000-8000,年利率15%左右,期限1年左右),对应人群——在1、2线城市的高学历人群、1、2线城市打拼多年的非高学历人群。
产品3 (额度500-3000,年利率30%+,期限7天-1年),对应人群——在1、2线城市的低学历人群、3、4线城市打拼多年的低学历人群。【此时如果有高学历群体过来申请,风控就需要谨慎了,工作经验丰富且拥有高学历的申请人,选择高利率借贷产品作为融资方式,表明其不会利用自身的固有优势,其未来的职场发展前景与还款能力堪忧】
结语
在中国拥有学历的人不多,不计算那些非学校全职学习出来的群体,拥有本科及以上学历的仅占3%左右,专科及以上也就8%左右。这些拥有专科及本科以上学历的群体,就算金融机构盲放的不良率也比专科以下的要低。
学历数据无法准确表示收入的真实水平,这在风控环节单独使用的确不太科学;但如果有学历数据作为支撑,在判断个人的收入能力,职业等级,工作类型、公司类型上可以做到交叉判断,对个人的收入能力判断更为准确。
高学历者一般诚信意识也更强,未来的收入预期与经济能力也更为乐观,企业承担的违约风险就越小。如果受过高等教育的群体还款意愿比非高等教育群体的还款意愿还低的话,那教育的意义就不存在了。
#专栏作家
大数据猎人,微信公众号:date- hunter,人人都是产品经理专栏作家。多年金融行业(基金、理财、保险、信贷等行业)相关战略研究、行业分析、商业模式搭建经验,熟悉金融+大数据+风控+营销领域。
本文原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自 Unsplash,基于 CC0 协议
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: