公众号
关注微信公众号
移动端
创头条企服版APP

数据为王时代,向前金服“听风者”3.0如何突破数据质量瓶颈

5437
搜狐财经 2019-09-16 18:48 抢发第一评

原标题:数据为王时代,向前金服“听风者”3.0如何突破数据质量瓶颈

当今时代,数据为王。

人工智能技术承载了人们对于未来世界和商业模式的无限野望,但脱离对数据规模和质量的讨论,无法突破数据造假等瓶颈,就都是空谈。

以智能风控为例,无论采用何种算法,最终决定风控模型精度极限的,还是数据。“不同的算法决定了模型逼近极限的速度,但真正对模型精度起决定性作用的是数据质量,是特征工程。”向前金服模型与应用团队负责人杨林说。

特征工程,指通过对底层数据的清洗、衍生,提取对训练模型有价值的特征这一过程。在8月份向前金服上线的大数据智能风控“听风者”3.0模型的研发过程中,特征工程是最为重要的一环。

规范获取数据原料,优质数据的先决条件

在“听风者”的这次升级中,特征工程占了建模工作三分之二的工作量。

在数据原料上,除多年运营积累的自有数据外,向前金服的风控模型还采用了央行征信中心数据及百行征信、美国个人消费信用评估知名机构FICO等行业数据。

在数据获取上,向前金服一直坚持两个基本原则。

首先,数据要具备高精准度,这是数据质量的决定因素。有了好的原材料,加工出的“菜品”才能营养美味。

其次,数据获取方式要规范,不仅严格筛选技术手段合规的数据源,而且在数据传输全流程采用不可逆的加密算法进行脱敏处理。遵守操作规范,“菜品”才不至于变质。

在获取了丰富多元的原始数据后,需要对数据进行标准化处理,也就是经过数据清洗,才能拥有整齐干净的数据,这是进行变量衍生的基础。

变量衍生,创新技术和业务经验的结合之果

数据经过清洗后,对基础字段上进行衍生,造出衍生变量则是整个过程最艰辛的部分。衍生变量,需要对基础数据进行组合,基于不同关系而产生。“很多时候,单独看一个维度数据很难发现隐藏的风险,但做一些交叉分析,会暴露更多的信息。”杨林说。

而产生衍生变量的难度在于,不仅要基于对业务的深刻理解进行组合,有时还需要建模人员开脑洞对基础变量进行花样组合,并且要经过反复校验。最终变量能否进入模型,要看挖掘出的变量是否对于判定借款人的还款意愿、还款能力有价值。

在这个过程中,以评估个人还款能力和还款意愿为出发点,向前金服模型与应用团队在衍生变量的制造上,采用了创新技术与业务经验相结合的方式。一方面,利用成熟且科学的量化算法,进行大量衍生变量的自动化生成;另一方面,与风控策略等团队合作,利用他们丰富的一线业务经验和对风险点的敏感度,产出与自身业务高度契合的变量。

最终,“听风者”3.0模型的变量候选池规模过万。这意味着,向前金服可对借款用户通过上万字段进行交叉比对,这是在用户画像精准度、风控可靠性等方面跨上了一个新的台阶,也让向前金服资产的优质性有了进一步的提升。返回搜狐,查看更多

责任编辑:

声明:该文章版权归原作者所有,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系。
您阅读这篇文章花了0
转发这篇文章只需要1秒钟
喜欢这篇 0
评论一下 0
凯派尔知识产权全新业务全面上线
相关文章
评论
试试以这些内容开始评论吧
登录后发表评论
凯派尔知识产权全新业务全面上线
宁波城市站
金华城市站
×
#热门搜索#
精选双创服务
历史搜索 清空

Tel:18514777506

关注微信公众号

创头条企服版APP