2016年,大数据从商业科技、政府管理、医学、教育、经济等方方面面撼动着世界,其中,在金融领域的应用更是取得了令人瞩目的进展。然而,产业高速发展的同时必然伴随诸多问题,金融风控不仅要面对行业内的痛点难题、国家政策的制约,还要应对社会舆论的质疑与诟病。但无论如何,大数据在推动金融风控体系发展的路上功不可没。
在数据猿联合上海大数据联盟共同举办的《魔方大数据(9):行业应用系列圆桌会议 —“金融大数据”》活动中,媒体就大数据在金融风控领域当下的发展以及所遇困难等问题与“聚信立”创始人兼CEO罗皓进行了沟通交流。
“聚信立”成长历程
罗皓,本科就读于湖南大学精算学专业,研究生就读国立爱尔兰大学统计学,是中国第一批SAS认证统计师;曾经在通用电气、渣打、摩根工作,有7年多风控和风险建模经验。2011年底,他创办过一家主营网络舆情监控的数据公司(上海英莫信息技术有限公司),用互联网数据帮助营销机构和消费品牌做品牌监控、粉丝监控。在这期间,他做了很多有关互联网数据收集、清洗、分析的工作。
2013年5月,罗皓创办上海诚数信息科技有限公司。该公司核心产品“蜜蜂”“蜜罐”和“千寻”,主要通过抓取用户在互联网上的“账户内信息”,对数据进行清洗、加工、分析和建模,然后出具基于互联网的用户数据报告,帮助金融机构在风险控制、大数据营销、资产交易等方面为客户创造价值。不过,罗皓强调,虽然“账户内信息”包括用户的电商购物记录、信用卡购物记录、公积金社保等数据,但他们都是在获得用户授权后进行的数据采集。
从2013年5月到2014年底,罗皓带领团队一直致力于“聚信立”的开发,在数据采集方面挖掘了约1200家网站,并开发了整套包括数据抓取、解析、清洗、运维、分析等环节的后台系统。2015年1月产品上线,当时“聚信立”只有大概五六家金融机构客户,每天借款人流量也仅在四五十左右。
同年6月,通过服务口碑的口口相传,“聚信立”客户数涨到七八十家,并于7月开始采取收费模式,而在此前(2015年4月),“聚信立”已经拿到京东金融A轮投资。
截至目前,“聚信立”总共服务过1400万独立借款人,每天借款人数额达24万;与此同时,拥有超过400家客户,包括国内大部分消费金融、无抵押信用贷、P2P机构以及银行系客户,如中国银行(601988,股吧)消费金融、兴业银行(601166,股吧)、浦发信用卡等。
坚持第三方身份,才能体现客观公正性
记者查阅资料时发现,太多关于“聚信立”的信息都在表达一种观点,那就是"聚信立’是一家做征信的大数据公司”。然而,罗皓告诉记者,“我们的定位很清晰,就是基于互联网大数据为企业与个人提供风控解决方案的服务商,主要帮助客户收集、整合、清洗以及分析数据”。
相比2014年,“聚信立”目前的战略定位有了很大程度延伸。一方面,他们帮助客户连接消费场景,同时增加自己获客机会。另一方面,他们还跟相关机构合作,帮助客户解决资金问题。因为从资产端来看,金融大数据日常的运营工作主要集中在三件事:
风控、获客和资金,这也是所有信贷机构最关键的三件事。媒体人发现,“聚信立”通过底层数据和资产端建立连接,在一定程度上实现了客户风控数据源的标准化。
不过,罗皓强调:“无论是在风控、获客还是资金方面,聚信立都坚持自己的第三方身份。我们的原则是,一不做放贷生意,二不介入风险。因为只有维持第三方中立身份才能使企业‘有所不作为’,保证一些底线不能触碰,比如大数据的公司不能自己放贷,否则就会严重伤害行业信用。”
风控的核心是用数据判断一个人的好坏,但“聚信立”不提供任何判断性信息,只为客户提供获取数据的能力。“至于贷款者好与不好,我们要交给放款机构自己判定。”罗皓补充道。
由于风控数据事关很多企业与个人信息,从数据加工层面确保原始数据的安全就显得尤为重要,把敏感信息脱敏,然后再做数据交易,这也是“聚信立”坚守第三方身份的另一原因。
目前,第三方身份让“聚信立”维持了风控服务中的客观性与公正性。而“聚信立”提供的数据分析,也占到客户参考数据权重的15%到65%,可以说是行业内首屈一指的能力。
做好金融风控,数据量不仅要大还要宽
从产业链条看,大数据产业涵盖数据收集、数据加工、数据分析和数据建模。而金融业包括存、贷、汇,即投资、贷款和支付行为,罗皓表示,数据在贷款领域对“存”和“汇”能发挥巨大作用。
大数据在金融风控领域的主要作用在于:
一,判断人的身份情况,即反欺诈;
二,判断一个人是否存在多头借贷或者多头负债行为,即多头借贷问题;
三,判断人的还款能力,即信用风险;
四,解决催收问题。
无论哪些数据,在资产端都是针对反欺诈、多头借贷、信用风险、催收发挥作用,这也是国内风控最重要的四个方面。不过,虽然很多公司都在开展这四方面业务,但行业内还没有形成统一标准,每家数据都不一样,这对风控行业来讲并不是好事。
罗皓称:“聚信立”现在的数据源总共覆盖1200多家网站,而这些数据更多是基于交易层面,即互联网用户所有与钱相关的数据,比如电信运营商、电商、公积金社保、个人征信、学历、信用卡等;此外,聚信立也通过历史数据重构社交网络数据。虽然“聚信立”拥有大量互联网数据,但对于“大数据时代,谁数据量多,谁就有风险定价能力”的说法,罗皓还是表达了不同意见。
罗皓称,想要做好金融风控,不仅需要大数据,还需要宽数据。譬如,市面上很多广告监测公司,他们有很多Cookie数据,每天数亿、甚至数十亿的数据量级极为“恐怖”,但这些数据:一,没有用户联络方式;二,数据维度太窄,所以价值很小。再比如,全国每天上网的人数及其上网时间数据,虽然数据量非常大,但是有价值吗?因为得不出这个人的精准画像,同样缺乏数据价值。
此外,数据宽度还与数据变现渠道的丰富与否相关,如果风控数据宽度足够,不仅可以在信贷领域实现变现,在保险行业、营销领域也都可能变现。
大数据风控风评差,原因何在?
事实上,很多企业和个人对风控平台缺乏信任,认为数据质量存在问题,其中争议性最大的就是利用社交平台数据做金融风控。但罗皓强调,社交数据其实具有十分强大的数据价值。
“蜜罐”基于社交网络所做的反欺诈模型,评分实测结果显示,KS(风控模型术语,K和S是衡量模型有效性的指标)单个字段能做到18以上,平均降低客户坏账率为1%-2%个百分点。罗皓表示,通过社交网络做数据模型,“蜜罐”挖掘出了很多有信用污点的黑户。
另外,罗皓强调,很多数据公司之所以质疑社交平台数据的价值,主要原因是其缺乏好的数据模型,不能有效利用这些数据,或者是因为他们并没有把数据做成客户能理解并能马上使用的形式。
目前,大数据风控的社会风评很差,除了数据质量被人质疑之外,罗皓指出,其原因还在于中国大数据行业没有完善的数据定价体系。
首先,数据跟货币不一样,北京的一块钱和上海的一块钱价值一样,但数据是非标准化的东西,主观价值特征明显。其次,数据变现渠道偏少,数据价值首当其冲被低估。而很多大数据企业在金融领域转来转去就是做信贷风控,且都集中在贷前,导致贷中、贷后的服务偏少。再次,很多公司本质上还在卖数据,不能将数据与应用层产品和交易捆绑在一起,这样的企业前途令人堪忧。