前言:
大数据是一个事关我国经济社会发展全局的战略性产业,大数据技术为社会经济活动提供决策依据,提高各个领域的运行效率,提升整个社会经济的集约化程度,对于我国经济发展转型具有重要的推动作用!2016年,由中国首席数据官联盟与网加时代网发起并承办,北京大学信息化与信息管理研究中心、中国新一代IT产业推进联盟、数邦客协办的"影响中国大数据产业进程100人"大型人物专访活动全面启动,被采访对象分别来自政府、产、学、研、企各个领域,他们将从不同角度,不同层面向大家阐述当前大数据产业热点、难点、疑点问题,为中国大数据产业健康、持续发展探索经验、保驾护航,敬请关注!
第三十八期专访人物:中国首席数据官联盟专家组成员,法海风控创始人兼CEO 高强
高强,中国首席数据官联盟专家组成员,法海风控创始人兼CEO,清华大学数据科研院项目导师,元界研究院创始人,蔚蓝网络书店创始人,中国服务创新研究小组副组长。专长于金融风控、人工智能、大规模数据高精度清洗,智能文摘。在中小企业风险管理,银行信贷风险管理,大数据动态征信,涉诉大数据领域有丰富的实践经验。毕业于清华大学经济管理学院,管理学博士。
本期特邀嘉宾中国首席数据官联盟发起人鲁四海,就风控大数据应用与高强先生进行深入探讨。
鲁四海:我们今天谈风控大数据,主要的服对象还是传统金融机构,那么他们面临的挑战是什么呢?
高强:目前传统金融行业不仅面临利率市场化、同业监管趋紧、互联网金融冲击等经营环境变化的考验,不良猛增、存款分流、净利润增速下滑等问题也接踵而来。如何面对这些变革和挑战,将决定我国金融业未来5到10年的发展态势。
● 传统银行业务盈利能力显著下降
利率市场化进程已进入深水区,息差拐点隐现,传统银行业务盈利能力显著下降。
我国利率市场化改革已经接近尾声。继2013年7月央行取消贷款利率下限实现贷款利率完全市场化后,日前一年期以上(不含一年期)定期存款的利率浮动上限也正式放开。目前我国将迈入利率完全市场化时代。从国际经验来看,多数国家在实行利率市场化之后的几年间内,出现利差收窄、银行的盈利能力下降的现象,行业集中度增强。随着利率市场化进程进入深水区,社会资金脱媒的态势不断加强,银行业存款流失加重,将迫使银行提高存款利率水平以稳定资金来源,银行业整体息差持续缩窄仍将持续,银行传统高资本消耗增长模式难以为继。
● 信贷资产质量进入下降通道
宏观经济仍存下行压力,信贷资产质量进入下降通道,金融风险不容忽视。
由于我国依靠投资和出口来拉动经济增长的模式已经无法持续,近年来我国经济下行压力不断加大,GDP增速放缓。
经济周期处于高增长阶段是高收益资产供给的必要条件。我国实体经济的下行压力依然很大,较受关注的地方融资平台、房地产和钢铁、水泥、电解铝、平板玻璃和船舶等产能过剩行业的信贷资产质量进入下降通道,信贷资产质量管控的压力越来越大,局部性和区域性金融风险有所显现,商业银行不良贷款余额和不良率持续上行。
● 金融业传统盈利基础面临挑战
企业负债持续处于高位,间接融资对客户吸引力下降,金融业传统盈利基础面临挑战。
由于我国企业的收入和利润增长乏力,企业负债持续处于高位,导致融资需求大幅下降,也就是说企业不得不加大去杠杆的力度,间接融资对客户吸引力持续下降。在融资层面上,表现为净融资增速乏力,企业中长期贷款下降。从微观来看,以商业银行为主的金融机构可投资的高收益长期限资产(主要是类固定收益的资产)在变少,金融业传统盈利基础面临挑战。
● 金融业竞争格局正在重构
互联网金融冲击加剧,新型金融业态兴起,金融业竞争格局正在重构。
当前,互联网金融对传统金融的冲击主要在于互联网技术的渗透在显著提升金融服务效率的同时,改写了金融交易规则和组织形式。金融分工和专业化色彩被淡化,金融交易脱媒,具体冲击表现在四个方面。一是价格市场化,如"宝宝"们大幅加快了存款利率市场化的步伐,P2P促进了贷款利率的市场化进程;二是产品长尾化,传统金融投资、融资均有较高的门槛,而互联网金融发挥客户、信息优势,将传统金融产品标准细分,降低门槛,满足互联网用户的长尾特征;三是渠道多元化,传统金融市场渠道为王,银行渠道尤为强势,而互联网为缺乏渠道的非银行金融机构(如基金、保险等)提供了新的渠道;四是风险管理数据化,大数据改变了金融体系中原有的信贷评级框架和风险管理体系。互联网银行、互联网消费金融公司、金融租赁公司等新型金融业态蓬勃兴起,在丰富金融机构类型、满足不同群体金融需求的同时,不仅大量分流银行业务,对银行传统的经营理念和业务模式造成了冲击,而且金融与非金融之间的界线也会变得越来越模糊,金融业的竞争格局正在快速重构。
综合来看,我国经济的结构性改革对金融服务数量和质量、对金融市场的广度和深度、对金融机构的风险管理能力都提出了更高的要求。经济转型需要金融机构的服务重心下沉,要求金融更多去支持创新创业。企业经营模式变化需要金融机构调整业务重点,未来要更多地为创新创业提供股权融资服务,为企业"走出去"提供包括信贷、避险、资产管理等在内的全方位、全过程金融服务,为实体经济转型升级提供跨市场的综合性金融服务。在"三期叠加"的宏观经济新常态下,银行依靠规模高速扩张的发展方式难以为继,金融业的发展模式必须由外延式发展向内涵式发展转变,从追求规模扩张转向追求效率提升,从同质竞争走向差异化竞争、从单一服务功能转向综合服务功能
鲁四海:分析完金融机构面临的问题,再请高总给我们分析一下传统风控的情况?
高强:何为风控?字面含义就是对于风险的控制从而使财务不受到损失。对于任何一家金融机构(包括银行,小贷,P2P等)来说,风控的重要性超过流量、体验、品牌这些人们熟悉的指标。风控做得好与坏直接决定了一家公司的生与死,而且其试错成本是无穷大的,往往一旦发现风控出了问题的时候就已经无法挽回了。现在大范围的P2P平台已经倒闭。这其中除了一部分明显的自融欺诈外,大多数平台垮掉的原因还是风控不过关。
从银行类金融机构和非银行金融机构的两种业务模式来看,事实上,过去市场的风控一般也就是这两种模式。
一种是以银行为代表的信贷化模式。它的本质是通过制度安排,利用中介机构的规模优势和期限错配,让风险在经济运行的长周期中被化解。这种制度安排其实是银行能活下来的根本原因。总体而言,当银行达到一定规模后,个人能力在银行体系内不再起主导作用,会不断分化和瓦解。也只有如此,银行才能稳定地发展到一定规模,凡是依赖个人能力的商业模式都是无法持续扩张的。
另一种就是证券化模式。证券化的本质是让核心风险在市场中寻求自我定价和平衡,最终让风险在不同的市场主体之间转移。证券化不是承担风险,而是让风险通过市场得到合理的配置。采用证券化模式的机构最终比拼的是风险定价能力,而并非承担风险的能力。
这两种模式各有利弊。我国是典型的信贷化主导的国家,信贷规模全球第一。这种间接融资占主导性地位的优点,是政府在经济活动中具备极强的控制力,而且在有效计算信贷总量的情况下,也可以有效防止发生系统性风险。缺点是因为无法通过证券化来分解和分摊风险,有可能会被倒逼产生极大的系统性风险。总体归纳,信贷化模式是总量可测下的风险不确定性。
证券化的优点,是让风险在自我承担和自我定价中不断分解和暴露。但由于证券化是个风险流动的过程,会因为各种原因导致风险在市场中出现总量不可测量的情况。如果市场堆积了太多的风险,而又无法进行测定,一方面会加剧投机成分,一方面则会形成比信贷化模式更可怕的风险。因为每个主体都可能承担了超越自我承受能力的风险,最终形成的风险会更高。
鲁四海:大数据环境下的风控又有哪些特点?
高强:所谓大数据,即是从各类各样的数据中抽取对目标客户最有价值的数据,掌握了大数据,可以大大降低平台的风控成本,并且提高风控效率,降低不良率。
互联网大数据可以搜索、提供每个相关企业与个人庞大的、碎片化的、种类繁多的信息。这里面包括政府门户、第三方权威机构公开覆盖的企业多维度信息(司法涉诉、工商信息、税务等)个人用户提交的电子化信息(如身份证、营业执照、房产证、学历证、工资单、社保,银行流水等),重点第三方网站的查询信息(如环保、招聘、新闻传媒等),还包括了海量的互联网碎片数据,如用户的电商交易信息、微博等社交网络数据,百度搜索引擎数据等。说到底得数据者得天下。目前互联网技术的渗透在不断显著提升金融服务效率,并日益改写金融交易规则和组织形式。风险管理数据化,大数据潜移默化的改变着金融体系中原有的信贷评级框架和风险管理体系。
目前市场的大数据风控系统现状是:大公司通过大数据挖掘,自建信用评级系统;小公司通过信息分享,借助第三方获得信用评级咨询服务。
已有的风控大致分为两种模式,一种是类似于阿里的风控模式,他们通过自身系统大量的电商交易以及支付信息数据建立了封闭系统的信用评级和风控模型;另外一种则是众多中小互联网金融公司通过贡献数据给一个中间征信机构,再分享征信信息。
那么,哪些数据才是风控所需的呢?
1.权威机构第三方发布的数据
在工商、税务、司法、环保等多部委在其门户网站发布的权威的数据,包括工商照面的信息、税务缴纳记录、司法审判结果、环保不合规的信息等。从正面直面企业的不良记录。
2.信贷记录大数据
小贷类网站积累的信贷大数据包括信贷额度、违约记录等等。但单一企业缺陷在于数据的数量级别低和地域性太强。还有部分小贷网站平台通过线下采集数据转移到线上的方式来完善信用数据。这些特点决定了如果单兵作战他们必定付出巨大成本。因此,贡献数据、共享数据的模式正逐步被认可,抱团取暖胜过单打独斗。
3.电商大数据
电商平台能够累积大量的交易信息,可作为信用评级参考的原材料。
阿里金融是利用电商大数据进行风控的领头羊,在很多行业人士还在云里雾里的时候,阿里已经建立了相对完善的大数据挖掘系统。通过阿里巴巴、淘宝、天猫、支付宝等积累的大量交易支付数据作为最基本的数据原料,再加上卖家提供的销售数据、银行流水、水电缴纳等情况作为辅助数据原料。所有信息汇总后,将数值输入网络行为评分模型,进行信用评级。
4.社交网站大数据
社交大数据是风控大数据的一个重要组成部分。通过社交人际网络关系数据和生活圈中其他如水电煤缴费信息、信用卡还款信息、支付和交易信息等,可以多方面地反映出用户的习惯偏好、价值取向、人际交往、信誉度和活跃度等信息。
大数据的海量也就意味着,对数据的理解和对有效数据的挑选非常重要,并非所有数据都是风控有用信息。要选取哪些数据原料进行挖掘,什么数据才是金融风控真正所需的,对数据的类型和实效性都要有所考量。
如今,大数据风控方兴未艾,也伴随着一些泡沫,但只要它朝着健康的方向发展,未来已来。大数据的相关理论与分析方法,很好地弥补了数据获得的时间连续性、数据的地理位置分布、数据样本的覆盖程度等传统分析方法中的不足,其精准度更高、覆盖面更广和响应速度更快的特点,运用到风险防控中大有裨益。
鲁四海:能不能以金融机构贷款业务为例,您给我们分析一下大数据在哪些环节可以发挥什么样的作用?
高强:好的,贷款的一般流程是这样的:
1.申请贷款这里要写明贷款用途,贷款金额,个人财产情况(企业:公司业务状况),使用期限,选择的贷款种类,抵押物,偿还能力等基本信息。
2.贷款调查商业银行接到申请后开始对您的贷款情况,做基本调查,这里的原则是看你的还款意愿与还款能力,在这个基础上评定贷款风险。以及所涉及融资产业是否符合国家要求。
3.审核通过在全方位的考察此笔贷款后,在银行资金充裕的情况下,经过相应银行管理部门审批然后就可以去签订合同(担保办理抵押),办理贷款相关手续,取得资金。细节问题询问工作人员即可。
4.贷后调查在借款人取得贷款后,主要调查资金是否按规定用途使用,以及借款人的现金流量,经营收入。如果没有按规定用途使用贷款(合同签订时借款人写明的用途),银行可以有权解除合同提前收回贷款,或者增加贷款利率,这就是所谓的"挤占挪用"。
5.归还贷款借款人在规定日期内还款,不记收罚息,如果超出借款日期还款一般会增加50%的贷款利息,借款人在签订合同时,按月,季,年结息,或者分期还款。正常情况下,贷款基本流程就算结束了。特殊的是如果没有定期还款,银行一般会在30-60内起诉,用法律程序清收资产保全,所有的费用由借款人承担。
大数据可以应用在贷前、贷中、贷后全流程的各个方面。
鲁四海:金融系统的安全要求都非常高,其中最重要的就是保障数据安全,您有哪些好的建议?
高强:大数据安全分析的核心目标找到隐藏在数据背后的安全真相。数据之间存在着关联,传统分析无法将海量数据汇总,但是大数据技术能够应对海量数据的分析需求。通过大数据基础能够挖掘出APT攻击、内网隐秘通道、异常用户行为等安全事件。在此基础上可建设为安全决策支持系统,为安全决策提供数据支撑。
确保大数据的安全主要完成以下三点任务:
1.数据防篡改。
数据加密确保数据真实性,防止被人肆意篡改。
数据的真实性是未来通过大数据来提供安全策略的重要保障,只有信息是真实的,才能真正的给未来的网络安全提供可靠的信息支持。一旦这个信息被篡改成其他的信息,或者更危险的被篡改成病毒木马,这样不但可能造成提供信息的无效,还有可能导致信息数据直接成为安全的威胁。一旦这个问题解决不了,未来想通过大数据来提供数据安全服务都是空谈。
2.数据防破坏。
数据备份恢复,防止破坏。
对于数据的破坏行为,随着技术的发展,网络威胁或许会逐渐成为数据破坏的主因,但是就整体而言,数据的破坏行为大多都是由误操作造成的。因为随着IT技术的发展,从正面的进攻来达到破坏效果,虽然技术上的难度在大数据的支持下并不大,但过于明目张胆和粗暴,容易被将来的网络警察和系统自带的安全体系反追踪和袭击,对于攻击者本身来说风险很大。
3.数据传输通信安全。
传输通信加密和身份认证,防止数据在传输过程中被人篡改和窃取。
在谈数据加密时,已经谈到了被篡改的数据对大数据安全策略建立的危害性。其实这种篡改行为除了在数据本身进行防护之外,在数据的传输过程中同样也需要保护。在大数据时代,不通过网络来实现云技术大数据的集合处理几乎是不可能的,或者说不通过网络集合的大数据是不完整的,不及时的,所提供的安全策略不是最完整、最新鲜的,自然地通过大数据提供的安全策略的效果也不能达到最完美。
鲁四海:前面您从行业发展、应用场景、数据安全等角度对大数据在风控方面应用做了分析,现在我问一个技术问题,如何通过技术实现风险系统?
高强:风控系统实现的几种方案:
(1)数据库方案:将风险规则、交易数据等都采用关系数据库存放。正如 支付系统风控系统建设思考所提到的方案,交易库和风险库一般分别部署在不同的服务器上,在事件触发上可以采用数据库触发器、消息队列事件等方案。此种方案技术实现相对简单,但在进行海量交易数据查询以及大量风险规则处理时候,数据库系统查询性能及扩展性成为一个较大的瓶颈。很难满足风险事件实时分析的要求。
(2)内存数据库方案:由于对海量交易数据的查询、分析极其消耗数据库资源,可以采用内存数据库方案来替代关系数据库,保证风险事件实时处理的性能。但目前开源的内存数据中VoltDB、H2、MonetDB、FastDB、Berkeley DB、SQLite等在大规模的业务场合应用的成熟度尚待考察,而Oracle TimesTen、MCObject eXtremeDB、Altibase价格太高。
(3)分布式缓存方案:采用Memcached等NOSQL的分布式缓存来缓存交易数据、风险规则等,但由于NOSQL解决方案并不擅长数据间的关系逻辑处理,需要在程序中大量维护业务处理逻辑,远不如关系数据库或内存数据库方案方便。
以上方案,都可以通过规则引擎(例如drools)来完成风险规则的管理和维护,避免了风险规则维护的繁琐及规则间复杂关系处理。
Complex Event Processing (复杂事件处理)是一种新兴的基于事件流的技术,它将系统数据看作不同类型的事件,通过分析事件间的关系,建立不同的事件关系序列库,利用过滤、关联、聚合等技术,最终由简单事件产生高级事件或商业流程。CEP适合的场景包括实时风险管理、实时交易分析、网络诈欺、网络攻击、市场趋势分析等等。