区块链+大数据:传统风控的变革利器

导读:风险控制是金融必不可少的环节。近年以来,为了实现更精准、更高效的风控,金融机构纷纷引进了大数据技术。然而,大数据风控并非十全十美,其尚存数据孤岛、数据低质和数据泄露等有效性不足的问题,由此引发的风险事件层出不穷。区块链技术的应时而生,为两种技术在风控领域的跨界融合带来了创新性的机遇。那么,“区块链+大数据”,能否在金融风险控制领域擦出不一样的火花?

我国的金融体系是信贷主导型,信贷市场规模全球第一。《巴塞尔协议III》的出台,对商业银行等传统金融机构的影响是巨大的。商业银行的业务定位有了全新的变化,不再是简单的金融服务和信用中介,风险控制在商业银行中扮演着更为重要的角色。为了更加直接地防范系统性风险的出现,提高政府在经济活动中的控制力,大数据技术诞生以前,以商业银行为代表的传统风控模式成为最符合国情的风控模式。

大数据风控初步探索 在传统风控模式中,大部分商业银行沿用的都是以程控交换为主的风险管理系统,虽然稳定性较强,但是客户容纳体量有限、交易通信指令复杂等不足让商业银行难以满足现代投融资需求,特别是全国7000万中小微企业的存贷款需求,早已突破了传统风控模式的压力测试、欺诈检测和风险监管的系统容量上限。需求促进创新,2008年开始,伴随着数据处理需求的增加和大数据技术的发展,商业银行等传统金融机构日渐意识到数据资产的重要性,并逐步将程控交换系统转换成IP网络为主的大数据风险控制系统。由此,大数据风控逐渐成为金融机构创新传统金融风控模式的变革利器。

另外,日均2EB级别的海量数据的产生,让蚂蚁金服为代表的互联网金融企业和中诚信为代表的征信机构开始在大数据风控领域崭露头角,围绕自身互联网平台和业务系统,打造了诸如“蚂蚁大脑”、“京东天机”的大数据风控系统。然而,2013年以来,随着互联网金融的快速发展,以P2P为代表的互联网金融企业如雨后春笋般涌现。具体而言,自2007年我国诞生第一家P2P平台起,P2P平台在快速发展的同时频频暴露出跑路、停业、提现困难和经侦介入等问题。大部分P2P平台均宣称,自家平台是采用先进的大数据风控技术,严进严出,基本能保障不良贷款率在P2P行业较低的水平。然而,P2P行业的风控现状却总是事与愿违。根据网贷之家发布的《2015年P2P网贷行业年报》显示,2015年全国正常运营的P2P平台总数2595家,累积停业及问题平台数量高达896家,占比34.53%。问题平台总数高达2014年的3.26倍。因此,P2P风控之殇从一个侧面反映出大数据风险控制存在有效性不足等问题。 大数据风控美中不足 众所周知,大数据风控是指利用大数据技术对交易过程中的海量数据进行量化分析,进而更好地进行风险识别和风险管理。大数据风控的核心原则是小额和分散,即预防资金相关者过度集中。小额的设计原则主要是针对海量数据构成的统计样本,尽量避免出现统计学中的“小样本偏差”。分散的设计原则主要是通过分析借款主体的人口属性、商业属性、行为属性和社交属性等数据来建立大数据风控模型。

基于大数据的风险控制,突破了传统风险控制模式的局限,在利用更充分的数据的同时降低了人为偏差,是金融机构创新传统金融风控模式的变革利器。应用大数据技术不仅可以提高风险控制的效率,还能节约风控过程中的管理成本。然而,大数据风控并不完美。

首先,大数据风控技术无法解决数据孤岛问题,即数据的开放和共享问题。目前,政府、银行、券商、互联网企业和第三方征信公司掌握的信息难以在短时间内互联互通,从而形成一个个信息孤岛。当交易在不同金融机构之间进行时,数据孤岛导致了信息的不对称、不透明,带来了大量的多头债务风险和欺诈风险。金融信贷行业若想利用大数据风控技术提升风控水平,就必须打破数据孤岛,解决信息不对称和信息获取不及时的问题。

其次,数据低质的问题也从一定程度上影响了大数据风控的质量。特别是来源于互联网的半结构化和非结构化数据,其真实性和利用价值很低。举例来说,在美国,Lending club和Facebook曾经合作获取并利用社交数据;在中国,宜信也曾大费周章地采集借款人的社交数据,以期实现对借款人信用的全面评定。但是两者得出的结论如出一辙,由于社交网络中的数据主观随意性很强,这些在网上提取的社交数据根本不具有利用价值或者利用价值十分低,错误率高达50%。电商平台上的交易数据也由于一些刷单现象而失真。这些信息的收集与利用就如同垃圾的运进运出,几乎没有任何意义。基于这些低质数据的风控效果也会大打折扣。

最后,大数据风控过程中存在数据泄漏问题。近年来,数据泄漏风险事件屡见报端。2015年2月12日,汇丰银行大量秘密银行账户文件被曝光,显示其瑞士分支帮助富有客户逃税,隐瞒数百万美元资产,提取难以追踪的现金,并向客户提供如何在本国避税的建议等。这些文件覆盖的时间为2005年至2007年,涉及约3万个账户,这些账户总计持有约1200亿美元资产,堪称史上最大规模银行泄密。Verizon发布的全球调研报告《Data Breach Investigations Report 2015》显示,2015年网络安全事件共有79790起,确认的数据泄露事件超过2000个(2122个)。这些都大大降低了大数据风控的有效性和应用价值。

2008年11月,一位名叫中本聪的技术极客首次提出了区块链概念。区块链本质是一个去中心化的分布式数据库,这种去中心化、开放自治、匿名不可篡改的数据结构特性使其一出现就迅速取得大量关注。区块链的出现,也在一定程度上解决了大数据风控有效性不足的问题。

区块链可解决现实中诸多技术壁垒

区块链诞生于比特币体系中,比特币是一种数字货币,而区块链是记录这种货币发行与交易的“账本”。为了不涉及被信任的第三方,这个“账本”需要保证交易双方能够相互信任,且保证全部交易信息公开透明,自动传达给交易双方。因此,这个“账本”必须是共享、自治和不可随意更改的,要有去中心化、开放自治和匿名、不可篡改的特性。区块链的四大核心技术主要实现了以下特性:分布式记账、分布式传播、分布式存储,保证了系统内的数据存储、交易验证、信息传输全部都是去中心化的;通过“时间戳”〔(区块(完整历史)+链(完全验证)=时间戳”〕 来记账,形成了一个不可篡改、不可伪造的数据库;所有权的信任是“算法式信任”,非对称加密算法保障交易数据的可信;实现了可编程的智能合约,使系统可能去处理一些无法预见到的交易模式。

区块链去中心化、开放自治、匿名不可篡改的特性使其应用场景迅速扩张,从最初的数字货币,到证券交易结算、会计审计等涉及合约审核的金融领域,再到政府、医疗等公共领域,区块链技术解决了现实世界中存在的诸多技术壁垒。具体来说,京东白条近两年构建了被称为“四大发明”的大数据模型体系:司南-风险管理模型系统、火药-量化运营模型体系、活字-用户画像模型体系、造纸-大数据征信模型体系。毋庸置疑,与传统风控体系比较,依托于大数据技术的“四大发明”的风控体系能够更加精准地识别及遏制套现行为,目前为止已经为1亿用户完成了信用评估。然而,大数据风控体系仍然无法解决其数据源上存在的问题。无独有偶,将区块链技术应用于大数据风控体系,可以有效解决大数据风控数据孤岛、数据低质和数据泄露等数据源问题。

区块链数据库可提高大数据风控的有效性

影响大数据风控有效性的关键因素是数据库的维护成本和信息传递效率。而单从数据的角度来看,区块链是一个由所有参与者共同记录(而不是中心化机构单独记录)信息、由所有参与记录的节点共同存储(而不是存储在中心化机构中)并且不可随意篡改的数据库。在这个区块链数据库中,每个用户节点都拥有整个数据库的完整拷贝,并且当某个用户节点要对数据库写入数据时,它需要向区块链网络广播这些数据,以便其余用户节点对这些数据进行验证审核操作。只有全网共同验证和认可后,数据才能写入区块链,并且一旦数据写入区块链后,就不能随意修改或删除。这样一个用区块链技术构建的数据库,对于大数据风控有效性的提高有重要意义。

首先,区块链去中心化、开放自治的特征可有效解决大数据风控的数据孤岛问题,使得信息公开透明地传递给所有金融市场参与者。设想以下情况:一位客户同时向A银行和B银行各申请100万元的房屋抵押贷款,但其房屋价值只有100万元。如果两家银行加入了同一区块链,就能即时辨别出客户的交易行为和风险,避免放贷总额超过抵押值。除了交易主体外,监管部门也可以作为一个用户节点加入区块链,实时监控其他用户节点的交易信息,防范风险事件的发生,无须再等到事后申报。利用区块链中全部数据链条进行预测和分析,监管部门可以及时发现和预防可能存在的系统性风险,从而更好地维护金融市场秩序和提高金融市场效率。可见,区块链去中心化的特征,可以消除大数据风控中的信息孤岛,通过信息共享完善风险控制。

其次,区块链的分布式数据库可改善大数据风控数据质量不佳的问题,使得数据格式多样化、数据形式碎片化、有效数据缺失和数据内容不完整等问题得到解决。在区块链中,数据由每个交易节点共同记录和存储,每个节点都可以参与数据检查并共同为数据做证,这提高了数据的真实性。而由于没有中心机构,单个节点不能随意进行数据增减或更改,从而降低了单一节点制造错误数据的可能性。举例来说,在银行或交易平台内部建立私有链,一位客户构成一个节点,一方面可以避免大量数据由单一信息中心集中录入和存储,降低操作风险;另一方面,卖方单方面的刷单行为可以通过买方的验证得到遏制,从而保证数据的真实有效。伪造的数据若想通过区块链网络的验证,必须掌握该私有链中超过50%的计算能力,当节点足够多的时候,该私有链的控制成本急剧上升。另外,区块链中每个节点都有完整的数据副本,只有当整个区块链系统发生宕机时数据才会丢失,并且数据记录一旦写入就不能修改。因此,区块链具备公开、透明和安全的特点,可以从源头上提高数据质量,增强数据的检验能力。

最后,区块链可以防范数据泄露问题。由于区块链数据库是一个去中心化的数据库,任何节点对数据的操作都会被其他节点发现,从而加强了对数据泄露的监控。另外,区块链中节点的关键身份信息以私钥形式存在,用于交易过程中的签名确认。私钥只有信息拥有者才知道,就算其他信息被泄露出去,只要私钥没有泄露,这些被泄露的信息就无法与节点身份进行匹配,从而失去利用价值。对于来自数据库外部的攻击,黑客必须掌握50%以上的算力才能攻破区块链,节点数量越多,所需的算力也就越大,当节点数达到一定规模时,进行一次这样的攻击所花费的成本是巨大的。因此,通过区块链对信息存储进行加密,保证数据安全,防范大数据风控中可能出现的数据泄露问题,是区块链的重要应用之一。 “区块链+大数据”风控,未来在哪里? 根据BI Intelligence的《Fintech行业报告》预测,区块链的应用和普及将成为2016年金融业的最大趋势。那么,“区块链+大数据”能否成为风控的创新机遇?

毋庸置疑,“区块链+大数据”风控的发展前景是广阔的,但也不是一蹴而就的。随着金融科技的发展以及资金和人力的持续投入,区块链会与大数据技术跨界融合,对风控领域现存问题提出更合理更高效的解决方案。

在身份验证应用层面,由于合规合法制度要求,客户身份认证一直是金融等中介机构无法逾越的基础设施建设工作之一。过去,亲面亲签的认证方式既让客户体验度降低,又让中介机构为此投入大量人力和物力资源。目前,以Onename、BitID等为代表的第三方身份验证服务提供商开始利用区块链去中心化、公正公开的特性,在比特币平台上为金融等中介机构提供去中心的第三方客户身份认证的服务。简而言之,可以用“+Warren”实现身份认证或比特币交易。与此同时,利用大数据技术从数据端对引流的客户进行身份验证、特征筛选等,以此提高反套现、反欺诈和反作弊的准确度。

在金融合约应用层面,人为的操作风险和道德风险一直是大数据风控难以解决的问题之一。大数据风控主要针对消费者,对于金融机构的员工操作风险和道德风险层面,就显得有些捉襟见肘。区块链2.0技术的出现,使智能合约系统成为可能。基于区块链可编程的特点,可将合约指令嵌入到区块链中,有效弱化中心系统在数据监控和验证中的作用,并消除人为操作因素可能引发的风险。金融机构逐渐开始布局构建区块链技术的智能合约系统,使合约的合规检查自动化。

毋庸置疑,对于大数据+区块链的金融风控技术来说,区块链本身或许存在亟待完善的风险漏洞,比如The DAO被盗事件说明区块链的智能合约协议代码存在漏洞。与此同时,国内外区块链行业专家也正在尝试全新的解决方案。首先,在信用风险方面,区块链企业或可与保险机构跨界合作,开发区块链信用保证保险和履约保证保险来获得更强的公信力;其次,在操作风险和道德风险方面,区块链或将在原有开放源代码基础上迭代自动投票恢复交易和资金冻结的功能模块,以此来防范类似于The DAO事件中成员所引发的操作风险和道德风险;最后,在市场风险方面,基于区块链技术的数字货币或可锚定全球最具代表性的法定货币,比如美元、人民币和欧元等。

区块链技术作为一种特定的数据库技术,将与大数据、风控技术实现优势互补,进而构建全新的数据组织方式。笔者相信,在不久的将来,两项技术在风险控制领域的跨界融合将会上升到公司级和国家层的治理层面,从而带领我们进入强信任背书时代。

区块链开启信息产权新时代

原创: 戴剑 张宇萌 国际融资

在大数据时代背景下,各机构之间共享数据困难,主要是因为数据的校验、保存和同步一直是一个难点。各个利益相关方在访问和共享数据时存在严格的限制,这一过程需要花费大量的资源和时间用在权限审查和数据校验。究其本质,是对数据产权难以界定而引发的问题。本文提出使用基于区块链的数据共享模型,具有去中心化、安全可信、集体维护、不可篡改等特点,适用于解决各机构数据共享的难题。从此,区块链有可能打开数据(信息)产权的新时代!

数据的所有权

提出数据的所有权这个问题,主要是基于大数据的发展。我们看到,大数据产业发展给民生带来了便利,推动了社会的治理和进步。然而,在区块链之前要享受这些便利难免需要牺牲一部分初始所有权人的权利,包括隐私权。

2018年3月26日,在中国高层发展论坛上,李彦宏称:“将各个数据来源放在一起,它的威力和能力将会呈现指数级上升,与此同时我们也非常重视隐私问题,以及包括数据的保护问题。在过去几年当中,中国也越来越认识到这个问题,也一直在加强相关的法律法规的建设。在这一个过程当中,我想中国人会更加开放,或者说对于这个隐私问题还没有那么敏感。如果让他们选择用隐私交换便捷性或者效率的话,在很多情况下,他们是愿意这么做的。对于我们来说,当然要遵循一系列的原则,就是说如果我们认为用这一个数据会让所有人受益,而且他也愿意让你使用这一个数据的话,我们会使用的。”

甚至有人提出这样的谬论:当前大数据行业正处于高速发展阶段,应以保护大数据产业发展为优先价值,兼顾初始所有权人的权利,只有这样才能赢得大数据产业的国际竞争。

公地悲剧

1968年,哈定在《科学》杂志上发表了一篇题为《公地的悲剧》的文章。文章写到:英国曾经有这样一种土地制度——封建主在自己的领地中划出一片尚未耕种的土地作为牧场(称为“公地”),无偿向牧民开放。而作为理性人,每个牧羊者都希望自己的收益最大化。在公共草地上,每增加一只羊会有两种结果:一是获得增加一只羊的收入;二是加重草地的负担,并有可能使草地过度地放牧。经过思考,牧羊者决定不顾草地的承受能力而增加羊群数量。结果是因羊只的增加而收益增多。看到有利可图。许多牧羊者也纷纷加入这一行列。由于羊群的进入不受限制,所以牧场被过度地使用,草地状况迅速恶化,公地牧场最终因“超载”而成为不毛之地,最终导致牧民的牛羊全部饿死。

“公地悲剧”说明产权不明,使得企业和个人使用资源的直接成本小于社会所需付出的成本,从而使资源被过度地使用。科斯定理证明,一旦产权明确,而各利益相关者之间的联络、谈判、签约等的成本足够低,则无论将产权划归给谁,最终总能达到该资源的最优配置和使用。因此,尽可能地将数据的所有权明晰,并配备完善的交易市场及健全的法律法规,明确责任和义务,则能够避免“公地悲剧”在数据领域的重演。

其中,数据所有权的内涵就是拥有对相关数据的支配、处置和获益等财产的权力。这些权力具体的表现为:同意权、知情权、异议权、纠错权和司法救济权。真正做到谁的数据谁作主,通过严格的执法和行业自律,确保大数据在产权清晰、权力保障有效的框架下,发挥更大的价值,大数据才会拥有健康发展的未来。

明晰产权是建立数据流通规则和秩序的前提条件。在区块链之前,没有很好的解决方案,直到区块链出现后,对明晰数据产权有了新的工具,推动了数据的大发展。

基于区块链的数据共享模型破解数据(信息)产权困局

数据同样拥有产权属性,区块链则能让数据变成一种资产甚至一种产权。基于区块链,数据的所有权回归到数据生产者身上。在这样的条件下,每个人都可以决定第三方是否能够读取、使用自己的数据,人们也可以围绕数字资产创造财产,变现数据资产,而不是无偿地贡献给第三方平台。

产权区块链可以扩展于所有类型的资产,如果数据可以作为一种产权,这样会极大地激励人们解锁更多的数据,从而真正开启信息革命的大门。综合现有的研究成果,创新地提出并设计了基于区块链的数据共享模型。具体分下面两步实现:

数据上链,即数据确权

在数据块中存储的每条数据不能大于100KB,在用户不愿对数据加密且数据量很小的情况下, 数据摘要部分可以存储数据原文,数据类型可能是一个链接、一段文本、一个小图片或者一小段视频等。当用户希望数据加密或数据文件很大时,解决方案是一边计算数据摘要并将其存储在数据块中,一边将文件加密存储在分布式数据库系统中。

这样做使得数据块中的数据摘要不仅可以对数据进行完整性校验,同时可以作为在数据库中查找数据的索引。其具体步骤如下:

首先,用户提记录请求, 并提交公钥作为标识。

其次,某代表节点接受请求,并广播。

其三,代表节点根据用户公钥将记录添加入数据块。

最后,每隔10分钟将所有新生成的数据块的merkle根锚定到比特币区块链。

数据共享与访问控制

数据所有者将数据加密存储在分布式数据库中,模型采用密码学中代理重加密(Proxy re-encryption)机制来实现对数据的访问控制和共享。因为模型基于区块链技术是一个去中心化的应用场景,没有可信的第三方也就不存在传统重加密场景中的唯一的代理角色。系统中的任何节点都可以充当代理完成重加密的操作,作为报酬可以获得相应的Token。

代理重加密技术实质上是一种用于密文之间的密钥转换机制。在代理重加密系统中,代理者在获得由授权人产生的针对被授权人的转换钥(即代理重加密密钥)后,能够将原本加密给授权人的密文转换为针对被授权人的密文,然后被授权人只需利用自己的私钥就可以解密该转换后的密文。代理重加密能够确保,虽然代理者拥有转换钥,但其无法获取关于密文中对应明文的任何信息。从而实现了授权人和被授权人之间的数据安全共享。

由于使用代理重新加密,未加密的对称密钥(能够解密私有数据)绝不会暴露在服务器端,即使被攻破,黑客也只能得到重新加密的密钥,并且对文件的访问仍然受到保护。


结束语

随着区块链技术的快速发展,这一新兴技术会逐步成为热点研究课题, 本文提出的数据共享模型有助于现有机构的数据中心进行转型,以满足越来越多的数据安全存储、共享等需求。相信数据产权也能够创造更多的机会,产权区块链可以扩展用于所有类型的资产,这也将是第三次革命的到来。