爱吧机器人网 » 技术 > 大数据 > 正文

互联网征信:如何处理数据问题是关键

导读

互联网 征信业务有很多雷区,比如不能采集敏感的个人信息,数据的 安全 与透明度,不同机构间数据的交换难题等。此外,腾讯征信、芝麻信用等公司虽具备大量的用户行为数据,但这些数据与个人的借贷行为关系并不大,因而其建立的模型不一定准确,很难被主流的金融机构引用。

千呼万唤之后,个人征信业务市场终于放开。1月5日,央行发布了《关于做好个人征信业务准备工作的通知》,要求八家机构做好个人征信业务的准备工作,准备时间为六个月。

这八家机构中,最受关注的入局者是蚂蚁金服旗下的“芝麻信用”,以及腾讯旗下的“腾讯征信”。 蚂蚁金服和腾讯也表示,将通过海量的在线 数据分析 ,建立模型来判断用户的信用程度。

事实上,随着 互联网 金融业务的高速发展,个人征信体系的建设显得极为迫切。但需要指出的是,尽管 互联网 征信将极大地丰富传统征信数据,又具有实时性,但该系统的建立仍面临诸多困境。

有业内人士称, 互联网 征信业务有很多雷区,比如不能采集敏感的个人信息,数据的 安全 与透明度,不同机构间数据的交换难题等。此外,腾讯征信、芝麻信用等公司虽具备大量的用户行为数据,但这些数据与个人的借贷行为关系并不大,因而其建立的模型不一定准确,很难被主流的金融机构引用。

眼下,这些征信机构尚没有完整的产品推出,而6个月的准备时间也难有实质性操作。“没有三五年的数据积累和产品开发, 互联网 征信很难有成熟的产品推出。”一位 互联网 金融人士告诉21世纪经济报道记者。

海量数据的烦恼

蚂蚁金服方面称,芝麻信用有着非常广泛的信用数据来源,日数据处理量在30PB以上,相当于5000个国家图书馆的数据总量,其中包含了用户网购、还款、转账以及个人信息等方方面面的数据。通过分析大量的电商交易及行为数据,芝麻信用可以对用户进行信用评估,判断用户的还款意愿及还款能力,继而为用户提供快速授信及现金分期服务。

作为蚂蚁金服的子品牌,芝麻信用体系将包括芝麻分、芝麻认证、风险名单库、芝麻信用报告、芝麻评级等一系列信用产品。

而腾讯的财付通团队早在2年前就开始推进征信业务的探索,帮助用户建立个人信用。据悉,腾讯征信将基于腾讯现有的QQ、微信活跃用户,以及在SNS、门户、娱乐等众多领域的群众基础,通过海量 数据挖掘 和分析技术来预测其风险表现和信用价值。

但是,数据量大并不一定是一件好事,因为数据的筛选和清洗是一个非常枯燥复杂的过程。况且,数据量越大,审核维度越多,由此带来的“数据噪音”也越多,模型越失真。

在P2P平台“点融网”共同创始人、联合CEO郭宇航看来,海量的网络数据意味着 互联网 征信机构一是得找到技术非常强的牛人,二是要不断地试错。

“美国征信公司FICO针对个人采集了100多个数据维度,但真正纳入征信模型的只有十几个维度。这其中也是经历了大量的分析运算。”郭宇航称。

此外,在信息采集的过程中,这些民间征信机构又会面临诸多限制。

出于对信息 安全 的保护,2013年1月出台的《征信管理条例》,对个人信息的采集做了明确的限制:比如禁止征信机构采集个人的宗教信仰、基因、指纹、血型、疾病和病史信息以及法律、行政法规规定禁止采集的其他个人信息。那么,如何在法律许可的范围内,尽量掌握每个用户完善、丰富的数据信息,又不侵犯用户隐私,就变得非常重要。

在郭宇航眼里,法律禁止采集的数据恰恰是能反映个人信用的比较关键的数据,这意味着,腾讯征信、芝麻信用等公司必须在大量的“边缘化”数据的基础上,通过反复比对和计算,找出一定的规律。

而在隐私保护层面,蚂蚁金服相关人士向记者称,公司在处理用户数据时会先进行“脱敏”处理,即将数据清洗、加工后再使用。“我们在搜集用户数据前会先得到用户的授权,并且对于那些电话、地址等敏感信息,也绝对不会透露出去。”此外,在数据存储中,蚂蚁金服也会对数据进行加密处理,并根据数据的重要程度采取不同的存储方式。

实际上,民营征信机构眼下在用户隐私问题上,面临的压力还不大。郭宇航坦言,在中国,针对隐私的保护很弱,在 互联网 金融领域更是对隐私缺乏实质性的管理。另一厢,一些90后的年轻人本身对隐私的泄露也不是很在意,一些年轻人为了一些优惠券,就能轻易地把自己的手机号、身份证号泄露出去。郭宇航甚至听说有的用户会将信用卡号和密码提供给一个小型APP,只是为了让这个软件为其做账单的整合。

“当用户自己都不介意隐私的时候,又谈何隐私保护呢?”他反问道。

数据的短板

值得一提的是,民营企业开展的个人征信业务能否顺利对接央行信用报告的核心数据(如工资收入、社保记录、信用卡记录、贷款记录等),还存在很多不确定性。此前,许多P2P平台就是由于无法对接央行信用数据,而不得不亲力亲为地做征信。眼下,腾讯等企业在一定程度上与银行有竞争关系,要将核心数据共享给竞争对手,对银行来说并不容易。

假使腾讯征信、芝麻信用等企业拿不到央行的核心数据,那么其信用报告便不太可能被主流的金融机构所引用。由于缺乏金融数据,腾讯等民营机构必须不断地试错,再用自己体系内的数据慢慢替代传统的金融数据。而这一过程,通常需要三五年之久。

以P2P为例,一个信贷周期通常需要1.5-3年,换言之,要摸清用户的还款情况,民营征信机构必须等上一年半以上。这一结果还需要反复验证。

况且,央行本身的数据也不完整。目前,我国提供个人征信服务的“正规军”只有央行征信中心及其下属的上海资信公司。截至2014年10月底,征信系统收录1963万户企业及其他组织和8.5亿自然人信用信息。值得一提的是,有征信记录的个人大多是与银行有业务往来的优质客户,而腾讯等公司的用户中,有相当多是在央行征信范围之外的,即“草根”用户。换言之,央行的征信系统也无法覆盖主流用户之外的个人的信用情况,腾讯等公司仍需要亲自摸索。

上一页12下一页

上一篇:埃博拉病毒——大数据时代的疫情防控
下一篇:大数据的未来之路
精选推荐
麻省理工最新机器人“装配工”未来可建造太空基地
麻省理工最新机器人“装配工”未来可建造太空基地

[2019-10-17]  两个机器人原型把一系列小单元组装成大结构体麻省理工学院科研人员最近提出一种新型机器人技术,即一种小型机器人系统,能够自主地用统一规 ...

亚马逊CEO杰夫·贝佐斯操控巨型有人驾驶机器人(巨型机甲)
亚马逊CEO杰夫·贝佐斯操控巨型有人驾驶机器人(巨型机甲)

[2017-03-21]  近日,亚马逊CEO杰夫·贝佐斯实现了每一个6岁儿童都会有的梦想,他控制了一个巨大的机甲机器人。据国外媒体Verge报道,前天(3月19日),贝 ...

2023年服务机器人市场将超过250亿美元
2023年服务机器人市场将超过250亿美元

[2017-09-04]  全球服务机器人市场预计到2023年将达到250亿美元, 并在预测期内登记15% 的复合年增长率。短期中期回收期和投资回报率高 (ROI), 以及在教育和研究、临场感、防御、救援和安......

瑞士研发出微型机器人集群 可像蚂蚁一样互相交流并协同工作
瑞士研发出微型机器人集群 可像蚂蚁一样互相交流并协同工作

[2019-07-12]  EPFL(瑞士联邦理工学院)的研究人员受到了蚂蚁的启发,开发了一款仅有10克重的小型机器人:他们可以相互交流,分配角色并完成复杂的任务。 ...

MIT用深度学习处理3D点云数据 应用于无人汽车等领域
MIT用深度学习处理3D点云数据 应用于无人汽车等领域

[2019-10-23]  如果你见过自动驾驶汽车,也许会对车顶上那个一直在旋转的圆柱体感到好奇。这是一个雷达传感器,无人驾驶汽车依靠它在现实世界中进行导航。 ...

机器人iCub作为嵌入式AI的标准机器人研究平台的重要性
机器人iCub作为嵌入式AI的标准机器人研究平台的重要性

[2017-12-24]  机器人的研究在过去10年中得益于一个具有嵌入式人工智能(AI)的标准化开源平台——人形机器人iCub。iCub最初在意大利被创建,如今在欧洲、美国、韩国、新加坡和日本的实验室......

农业将为高科技行业 农业机器人的应用领域
农业将为高科技行业 农业机器人的应用领域

[2017-12-17]  农业正在迅速成为一个令人兴奋的高科技产业,吸引了新专业人士,新公司和新投资者。技术发展迅速,不仅提高了农民的生产能力,而且促进了我们所知道的机器人和自动化技术的发展。...

一个让深度学习惨败的通用人工智能领域——语境处理
一个让深度学习惨败的通用人工智能领域——语境处理

[2019-11-04]  Context是指用来解释一段给定文本或语句的来源框架,我们可以翻译为上下文或语境。维基百科将context定义为:*在符号学、语言学、社会学和 ...

本周栏目热点

做为一名大数据新手 应该通过这篇文章了解大数据

[2018-07-23]  一、大数据是什么?大数据,big data,《大数据》一书对大数据这么定义,大数据是指不能用随机分析法(抽样调查)这样捷径,而采用所有数据进 ...

BAT大数据野心:数据生产全链条浮现

[2016-07-12]   本报记者 周慧 北京报道导读以BAT为代表的中国 互联网 企业,在数据领域各有千秋,百度的搜索数据、阿里的电商数据、腾讯的社交数 ...

为什么说发展大数据是有道理的

[1970-01-01]   近日,习主席考察贵州时提到:贵州发展大数据确实有道理。那么为什么说发展大数据是有道理的?从历史的 ...

《时代周刊》:用形象化的老办法对付大数据

[1970-01-01]   《时代周刊》最新一期封面文章称,我们每天被数据海洋淹没,只有让冷冰冰的数据形象化,变成看得见摸得 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...