互联网大数据征信模式及存在问题研究(6)

3.个人隐私被泄露由谁承担责任
网上什么人都有，网络背后谁知是人是狗。大数据处理技术越进步，也就意着我们每一个人在网上会成为一个360度无死角的人，我们的一举一动都会被获悉，我们也就毫无隐私可言。征信机构在数据采集、存储、利用的过程中都有可能泄露隐私，而一旦隐私泄露，我们很难确定是在哪个环节被泄露，也很难确定是谁的责任，由谁负责。所以央行在个人征信上一直非常谨慎，就是出于对隐私的保护。
（三）征信机构的独立性
大数据征信机构多是从互联网企业发展起来。这些互联网企业拥有海量的用户数据，本身就有从事征信行业的优势，但也存在一个问题。他们既生产数据，又评估数据，还使用数据，不符合“独立第三方”的规则，会影响征信产品的公正性和独立性。例如芝麻分可用在租赁、订酒店、分期消费等场景，但其数据主要从阿里系得到，这就意着个人要想获得高芝麻分，必须与阿里生态圈里产生更多的联系，比如加芝麻分高的人为好友，使用支付宝缴纳水电煤气费，使用花呗分期购物等。相较而言，央行的征信系统则完全独立于信贷交易双方，具有中央银行的公信力，而且不以盈利为目的。
（四）征信机构之间缺乏信息共享
大数据时代，得数据者得天下。每一家征信机构都有自己获得数据的途径，比如芝麻信用依托于阿里系，腾讯征信依托于腾讯集团，华道征信依托于新奥能源和亿美软通等，各家征信机构掌握着各自行业的大数据。由于我国活跃在市场上的征信机构的信用数据不能公开收集，在利益的驱使下，各征信机构往往不会把收集到的数据与其他征信机构共享。企业的垄断会使行业内信息不能交流汇总，缺乏信息的透明度，各家征信机构之间是不合作的，各个征信机构所收集的信息只会在内部使用，是排外的。即使有行业内的数据互换，比如银湖网、手机贷等与芝麻信用达成数据互换协议，向芝麻信用提供自身的网贷数据。但这也只是少数企业之间的信息交流，不能达到完全信息共享所带来的效益。信息共享机制落后，导致他们在某些领域重复征信，并且这种商业化的行为也导致各家征信机构所收集的数据都不是完整的，使用这些数据进行评估得到的结果不会全面客观地反映征信主体的信用资质，不能准确预测个人是否存在信用风险。
五、建议
（一）提高大数据处理技术
大数据征信最基础的就是数据和技术能力。海量的数据对云计算和大数据数据库的要求非常高。从数据类型的角度来看，传统的数据库是行列数据，即表格的形式。而大数据时代，很多数据是文本的形式反馈回来的，要求进行非结构化数据、文本分析，并且最后能够用一个人的ID把数据连起来，进行数据入库，我们才能知道这些数据是哪个人的。因此传统的逻辑回归运算对于大数据的解释度不高，我们还需要用深度学习和机器学习的方法。再者，从变量特征的角度来看，传统的强相关变量特征显示一个人的信用历史越长，相应的信用风险就越低，信用度就越高，单调性非常明显。但现在变量和变量之间的关系已经不那么明显，所以需要深度挖掘变量的动件，把变量叠加在一起，实现弱加弱等于强的效果。总而言之，实时数据的云计算对征信机构的基本功有严格的要求，如果大数据处理技术不能满足需求，整个框架或者理论都会成为空中楼阁。因此，征信机构必须协同多种技术，引进专业的大数据处理方法和工具，建立更优的分析模型。同时征信机构还有加大对数据处理分析团队的培养，打造一支专业化、复合型的大数据分析团队。互联网大数据征信模式及存在问题研究(6):http://www.youerw.com/guanli/lunwen_1022.html