机器学习和大数据——提高信用卡安全性

我是walle · 发表于 2016-1-22 05:46:48

机器学习和大数据——提高信用卡安全性

日期：2016-01-21
　　Intetix Foundation(英明泰思基金会)由从事数据科学、非营利组织和公共政策研究的中国学者发起成立，致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家，以及分布在全球的志愿者，我们创造性地践行着我们的使命：为美好生活洞见数据价值。

　　当你在家却接到信用卡检测中心的电话询问你刚刚是否在某个商场完成支付，而事实上这个时间段你根本没有出门，更别说买什么昂贵的电器，那么银行是怎么知道这可能是笔欺诈性交易呢?
　　正确分辨每笔商业交易的合法性对信用卡公司的利益影响巨大。美联储支付研究数据表明，2012年美国公民信用卡交易额达到262亿美元。而同年由于未予授权的交易所产生的损失大约为61亿美元。联邦公平信用结账法将持卡人的未授权交易责任限制在50美元,剩余损失由信用卡公司负责。由此可见，欺诈性支付对信用卡公司盈亏的巨大影响。然而，尽管每年信用卡使用点都会接受严格的安全审查，仍无法真正杜绝信用卡欺诈。
　　对银行业来说，风险评估起着至关重要的作用。其总目标是在造成巨大损失前，快速地判断其是否为欺诈性质。但如何做到这一点?银行又如何辨别信用卡盗刷呢?
　　提高检测能力
　　因欺诈性支付过程的瞬间性，有效的反欺诈从客户视角看来非常神奇的。这看似简单且快速的检测其实暗含了一系列复杂的技术,涉及财经,法律及信息科学。
　　当然，也有一些相对简单的检测机制，无需太过先进的技术。例如，当信用卡在非常用地区使用时，无法提供其正确的邮政编码将被视为欺诈的指示之一。但得知受害人的邮编十分容易，通常诈骗犯都能够轻易躲过这一常规检查。
　　在过去，反欺诈支付所需的数据分析技术要求大量的人力投入。通过电脑算法发现的可疑案例，最终都需经过人工确认。现如今，过于庞大的交易数量使得信用卡公司更需依赖于大数据分析。机器学习和云计算等先进技术将提高检测欺诈支付的准确性。
　　通过机器学习判断是否为欺诈
　　简单来说,机器学习由计算机操控，通过符合特殊规则的预设过程且能自我完善的算法。计算机会先从一个模型开始，然后通过实验和犯错来训练它。之后它就可以做出风险预测，例如预测金融交易相关的风险。
　　检测欺诈的机器学习算法首先需用大量持卡人的正常交易数据来训练。交易序列就是这种训练数据的一个例子，如一个人通常每周加一次油,每两周去一次超市购物等等。该算法学习到这是一个正常的交易序列。
　　这种微调过程后,我们就可以通过运行算法检测信用卡交易,理想情况下能达到实时状态。然后算出一个概率指示交易被欺诈的可能性(例如,97%)。如果将欺诈检测系统设定为阻止任何欺诈概率高于95%的交易,这个评估可以在交易发生时立即引发信用卡冻结。
　　算法考虑了许多因素来限定欺诈交易:商家的诚信值,持卡人的购买行为(包括时间和地点),IP地址,等。数据点越多,结果越精确。
　　没有人可以在分析成千上万的数据的同时做出判断，但机器学习可以，它使实时检测欺诈行为成为可能。
　　举一个典型的例子，当你在超市结账刷卡时，信用卡公司将会得到具体交易细节,如时间、数额、商店名与信用卡的年限。这些数据会被提供给已学习你的采购模式的算法，通过与许多过去的采购数据点比对来分析此项交易是否符合你的行为习惯。
　　在你的信用卡被使用时，无论你是身处每周六早晨都会去的餐厅，还是凌晨3点在两个时区外的加油站，算法都会立即知道你在交易，并检查你的交易行为是否正常。如果信用卡突然在同一天超额预付两次，而在历史数据中没有这样使用过的数据,这种行为将提高欺诈概率的评分。如果交易欺诈分值高于某个阈值,通常快速人工审核后,算法将与销售点系统联系让它拒绝交易。网上购物也会经过相同的流程。
　　在这种类型的系统中,大量人工干预成为过去的事。事实上,如果一个人过于参与欺诈监测周期，那么反应时间会变得更长。然而,人工仍然可以发挥作用——验证欺诈或跟踪被拒绝的交易。当一张卡被多次拒绝交易时,工作人员可以致电持卡人，以决定是否永久取消该卡。
　　在云端的电脑侦探
　　大量需处理的金融交易是一个很重的负担,特别是在大数据领域。但机器学习就是建立在堆积如山的数据上的,更多的信息会增加算法的准确性,帮助消除误报。合法的交易也会引发的可疑交易的误报,(例如,一个卡在一个不常使用的位置)。太多的警报和没有警报一样糟糕。
　　这样庞大的数据需要大量的计算能力。例如,贝宝(Paypal)无时无刻都在为其1.69亿的客户处理超过1.1 pb的数据。这些大量的数据——1 pb相当于超过20万张dvd的内存——这对算法的机器学习有积极影响,但也会对一个组织的计算基础设施产生很大负担。
　　这时就需要云计算了。远程计算资源可以在这里发挥着重要的作用。云计算是可伸缩的,而不会受限于公司自己的计算能力。
　　欺诈检测是“正义”与“邪恶”之间的军备竞赛。目前,“正义”一方似乎取得很大进展,在技术芯片等方面取得创新,同时还结合加密功能,机器学习,大数据。当然,还有云计算。
　　而骗子肯定会继续试图取胜和挑战欺诈检测系统的极限。剧烈变化的支付模式本身是另一个障碍。你的手机现在能够存储信用卡信息,可以用来无线支付，而这将会引入新的漏洞。幸运的是,目前的欺诈检测技术并不受制于支付系统技术。

　　参与人员：策划-徐睿艺;编译-林文玲、刘年华 ;编辑-张璇 ;

422937495 · 发表于 2016-1-22 09:29:09

在欺诈行为上，机器学习对离群点，或者说“远离支持向量的向量”识别的还是不错的，但是接近临界点的分类往往还缺乏精度。换句话说，对于那种欺诈很明显的行为，识别率很好，但对那种可能是可能不是的效果很不理想。

morinson · 发表于 2016-1-22 10:54:42

那么可否考虑先用其进行一次识别，圈出一个疑是范围。然后再用其它方法对上面的结果二次处理----即进阶处理思路

422937495 · 发表于 2016-1-22 13:31:13

morinson 发表于 2016-1-22 10:54
那么可否考虑先用其进行一次识别，圈出一个疑是范围。然后再用其它方法对上面的结果二次处理----即进阶处理 ...

目前确实是这么处理的，但是如何选择二次处理的方法是比较难做的。这里的“欺诈”和“非欺诈”是有偏的，非欺诈的行为相比较欺诈的行为重要的多，所以“错误的把非欺诈行为分类到欺诈行为”要比“错误的把欺诈行为分类到非欺诈行为”更有意义，在这个时候，大部分企业都会采用人工去确认分类是否准确的。

morinson · 发表于 2016-1-22 14:02:35

422937495 发表于 2016-1-22 13:31
目前确实是这么处理的，但是如何选择二次处理的方法是比较难做的。这里的“欺诈”和“非欺诈”是有偏的， ...

确实。

特别是一些远期欺诈目标在初期的掩盖性动作时，一旦分类错误，其反击更加厉害。很多欺诈都具有很强的掩盖性，比如模拟普通人正常轨迹。

就像百度贴吧里，成批的机器号发水帖........

我是walle · 发表于 2016-2-3 13:14:16

morinson 发表于 2016-1-22 14:02
确实。

特别是一些远期欺诈目标在初期的掩盖性动作时，一旦分类错误，其反击更加厉害。很多欺诈都具有 ...

这种模仿正常人的现象，应该没有办法分辨。

morinson · 发表于 2016-2-4 16:30:45

		自动登录	找回密码
密码			立即注册

机器学习和大数据——提高信用卡安全性

站长推荐 /1