用深度学习进行欺诈检测
正如吴恩达在他关于应用 triplet loss 函数的演讲中指出的那样,在深度学习文献中总是会用到“Net”或者“Deep”这样的取名。所以,本着这种“传统”,我也将本文命名为Fraud Net或者Deep Fraud。
言归正传,我们还是开始讲欺诈检测吧。
图1:包括金融公司常规交易和欺诈交易的图
我们其实关注的是欺诈预测(预防欺诈发生),这个后续我们会说到。今天我们讲,如何把一些先验行为归于二分类目标,换句话说欺诈/非欺诈目标。我们将研究确定某个实体是否进行了交易欺诈的两种方法,第一是使用图的嵌入;第二是使用一些图的Topology Metric。
这里大家可能会有一个疑问,如果交易欺诈已经发生了,那么谁会在乎识别结果?通过学习这篇文章,你会知道这很重要。2015年我曾经提到过,假正(False Positive ,被模型预测为正的负样本)欺诈标签导致了118 billion dollars的损失,而实际欺诈案件的成本为90 亿美元。虽然90亿美元很多,但是只占总成本的7%。所以,准确标记欺诈交易和建立空间站一样重要。
图嵌入——个体欺诈
场景一:提高信用卡欺诈分析工具的准确性。
首先,要将你的数据组织成graph。将个人客户和商家作为节点,并将其财务历史作为节点属性。使用节点属性(比如交易时间戳和交易金额)构建表示这些实体之间金融交易的边。
然后,将graph嵌入到低维空间,这样我们才可以使用较为简单的模型来分析它。为什么不直接将graph data输入到模型中呢?因为几何形状不兼容(你可以通过学习Kipf他们的论文《Semi-Supervised Classification with Graph Convolutional Networks》了解我说的意思)。
正如上面所说,节点表示拥有信用卡的个人客户和与他们交易的商户。注意下面的三维结构,大量的边表示金融交易。这真是一个非常需要嵌入的图。
图2:没有embedding的图,节点是个人客户和商户
边表示金融交易
embedding的策略有很多,我主要介绍两个常见的,一是主成分分析降低维度(PCA);二是通过特征值分解的spectral
embedding(eig)。图3:这是图2经过两种embedding方法后的呈现,蓝色是PCA;橙色是特征值分解。
最后,我们可以构建一个模型,对经过嵌入的graph进行建模就和普通的深度学习建模一样了。这包括了节点(实体),边,还有上述的坐标信息。建一个分类模型,进行训练就好了。
相关的信用卡欺诈检测数据集:http://mlg.ulb.ac.be
关于上述两个方法,也为大家找来了两种方法的详述内容:
The Principal Components Analysis of a Graph, and its Relationships to Spectral Clustering
https://www.info.ucl.ac.be/~pdupont/pdupont/pdf/ecml04.pdf
Spectral embedding of graphs
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.101.2297&rep=rep1&type=pdf
使用 Topology metric——团伙欺诈
场景二: 从大量的交易记录中找出洗钱的团伙。 这个问题比分析单个交易记录更有趣。 这不是看离散样本,而是要分析金融交互。 这也是图真正的魅力所在。
看下图,这是一组在财务上互动的公司。颜色代表他们的“community”,由无监督学习算法确定。任务是分析黄色的公司真的是洗钱团伙的幌子吗?
图4:黄色的公司真的是洗钱团伙的幌子吗?
第一步:将数据定义为图结构;
第二步:构建一个算法,提取感兴趣的子图(上图中的彩色社区),并计算每个社区的Topology metric;Topology metric是描述子图形状的,比如一种流行的Topology metric是边的数量,在黄色的子图中,有25条边。这里有很多何种Topology metric,我们为每个子图计算了几十个;
第三步:为每个子图构建这些topology metric的特征向量,以另一种方式连接节点属性。这里是计算子图中所有节点的平均节点属性;
第四步:构建已知标签的目标向量(或者多分类目标矩阵),然后构建模型训练。
原文链接:https://www.experoinc.com/post/fraud-detection-using-deep-learning-on- graph-embeddings-and-topology-metrics
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: