python - Python 欺诈检测分类算法

Question

我正在研究信用卡欺诈检测模型，并已标记包含在线商店订单的数据。我正在使用的列是：客户全名、送货地址和账单地址（城市、州、邮编、街道）、订单数量、总成本以及订单是否被发现存在欺诈的指标。

问题在于 98% 以上的交易不是欺诈性的——数据集高度不平衡。我知道这是一个分类问题，但是我不确定从我正在使用的列和数据的不平衡从哪里开始。

对于此用例以及如何处理不平衡数据，我将不胜感激任何适当的分类算法的建议。在搜索如何解决这个问题时，我发现了几篇文章，但是大多数文章都在使用具有非常不同列的 Kaggle 数据集（由于不允许公开信息的安全原因）。

谢谢！

score 2 · Accepted Answer

在我看来，处理反欺诈案件的不平衡数据集有两个方向：

如果您使用有监督的 ML 算法（例如Logistic regression、Random forest、Gradient Boosted Trees），那么您需要应用一个或多个技巧：

在训练 ML 模型之前：
- 过采样 -在包中添加更多少数类的样本：RandomOverSampler，SMOTE（生成合成样本）方法imblearn
- 欠采样 -删除多数类的一些观察：包中的RandomUnderSampler方法imblearn
- 结合过采样和欠采样方法。
在训练 ML 模型时：
- 在训练模型方法中传递weights参数（为次要类样本设置更高的权重）。
训练 ML 模型后：
- 不用于accuracy估计训练好的模型
- 使用recall, precision, F1 score, or/and AUC PR(precision-recall curve ) 进行稳健的模型评估。

无监督算法不需要labelin 数据集。这就是为什么不存在不平衡类问题的原因。

但与基于 SL 的模型不同，基于 UL 的模型没有预测作为输出。您需要额外的操作来解释基于 UL 的模型的输出。

以下算法很可能会有用：

异常检测方法：
- One-class SVM
- 隔离林或iForest
- Local Outlier Factor
神经网络方法：
- 基于自动编码器的网络，例如AE，VAE
- DBN或深度信念网络，
- GAN或生成对抗网络
- Self-organized Maps.

score 1 · Accepted Answer

我建议阅读这些文章：

根据我的经验，xgboost 非常好。但是你应该有非常好的特性，它可以构建好的树

2 回答 2