1

我正在出于学术目的对欺诈检测进行一些研究。我想具体了解交易数据集中的特征选择\工程技术。更详细地说,给定交易数据集(例如信用卡),选择什么样的特征用于模型以及它们是如何设计的?

我遇到的所有论文都集中在模型本身(SVM、NN、...)上,并没有真正涉及到这个主题。

此外,如果有人知道未匿名的公共数据集,那也会有所帮助。

谢谢

4

1 回答 1

1

对特征选择/排序有很好的理解对于数据科学家或机器学习从业者来说是一笔巨大的财富。对这些方法的良好掌握会导致更好的模型执行,更好地理解数据的底层结构和特征,并导致对许多机器学习模型基础的算法有更好的直觉。

使用特征选择的原因一般有两个: 1. 减少特征数量,减少过拟合,提高模型的泛化能力。2. 更好地理解特征及其与响应变量的关系。

可能的方法:

单变量特征选择:

  • 皮尔逊相关
  • 互信息和最大信息系数(MIC)
  • 距离相关
  • 基于模型的排名

基于树的方法:

  • 随机森林特征重要性(平均减少杂质,平均减少准确率)

其他

  • 稳定性选择
  • 射频前端
于 2018-05-14T14:20:06.783 回答