1

这是我的问题描述:

“根据家庭收入和财富调查,我们需要找出收入和支出最多的前 10% 的家庭。但是,我们知道这些收集到的数据不可靠,因为存在许多错误陈述。尽管存在这些错误陈述,但我们有数据集中的一些特征当然是可靠的。但这些特定特征只是每个家庭财富信息的一小部分。

不可靠的数据意味着家庭对政府撒谎。这些家庭为了不公平地获得更多的政府服务而虚报他们的收入和财富。因此,原始数据中的这些欺诈性陈述将导致不正确的结果和模式。

现在,我有以下问题:

  • 我们应该如何处理数据科学中的不可靠数据?
  • 有没有办法找出这些错误陈述,然后使用机器学习算法更准确地报告前 10% 的富人?- 我们如何评估我们在这项研究中的错误?既然我们有未标记的数据集,我应该寻找标记技术吗?或者,我应该使用无监督的方法吗?或者,我应该使用半监督学习方法吗?
  • 机器学习中是否有任何想法或应用试图提高收集数据的质量?

请向我介绍任何可以帮助我解决此问题的想法或参考资料。

提前致谢。

4

1 回答 1

5

问:我们应该如何处理数据科学中的不可靠数据

A:使用特征工程来修复不可靠的数据(对不可靠的数据进行一些转换以使其可靠)或完全删除它们 - 不良特征可能会显着降低模型的质量

问:有没有办法找出这些错误陈述,然后使用机器学习算法更准确地报告前 10% 的富人?

A:机器学习算法不是魔术棒,除非你告诉他们你在找什么,否则他们什么都猜不出来。你能描述一下“不可靠”是什么意思吗?如果是的话,正如我所提到的,您可以使用特征工程或编写修复数据的代码。否则,没有任何 ML 算法能够帮助你,没有你想要达到的目标的描述

问:机器学习中是否有任何想法或应用试图提高收集数据的质量?

答:我不这么认为,因为这个问题本身就太开放了。什么是“数据质量”?

通常,您需要考虑以下几点:

1) 花一些时间在谷歌上搜索特征工程指南。它们涵盖了如何为您的 ML 算法准备数据、改进数据、修复数据。具有良好特征的良好数据可显着提高结果。

2)您不需要使用原始数据中的所有特征。原始数据集的一些特征是没有意义的,你不需要使用它们。尝试在您的数据集上运行来自 scikit-learn 的梯度增强机器或随机森林分类器以执行分类(或回归,如果您进行回归)。这些算法还评估原始数据集的每个特征的重要性。部分特征对分类的重要性极低,因此您可能希望将它们完全删除,或者尝试以某种方式将不重要的特征组合在一起以产生更重要的东西。

于 2015-06-23T12:44:28.963 回答