这是我的问题描述:
“根据家庭收入和财富调查,我们需要找出收入和支出最多的前 10% 的家庭。但是,我们知道这些收集到的数据不可靠,因为存在许多错误陈述。尽管存在这些错误陈述,但我们有数据集中的一些特征当然是可靠的。但这些特定特征只是每个家庭财富信息的一小部分。
不可靠的数据意味着家庭对政府撒谎。这些家庭为了不公平地获得更多的政府服务而虚报他们的收入和财富。因此,原始数据中的这些欺诈性陈述将导致不正确的结果和模式。
现在,我有以下问题:
- 我们应该如何处理数据科学中的不可靠数据?
- 有没有办法找出这些错误陈述,然后使用机器学习算法更准确地报告前 10% 的富人?- 我们如何评估我们在这项研究中的错误?既然我们有未标记的数据集,我应该寻找标记技术吗?或者,我应该使用无监督的方法吗?或者,我应该使用半监督学习方法吗?
- 机器学习中是否有任何想法或应用试图提高收集数据的质量?
请向我介绍任何可以帮助我解决此问题的想法或参考资料。
提前致谢。