5

已经开发了几个 R 包,允许您对数据、分析结果等进行断言。但是,我从未见过有人编制有用的检查列表。

是否有任何资源具有清单或其他常见检查清单?

例如,如果您正在分析调查数据,您可能希望按如下方式对数据进行健全性检查:

  • 不可能的值:列出医生职业的人是6岁
  • 不太可能的相关性:教育水平与收入呈负相关

在做了很多连接之后,你想要验证最终的数据结构:

  • 丢失的观察结果:一个数据集以 N = 100,000 开头......附加变量后,N 是否仍等于 100,000?
  • 列内不合理的值:空值汇总、异常值检测、最常见值的分布
  • 不合理的跨栏关系:一个表有sales引用salesperson,但是salesperson表中不存在salesperson ID

开发预测后,您想检查它们是否有意义:

  • 跨群体的不太可能的预测:您按群体平均预测的购买概率,发现非宠物主人比宠物主人更有可能购买宠物食品

等等等等

下面是一些R包,它们可以帮助将这些测试合并到R中……如果我们有一个这些测试应该是什么的清单!


测试

http://journal.r-project.org/archive/2011-1/RJournal_2011-1_Wickham.pdf https://github.com/hadley/testthat

运行

http://cran.r-project.org/web/packages/RUnit/vignettes/RUnit.pdf

斯维尼特

http://cran.r-project.org/web/packages/svUnit/vignettes/svUnit.pdf

4

0 回答 0