已经开发了几个 R 包,允许您对数据、分析结果等进行断言。但是,我从未见过有人编制有用的检查列表。
是否有任何资源具有清单或其他常见检查清单?
例如,如果您正在分析调查数据,您可能希望按如下方式对数据进行健全性检查:
- 不可能的值:列出医生职业的人是6岁
- 不太可能的相关性:教育水平与收入呈负相关
在做了很多连接之后,你想要验证最终的数据结构:
- 丢失的观察结果:一个数据集以 N = 100,000 开头......附加变量后,N 是否仍等于 100,000?
- 列内不合理的值:空值汇总、异常值检测、最常见值的分布
- 不合理的跨栏关系:一个表有sales引用salesperson,但是salesperson表中不存在salesperson ID
开发预测后,您想检查它们是否有意义:
- 跨群体的不太可能的预测:您按群体平均预测的购买概率,发现非宠物主人比宠物主人更有可能购买宠物食品
等等等等
下面是一些R包,它们可以帮助将这些测试合并到R中……如果我们有一个这些测试应该是什么的清单!
测试
http://journal.r-project.org/archive/2011-1/RJournal_2011-1_Wickham.pdf https://github.com/hadley/testthat
运行
http://cran.r-project.org/web/packages/RUnit/vignettes/RUnit.pdf
斯维尼特
http://cran.r-project.org/web/packages/svUnit/vignettes/svUnit.pdf