R CMD check
我使用医疗数据,更喜欢在包环境中开发分析,利用testthat
和devtools
.
典型的分析将从从数据库中提取数据开始(通常有很长的连接和很多行,所以这不是一个简单的步骤)。
我的主要目标是保护健康信息,同时实现可重复的分析。尽管我可以对数据进行去识别化,但我仍然担心存在许多潜在的识别信息,即使它已被正式去识别化。因此,我甚至会非常小心地处理去识别化的数据。每次分析的数据约为 100 到 500Mb。
将数据放在data
包中的目录中似乎是最糟糕的解决方案:数据很大,导致包创建缓慢;它是静态的,当查询随着时间的推移而变化时;并且当我不想传输受保护的数据时,仅共享代码变得更加困难。
我已经尝试过R.cache
,和在 markdown 文档中memoise
使用缓存块。knitr
R.cache
现在看起来最好,但会在主目录中转储大量名称不明的数据。memoise
不够灵活,并且对于临时缓存计算而不是数据库查询似乎要好得多。knitr
缓存适用于降价,但不适用于直接交互式 R 使用。
对于具有中等大量受保护数据的基于打包的分析,是否有人有任何其他建议或建议?