4

R CMD check我使用医疗数据,更喜欢在包环境中开发分析,利用testthatdevtools.

典型的分析将从从数据库中提取数据开始(通常有很长的连接和很多行,所以这不是一个简单的步骤)。

我的主要目标是保护健康信息,同时实现可重复的分析。尽管我可以对数据进行去识别化,但我仍然担心存在许多潜在的识别信息,即使它已被正式去识别化。因此,我甚至会非常小心地处理去识别化的数据。每次分析的数据约为 100 到 500Mb。

将数据放在data包中的目录中似乎是最糟糕的解决方案:数据很大,导致包创建缓慢;它是静态的,当查询随着时间的推移而变化时;并且当我不想传输受保护的数据时,仅共享代码变得更加困难。

我已经尝试过R.cache,和在 markdown 文档中memoise使用缓存块。knitr

R.cache现在看起来最好,但会在主目录中转储大量名称不明的数据。memoise不够灵活,并且对于临时缓存计算而不是数据库查询似乎要好得多。knitr缓存适用于降价,但不适用于直接交互式 R 使用。

对于具有中等大量受保护数据的基于打包的分析,是否有人有任何其他建议或建议?

4

0 回答 0