r - 管理包中敏感数据的最佳方法是什么？

问问题 2015-10-25T16:35:18.217

442 次

R CMD check我使用医疗数据，更喜欢在包环境中开发分析，利用testthat和devtools.

典型的分析将从从数据库中提取数据开始（通常有很长的连接和很多行，所以这不是一个简单的步骤）。

我的主要目标是保护健康信息，同时实现可重复的分析。尽管我可以对数据进行去识别化，但我仍然担心存在许多潜在的识别信息，即使它已被正式去识别化。因此，我甚至会非常小心地处理去识别化的数据。每次分析的数据约为 100 到 500Mb。

将数据放在data包中的目录中似乎是最糟糕的解决方案：数据很大，导致包创建缓慢；它是静态的，当查询随着时间的推移而变化时；并且当我不想传输受保护的数据时，仅共享代码变得更加困难。

我已经尝试过R.cache,和在 markdown 文档中memoise使用缓存块。knitr

R.cache现在看起来最好，但会在主目录中转储大量名称不明的数据。memoise不够灵活，并且对于临时缓存计算而不是数据库查询似乎要好得多。knitr缓存适用于降价，但不适用于直接交互式 R 使用。

对于具有中等大量受保护数据的基于打包的分析，是否有人有任何其他建议或建议？

0 回答 0