2

可能重复:
统计分析和报告撰写的工作流程

我用 R 编程的时间不长,但遇到了一个项目组织问题,我希望有人能给我一些提示。我发现我所做的很多分析都是临时性的:也就是说,我运行一些东西,考虑结果,然后再运行一些。这在概念上与 C++ 之类的语言不同,在这种语言中,您在编码之前考虑要运行的全部内容。这是解释语言的巨大优势。但是,出现的问题是我最终保存了很多 .RData 文件,因此我不必source每次都使用我的脚本。有没有人对如何组织我的项目有任何好主意,以便我可以在一个月后返回它并很好地了解每个文件与什么相关联?

我猜这是一个文档问题。我是否应该在每个阶段都记录我的整个项目,并积极清理不再需要但作为研究副产品的文件?这是我目前的系统,但有点麻烦。还有其他人有其他建议吗?

根据下面的评论:我要避免的关键事情之一是 .R 分析文件和随之而来的 .RData 集的扩散。

4

2 回答 2

2

我的分析是一个knitr文档,其中包含一些从中调用的外部 .R 文件。

所有数据都在数据库中,但在我的分析过程中,处理过的数据保存为 .RData 文件。只有当我删除 RData 时,当我再次运行分析时,它们才会从数据库中重新创建。有点像缓存,当我重新运行(部分)我的分析时,可以节省数据库访问和数据处理时间。

使用knitrSweave等)文档进行分析使您能够轻松编写包含结果的文档化工作流程。并且 knitr 缓存分析的结果,因此小的更改通常不会导致所有 R 代码的完全重新运行,而只会导致一小部分。为更大的分析节省了相当多的运行时间。

(啊,如前所述:使用版本控制。另一个提示:使用 knitr 和版本控制在 RStudio 中非常容易。)

于 2012-10-24T10:12:47.463 回答
2

关于研究项目组织的一些想法在这里:

http://software-carpentry.org/4_0/data/mgmt/

带回家的信息是:

  • 为您的程序使用版本控制
  • 使用合理的目录名称
  • 对元数据使用版本控制
  • 真的,版本控制是一件好事。
于 2012-10-23T22:12:08.510 回答