在 RDBMS 系统和其他数据库系统之前,我接触了 R 中的表和数据结构的世界。在 R/Python 中,从结构化数据(.csv 或其他格式)创建表格和列表,然后以编程方式进行数据操作是非常优雅的。
去年,我参加了数据库管理课程,学习了结构化和非结构化数据库的所有知识。我还注意到,将来自多个数据源的数据输入数据库而不是直接在 R 中使用它们是常态(为了方便和纪律?)。
出于研究目的,R 似乎足以用于连接、附加甚至复杂的数据操作。
不断出现的问题是:什么时候通过read.csv等命令直接使用R,什么时候通过使用R-SQL接口创建数据库和从表中查询来使用R?
例如,如果我有一个多源数据,例如(a)个人信息(年龄、性别、吸烟习惯),(b)结果变量(例如他们实时进行的调查),(c)协变量信息(环境特征),(d)治疗输入(改变结果的事件的发生 - 调查响应)(d)参加调查的参与者的时间和空间信息
在这种情况下如何处理数据收集和处理。可能有标准的行业程序,但我在这里提出这个问题,以了解个人和一小群研究人员可以采用的可行和最佳方法的列表。