为了复制,我喜欢为每个数据帧保留一个包含元数据的码本。数据码本是:
一个书面或计算机化的列表,对将包含在数据库中的变量提供清晰和全面的描述。 Marczyk 等人(2010 年)
我喜欢记录变量的以下属性:
- 姓名
- 描述(标签、格式、比例等)
- 来源(例如世界银行)
- 源媒体(网址和访问日期、CD 和 ISBN,或其他)
- 磁盘上源数据的文件名(有助于合并码本)
- 笔记
例如,这是我正在实施的记录数据框mydata1中的变量的方法,其中包含 8 个变量:
code.book.mydata1 <- data.frame(variable.name=c(names(mydata1)),
label=c("Label 1",
"State name",
"Personal identifier",
"Income per capita, thousand of US$, constant year 2000 prices",
"Unique id",
"Calendar year",
"blah",
"bah"),
source=rep("unknown",length(mydata1)),
source_media=rep("unknown",length(mydata1)),
filename = rep("unknown",length(mydata1)),
notes = rep("unknown",length(mydata1))
)
我为我阅读的每个数据集编写了不同的密码本。当我合并数据帧时,我还将合并其相关代码本的相关方面,以记录最终数据库。我通过基本上复制粘贴上面的代码并更改参数来做到这一点。