我有一个关于方法论的一般性问题。我如何知道匹配合并 (MERGE) 或交错 (SET) 是否更适合组合数据集?如果我有两个相关的数据集,它们似乎包含许多相同的变量(但不是全部),但我不知道所述变量中的信息是否相同,哪个更好?
是否有某种决定哪个更好的一般规则?
谢谢你的建议。
这个问题真的没有很好的答案;“合并”和“交错”之间存在根本区别。花几分钟时间阅读 SAS 概念手册中的示例,尤其是此处。
我认为这是一个非常特定于您的数据以及您想要实现的目标的问题。在您对数据有足够的了解以知道您是否可以组合它们(设置)或想要匹配合并它们之前,您根本不应该组合数据集。不可能有一般规则,因为它仅取决于您的数据 - 如果我有两个数据集
data have_1;
input x y;
datalines;
1 2
2 3
3 4
;;;;
run;
data have_2;
input x y z;
datalines;
1 2 3
2 3 4
3 4 5
;;;;
run;
你可以猜到 have_1 和 have_2 是相同的观察值,只是多了一个变量 z;但它们也很容易成为不同的观察结果。如果我告诉您“x”是唯一标识符,那么您会怀疑这些是相同的记录;但如果我告诉你“x”和“y”是定性特征,那么它们很可能是不同的观察结果,而这些观察结果恰好在定性上相似。
这里的重点:在对数据进行任何操作之前了解您的数据。如果您不知道您的数据,那么您一开始就不应该使用它。