0

我有两个以制表符分隔的 CSV 格式的数据文件。文件格式如下:

EP Code    EP Name    Address    Region    ...
101654    Alpha     York Street    Northwest    ...
103628    Beta    5th Avenue    South    ...

EP 代码是唯一的。我想要做的是比较两个文件的 EP 代码,确定不同的行并将它们写入一个新文件。

例如,file1.csv 有 800 行,file2.csv 有 850 行。file2 可以是一个完全包括 file1 加上 50 行的文件;或者它可能是file1 - 10 rows + 60 rows。我想确定两个数据集之间的差异。我对相互的行不感兴趣。

我怎么能在 R 中做到这一点?

4

1 回答 1

3

有很多方法可以做到这一点,包括setdiff, intersect,%in%函数, is.element。只需找到相交集并使用以下命令将其排除!

diff1 <- file1[setdiff(file1$ep.code, file2$ep.code),]

或者

diff2 <- file2[!(intersect(file2$ep.code, file1$ep.code)),]
于 2010-06-28T13:39:26.030 回答