0

我有一个包含大约一百万行类别的文件。有些是相同的,有些是不同的。我想知道每个有多少。我要做的是:

data<-read.table('Rtest2.txt', header=TRUE, sep='\t')
Warning message:
In scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,  :
  EOF within quoted string

attach(data)
leaf_count=data[,1]

table(leaf_count) 

然而,结果只是所有不同类别的一小部分。它上升到第 426 类(大约 170,000 个),仅此而已。R有一些限制还是我做错了什么?

山姆

4

1 回答 1

0

如果您的数据在 a 中data.frame并且您想找出重复的行数,我建议aggregate在此示例中使用:

> d <- data.frame(a=c(1,1,1,2), b=c("A","A","B","C"))
> d
  a b
1 1 A
2 1 A
3 1 B
4 2 C
> aggregate(1:nrow(d), by=d, FUN=length)
  a b x
1 1 A 2
2 1 B 1
3 2 C 1

要删除单行中的重复项,请使用以下命令:

> unique(d$a)
[1] 1 2

> unique(d$b)
[1] A B C
Levels: A B C

如果只有几列定义了一个类别(比如,ab),使用这个:

result <- aggregate(1:nrow(d), by=list(a=d$a, b=d$b), FUN=length)
于 2013-06-17T16:54:23.627 回答