我有一个输入文件,其中包含约 50000 个集群的列表,并且每个集群中都存在许多因素(总共约 1000 万个条目),请参见下面的较小示例:
set.seed(1)
x = paste("cluster-",sample(c(1:100),500,replace=TRUE),sep="")
y = c(
paste("factor-",sample(c(letters[1:3]),300, replace=TRUE),sep=""),
paste("factor-",sample(c(letters[1]),100, replace=TRUE),sep=""),
paste("factor-",sample(c(letters[2]),50, replace=TRUE),sep=""),
paste("factor-",sample(c(letters[3]),50, replace=TRUE),sep="")
)
data = data.frame(cluster=x,factor=y)
在另一个问题的帮助下,我得到了一个饼图,用于同时出现以下因素:
counts = with(data, table(tapply(factor, cluster, function(x) paste(as.character(sort(unique(x))), collapse='+'))))
pie(counts[counts>1])
但现在我想有一个因素共现的维恩图。理想情况下,也可以采用每个因素的最小计数阈值的方式。例如,不同因素的维恩图使得它们中的每一个都必须在每个集群中出现 n>10 才能被考虑在内。
我试图找到一种方法来使用聚合生成表计数,但无法使其工作。