4

我正在尝试组织我的 ggplot 散点图的标签,以便标签不会相互重叠。为此,我正在尝试使用直接标签库,但我无法让它工作。当我尝试代码时:

mytable <- read.csv('http://www.fileden.com/files/2012/12/10/3375236/My%20Documents/CF1_deNovoAssembly.csv', sep=",",  header=TRUE)

mytable$Consensus.length <- log(mytable$Consensus.length)

mytable$Average.coverage <-log(mytable$Average.coverage)

mytable$Name <- do.call(rbind,strsplit(as.character(mytable$Name), " ", '['))[,3]

ggplot(mytable, aes(x=Consensus.length, y=Average.coverage, label=Name)) + geom_point() + ylab("Contig Average Coverage (log)") + xlab("Contig Consensus Length (log)") + opts(title="Contig Coverage vs Length") + geom_text(hjust=0, vjust=-0.2, size=4)
direct.label(p, "first.qp")

我收到了这个错误:

Error in direct.label.ggplot(p, "first.qp") : 
  Need colour aesthetic to infer default direct labels.

所以我通过将 aes 添加到 geom_point() 来更改绘图脚本

ggplot(mytable, aes(x=Consensus.length, y=Average.coverage, label=Name)) + geom_point(aes(colour=Average.coverage)) + ylab("Contig Average Coverage (log)") + xlab("Contig Consensus Length (log)") + opts(title="Contig Coverage vs Length") + geom_text(hjust=0, vjust=-0.2, size=4)

现在我收到以下错误

Error in order.labels(d) : labels are not aligned

我发现了这个线程,他们建议如果只有几个数据点则手动放置标签,或者如果数据点太多则根本不放置标签。我同意这一点,但我将使用许多不同的数据集生成此图,并且我确实需要数据标签。到目前为止,这是图表的外观 在此处输入图像描述

4

2 回答 2

3

您可以简单地删除点并仅绘制标签,这可以通过注释掉geom_point()绘图的一部分来完成。(您还需要将 hjust 和 vjust 值更改为 0.5,以便标签的中心出现在该点所在的位置):

ggplot(mytable, aes(x=Consensus.length, y=Average.coverage, label=Name)) + 
  #geom_point() + 
  ylab("Contig Average Coverage (log)") + xlab("Contig Consensus Length (log)") + 
  opts(title="Contig Coverage vs Length") + geom_text(hjust=0.5, vjust=0.5, size=4)

还是有一些重叠,但也许通过调整字体大小和情节不会太严重。

在此处输入图像描述

于 2012-12-12T02:59:04.937 回答
2

从您的评论来看,这听起来更像是一个聚类练习。所以,让我们继续并实际这样做:

set.seed(9234970)
d <- data.frame(Name=mytable$Name, 
x=mytable$Consensus.length, 
y=mytable$Average.coverage)
d$kmeans <- as.factor(kmeans(d[-1],20)$cluster)
ggplot(d, aes(x, y, color=kmeans)) + 
geom_point() + 
theme(legend.position="bottom")

kmmeans 聚类 ggplot(d, aes(x, x, label=Name)) + geom_text(aes(x,y)) + facet_wrap(~kmeans, scales="free")

集群突破

我随机选择了20个集群

您还可以使用层次聚类来查看树状图。

plot(hclust(dist(d[-3]))) # -3 drops kmeans column

我建议一般使用 cluster 包,因为它可以为您的问题提供更有用的解决方案。

于 2012-12-12T03:59:48.127 回答