0

我想使用 data.frame 中的变量在 phylo 对象中设置“edge.length”。phylo 对象中的“node.label”“tip.label”对应于 data.frame 中的行名。如何使用 data.frame 中的变量设置 edge.length,同时确保数据正确匹配?在下面的代码中,它位于步骤 3 中。我希望匹配 edge.length,以便 node.label 或 tip.label 匹配 data.frame 中的 row.name。

## R code:
## load ape
library(ape)
## 1. A phylo object:
library(data.tree)

A1  <- Node$new("A1")
B1  <- A1$AddChild("B1")
C1  <- B1$AddChild("C1")
D1  <- C1$AddChild("D1")
E1 <- C1$AddChild("E1")
F1 <- E1$AddChild("F1")
G1 <- E1$AddChild("G1")
H1 <- G1$AddChild("H1")
A1.phylo <- as.phylo.Node(A1)


## 2. A data.frame:
set.seed(1)
df <- as.data.frame(rnorm(7, 5, 3))
names(df) <- "length"
row.names(df) <- c("B1","C1","D1","E1","F1","G1","H1")

## 3. Ad the data to A1.phylo$edge.length
A1.phylo$edge.length <- df$length ## wrong!!!
4

1 回答 1

2

对象中的边长度、尖端标签和节点标签"phylo"按照它们在边表中出现的顺序进行处理。因此,您应该始终为不同的元素赋予属性,同时确保它们在被赋予之前的顺序正确。例如(对不起,我无法重现您的示例):

set.seed(1)
## A random tree with 6 edges
test_tree <- rtree(4)

## The edge table
test_tree$edge
#     [,1] [,2]
#[1,]    5    1
#[2,]    5    6
#[3,]    6    2
#[4,]    6    7
#[5,]    7    3
#[6,]    7    4

这里的边是将节点(数字>4)连接到尖端(数字<5)的所有元素。您可以使用以下方法可视化它们(及其编号)plot

## Visualising all the elements
plot(test_tree, show.tip.label = FALSE)
edgelabels()
nodelabels()
tiplabels()

所以现在如果你有这样的数据框:

## A random data frame
df <- as.data.frame(rnorm(6))
names(df) <- "length"
## The edges in the "wrong" order
row.names(df) <- sample(1:6)

您可以使用以下方法正确归因行:

## Get the order of the edges
test_tree$edge.length <- df$length[sort(rownames(df))]

在这种情况下,排序很容易,因为边的名称df是数字,但逻辑是,第一个元素test_tree$edge.length应该是连接节点 5 到尖端 1 的边的长度,等等......

同样,由于您的示例不可重现,因此很难找出问题所在,但我会说您df$length的长度不正确。

于 2018-11-27T01:15:35.947 回答