62

我正在使用melt并遇到以下警告消息:
attributes are not identical across measure variables; they will be dropped

环顾四周有人提到这是因为变量是不同的类;但是,我的数据集并非如此。

这是数据集:

test <- structure(list(park = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L), .Label = c("miss", "piro", "sacn", "slbe"), class = "factor"), 
    a1.one = structure(c(3L, 1L, 3L, 3L, 3L, 3L, 1L, 3L, 3L, 
    3L), .Label = c("agriculture", "beaver", "development", "flooding", 
    "forest_pathogen", "harvest_00_20", "harvest_30_60", "harvest_70_90", 
    "none"), class = "factor"), a2.one = structure(c(6L, 6L, 
    6L, 6L, 6L, 6L, 6L, 6L, 6L, 6L), .Label = c("development", 
    "forest_pathogen", "harvest_00_20", "harvest_30_60", "harvest_70_90", 
    "none"), class = "factor"), a3.one = structure(c(3L, 3L, 
    3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L), .Label = c("forest_pathogen", 
    "harvest_00_20", "none"), class = "factor"), a1.two = structure(c(3L, 
    3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L), .Label = c("agriculture", 
    "beaver", "development", "flooding", "forest_pathogen", "harvest_00_20", 
    "harvest_30_60", "harvest_70_90", "none"), class = "factor"), 
    a2.two = structure(c(6L, 6L, 6L, 6L, 6L, 6L, 6L, 6L, 6L, 
    6L), .Label = c("development", "forest_pathogen", "harvest_00_20", 
    "harvest_30_60", "harvest_70_90", "none"), class = "factor"), 
    a3.two = structure(c(3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 
    3L), .Label = c("forest_pathogen", "harvest_00_20", "none"
    ), class = "factor")), .Names = c("park", "a1.one", "a2.one", 
"a3.one", "a1.two", "a2.two", "a3.two"), row.names = c(NA, 10L
), class = "data.frame")

这是结构:

str(test)
'data.frame':   10 obs. of  7 variables:
 $ park  : Factor w/ 4 levels "miss","piro",..: 1 1 1 1 1 1 1 1 1 1
 $ a1.one: Factor w/ 9 levels "agriculture",..: 3 1 3 3 3 3 1 3 3 3
 $ a2.one: Factor w/ 6 levels "development",..: 6 6 6 6 6 6 6 6 6 6
 $ a3.one: Factor w/ 3 levels "forest_pathogen",..: 3 3 3 3 3 3 3 3 3 3
 $ a1.two: Factor w/ 9 levels "agriculture",..: 3 3 3 3 3 3 3 3 3 3
 $ a2.two: Factor w/ 6 levels "development",..: 6 6 6 6 6 6 6 6 6 6
 $ a3.two: Factor w/ 3 levels "forest_pathogen",..: 3 3 3 3 3 3 3 3 3 3

是因为每个变量的级别数不同吗?那么,在这种情况下我可以忽略警告信息吗?

要生成警告消息:

library(reshape2)
test.m <- melt (test,id.vars=c('park'))
Warning message:
attributes are not identical across measure variables; they will be dropped

谢谢。

4

2 回答 2

100

一个解释:

融化时,您将多列合并为一列。在这种情况下,您正在组合因子列,每个列都有一个levels属性。这些水平在各列中并不相同,因为您的因素实际上是不同的。 在结果中创建列melt时,只需将每个因素强制转换为字符并删除它们的属性。value

在这种情况下,警告无关紧要,但是在组合不属于相同“类型”的列时需要非常小心,其中“类型”不仅仅意味着向量类型,而且通常是它所指事物的性质. 例如,我不想将包含 MPH 速度的列与包含 LB 重量的列融合。

确认合并因子列是否可行的一种方法是问自己一列中的任何可能值是否是其他列中的合理值。如果是这种情况,那么正确的做法可能是确保每个因子列都具有它可以接受的所有可能级别(以相同的顺序)。如果这样做,则在熔化表时不会收到警告。

插图:

library(reshape2)
DF <- data.frame(id=1:3, x=letters[1:3], y=rev(letters)[1:3])
str(DF)

x和的级别y不相同:

'data.frame':  3 obs. of  3 variables:
$ id: int  1 2 3
$ x : Factor w/ 3 levels "a","b","c": 1 2 3
$ y : Factor w/ 3 levels "x","y","z": 3 2 1

这里我们melt又看一下柱子xy被熔成(value):

melt(DF, id.vars="id")$value

我们得到一个字符向量和一个警告:

[1] "a" "b" "c" "z" "y" "x"
Warning message:
attributes are not identical across measure variables; they will be dropped 

但是,如果我们将因素重置为相同的水平,然后才融化:

DF[2:3] <- lapply(DF[2:3], factor, levels=letters)
melt(DF, id.vars="id", factorsAsStrings=F)$value

我们得到正确的因子并且没有警告:

[1] a b c z y x
Levels: a b c d e f g h i j k l m n o p q r s t u v w x y z

的默认行为melt是即使它们相同也会降低因子水平,这就是我们factorsAsStrings=F在上面使用的原因。如果您没有使用该设置,您将获得一个字符向量,但没有警告。我认为默认行为应该是将结果作为一个因素,但这里不是这种情况。

于 2014-09-05T15:26:50.867 回答
2

BrodieG 的回答非常好;但是,在某些情况下,重构列是不切实际的(例如,具有 128 个固定宽度列的 GHCN 气候数据,我想将其融合成更少的列)。

在这种情况下,最简单的解决方案是将数据视为字符而不是因素:例如,您可以使用重新导入数据read.fwf(filename,stringsAsFactors=FALSE)(同样的想法适用于read.csv)。对于较少数量的列,您可以使用 将因子转换为字符串d$mystring<-as.character(d$myfactor)

于 2017-05-06T06:33:03.787 回答