117

在回答另一个问题时,@Marek 发布了以下解决方案: https ://stackoverflow.com/a/10432263/636656

dat <- structure(list(product = c(11L, 11L, 9L, 9L, 6L, 1L, 11L, 5L, 
                                  7L, 11L, 5L, 11L, 4L, 3L, 10L, 7L, 10L, 5L, 9L, 8L)), .Names = "product", row.names = c(NA, -20L), class = "data.frame")

`levels<-`(
  factor(dat$product),
  list(Tylenol=1:3, Advil=4:6, Bayer=7:9, Generic=10:12)
  )

作为输出产生:

 [1] Generic Generic Bayer   Bayer   Advil   Tylenol Generic Advil   Bayer   Generic Advil   Generic Advil   Tylenol
[15] Generic Bayer   Generic Advil   Bayer   Bayer  

这只是一个向量的打印输出;所以要存储它,你可以做更令人困惑的事情:

res <- `levels<-`(
  factor(dat$product),
  list(Tylenol=1:3, Advil=4:6, Bayer=7:9, Generic=10:12)
  )

显然这是对级别函数的某种调用,但我不知道这里做了什么。这种巫术叫什么名字,如何提升自己在这个领域的魔法能力?

4

4 回答 4

108

这里的答案很好,但他们错过了一个重要的点。让我试着描述一下。

R 是一种函数式语言,不喜欢改变它的对象。但它确实允许赋值语句,使用替换函数:

levels(x) <- y

相当于

x <- `levels<-`(x, y)

诀窍是,这种重写是由<-; 它不是由levels<-. levels<-只是一个接受输入并给出输出的常规函数​​;它不会改变任何东西。

这样做的一个结果是,根据上述规则,<-它必须是递归的:

levels(factor(x)) <- y

factor(x) <- `levels<-`(factor(x), y)

x <- `factor<-`(x, `levels<-`(factor(x), y))

这种纯函数转换(直到最后,赋值发生的地方)等同于命令式语言中的赋值,这有点美妙。如果我没记错的话,函数式语言中的这种结构称为镜头。

但是,一旦你定义了替换函数,如levels<-,你会得到另一个意想不到的意外收获:你不仅有能力进行分配,你还有一个方便的函数,它接受一个因素,并给出另一个不同级别的因素。真的没有什么“任务”!

因此,您所描述的代码只是利用了levels<-. 我承认这个名字levels<-有点令人困惑,因为它暗示了一个任务,但这不是正在发生的事情。该代码只是设置了一种管道:

  • 从...开始dat$product

  • 将其转换为因子

  • 更改级别

  • 将其存储在res

就个人而言,我认为那行代码很漂亮;)

于 2012-05-08T02:40:42.237 回答
34

没有巫术,这就是(子)赋值函数的定义方式。 levels<-有点不同,因为它是(子)分配因子属性的原语,而不是元素本身。这种类型的函数有很多例子:

`<-`              # assignment
`[<-`             # sub-assignment
`[<-.data.frame`  # sub-assignment data.frame method
`dimnames<-`      # change dimname attribute
`attributes<-`    # change any attributes

其他二元运算符也可以这样调用:

`+`(1,2)  # 3
`-`(1,2)  # -1
`*`(1,2)  # 2
`/`(1,2)  # 0.5

既然你知道了,这样的事情真的会让你大吃一惊:

Data <- data.frame(x=1:10, y=10:1)
names(Data)[1] <- "HI"              # How does that work?!? Magic! ;-)
于 2012-05-04T13:10:38.250 回答
31

这种“魔术”的原因是“赋值”表单必须有一个真正的变量才能处理。并且factor(dat$product)没有分配给任何东西。

# This works since its done in several steps
x <- factor(dat$product)
levels(x) <- list(Tylenol=1:3, Advil=4:6, Bayer=7:9, Generic=10:12)
x

# This doesn't work although it's the "same" thing:
levels(factor(dat$product)) <- list(Tylenol=1:3, Advil=4:6, Bayer=7:9, Generic=10:12)
# Error: could not find function "factor<-"

# and this is the magic work-around that does work
`levels<-`(
  factor(dat$product),
  list(Tylenol=1:3, Advil=4:6, Bayer=7:9, Generic=10:12)
  )
于 2012-05-04T13:23:28.533 回答
17

对于用户代码,我确实想知道为什么要使用这样的语言操作?您问这是什么魔法,其他人指出您正在调用具有名称的替换函数levels<-。对于大多数人来说,这很神奇,而且真正的预期用途是levels(foo) <- bar.

您展示的用例是不同的,因为product它不存在于全局环境中,因此它只存在于调用的本地环境中,levels<-因此您想要进行的更改不会持续存在 - 没有重新分配dat.

在这些情况下,within() 使用的功能是最理想的。你自然会想写

levels(product) <- bar

在 R 中,但当然product不作为对象存在。within()解决了这个问题,因为它设置了您希望运行 R 代码的环境并在该环境中评估您的表达式。within()因此,在正确修改的数据帧中,将调用的返回对象分配给成功。

这是一个示例(您不需要创建新的datX- 我只是这样做,所以中间步骤保留在最后)

## one or t'other
#dat2 <- transform(dat, product = factor(product))
dat2 <- within(dat, product <- factor(product))

## then
dat3 <- within(dat2, 
               levels(product) <- list(Tylenol=1:3, Advil=4:6, 
                                       Bayer=7:9, Generic=10:12))

这使:

> head(dat3)
  product
1 Generic
2 Generic
3   Bayer
4   Bayer
5   Advil
6 Tylenol
> str(dat3)
'data.frame':   20 obs. of  1 variable:
 $ product: Factor w/ 4 levels "Tylenol","Advil",..: 4 4 3 3 2 1 4 2 3 4 ...

我很难看出像你展示的那样的结构在大多数情况下是如何有用的——如果你想改变数据,改变数据,不要创建另一个副本并改变它(这就是所有的levels<-调用毕竟)。

于 2012-05-04T14:58:10.410 回答