r - 在data.frame（或表）中保持范围

Question

我想这样做

set.seed(667) 
df <- data.frame(a = sample(c(c(4,7),11,NA),  10, rep = TRUE), 
                 b = sample(c(1, 2, 3, NA, 5, 6),  10, rep=TRUE), 
                 c = sample(c(11, 12, 13, 14, 15, 16),  10, rep=TRUE))

但不是得到这个，

df
    a  b  c
1   4 NA 12
2   7  6 12
3  NA NA 14
4  11  1 16
5  NA  2 14
6  NA  3 13
7  11 NA 13
8  NA  6 15
9   7  3 16
10  7  5 16

我想在某些时候得到一个范围内的东西，

    a  b  c
1  4-7 NA 12
2  4-7  6 12
3  NA  NA 14
4  11   1 16
5  NA   2 14
6  NA   3 13
7  11  NA 13
8  NA   6 15
9  4-7  3 16
10 4-7  5 16

我感到困惑和疲倦并寻求帮助。

阅读 SimonO101 在 2013-09-09 22:30:14Z 的评论后更新

我想我的问题也可以这样表述，我想要这个数据框

data.frame(A = c(4:7, 9),B = c(1,2))

出现

  A   B
1 4:7 9
2   2 2

score 3 · Accepted Answer

也许你想要这个？

library(data.table)

d = data.table(A = list(c(4,7), 9),B = c(1,2))
#     A B
#1: 4,7 1
#2:   9 2

另一种可能性是存储未评估的表达式（目前还不清楚 OP 想要什么，所以我在这里只是在黑暗中拍摄）：

d = data.table(A = list(quote(4:7), 9), B = c(1,2))
#        A B
#1: <call> 1
#2:      9 2
d[,A]
#[[1]]
#4:7
#
#[[2]]
#[1] 9
lapply(d[, A], eval)
#[[1]]
#[1] 4 5 6 7
#
#[[2]]
#[1] 9

score 1 · Accepted Answer

您可以使用cut将值转换为您喜欢的任何间隔，并为每个间隔设置适当的标签，如下所示：

newdf <- sapply( df , cut , breaks = c(1:4,7.01,8:16) , labels = c(1:3,"4-7",8:16) , right = TRUE )
#      a     b     c   
# [1,] "3"   NA    "12"
# [2,] "4-7" "4-7" "12"
# [3,] NA    NA    "14"
# [4,] "11"  NA    "16"
# [5,] NA    "1"   "14"
# [6,] NA    "2"   "13"
# [7,] "11"  NA    "13"
# [8,] NA    "4-7" "15"
# [9,] "4-7" "2"   "16"
#[10,] "4-7" "4-7" "16"

score 0 · Accepted Answer

你到底想用这些范围做什么？

一个简单的选择是将每列替换为 2 列，第一列是最小值，第二列是最大值（所以你会有 a.min、a.max、b.min 等）。您可以通过使最大值NA或最小值和最大值相同来表示精确值。

另一种选择是创建一个存储为列表的新对象，其中每一行是长度为 1（精确值）或长度为 2（范围）的向量。为您的对象编写一个方法，该方法format创建单个值或范围（例如 4-7）的字符向量，当您打印数据框时，它会调用格式函数并最终打印出如上所示的内容。您将需要其他方法来以您计划处理这些数据的任何方式处理这些列。

r - 在data.frame（或表）中保持范围

阅读 SimonO101 在 2013-09-09 22:30:14Z 的评论后更新

3 回答 3

Related

Reference