0

G'day 所有,

我在 R 工作。很抱歉这个非常基本的问题,但我有点卡住了。我有一个存在/不存在点计数数据的数据集,其中包含计数日期和站点编号(见下文)。我想最终创建一个 data.frame,按网格单元格编号整理所有计数,并将每次访问站点作为新访问(见下文)。我无法弄清楚如何做到这一点,所以我想我会采取更简单的路线并制作一个列,为每条记录提供访问编号。因此,该列将按每个站点组内的访问日期为每条记录提供一个编号(见下文)。我也不知道该怎么做!任何帮助都会很棒,在此先感谢您。

亲切的问候,亚当

我有这个:

Site    date
1   12/01/2000
1   24/02/2000
1   13/08/2001
2   14/01/2000
2   21/01/2002
3   1/01/1999
3   21/04/2000

最终想要这个:

Site           vist1              v2                 v3
1              12/01/2000         24/02/2000         13/08/2001
2              14/01/2000         21/01/2002         na
3              01/01/1999         21/04/2000         na

但这会很好:

Site   date        visit
1      12/01/2000  1
1      24/02/2000  2
1      13/08/2001  3
2      14/01/2000  1
2      21/01/2002  2
3      01/01/1999  1
3      21/04/2000  2
4

3 回答 3

2

基本上,您希望将数据从长格式重塑为宽格式,并Site在一行中重复观察。基本 R 函数reshape()就是为这个任务而设计的。

唯一(轻微)的复杂情况是,您首先需要添加一列(我在这里称之为obsNum),以标识在 a 处的第一个、第二个、第三个等观察Site。通过设置timevar = "obsNum",您可以让您reshape()知道要将 的每个值放入哪一列date

df <- read.table(text = "Site date
1 12/01/2000
1 24/02/2000
1 13/08/2001
2 14/01/2000
2 21/01/2002
3 1/01/1999
3 21/04/2000", header=T, stringsAsFactors=FALSE)

df$obsNum <- unlist(sapply(rle(df$Site)$lengths, seq))
reshape(df, idvar="Site", timevar="obsNum", direction="wide")

#   Site     date.1     date.2     date.3
# 1    1 12/01/2000 24/02/2000 13/08/2001
# 4    2 14/01/2000 21/01/2002       <NA>
# 6    3  1/01/1999 21/04/2000       <NA>
于 2012-02-06T00:13:00.457 回答
0

这是另一个使用ddplyand的解决方案dcast

library(reshape2)
# Convert the date column into actual dates
df$date <- as.Date(df$date, format="%d/%m/%Y")
# Ensure that the data.frame is sorted
df <- df[ order(df$site, df$date), ]

# Number the visits for each site
df$visit <- 1
d <- ddply(df, "Site", transform, visit=cumsum(visit))

# Convert to a wide format
# (Since dcast forgets the Date type, convert it to strings
# before and back to dates after.)
d$date <- as.character(d$date)
d <- dcast(d, Site ~ visit, value.var="date")
d[,-1] <- lapply(d[,-1], as.Date)
d
于 2012-02-06T00:33:48.860 回答
0

这是使用plyrand的另一种解决方案reshape2

require(plyr); require(reshape2); require(lubridate)
df <- ddply(df, .(Site), transform, visit = rank(dmy(date)))
dcast(df, Site ~ visit, value.var = 'date')
于 2012-02-06T02:17:37.463 回答