r - 从特定行获取数据

Question

我正在尝试使用以下代码从 01/02/2007 和 02/02/2007 这两个日期中提取数据。

exdata1 <- exdata[c(01/02/2007,02/02/2007),]

但是当我查看我收到的代码时，它给了我这个。

> head(exdata1)
[1] Date                  Time                  Global_active_power   Global_reactive_power Voltage               Global_intensity      Sub_metering_1       
[8] Sub_metering_2        Sub_metering_3       
<0 rows> (or 0-length row.names)

有人可以告诉我出了什么问题吗？我完全迷路了。

score 1 · Accepted Answer

您没有得到数据的原因很简单：您要查找的日期在数据本身中以不同的方式指定：not01/02/2007和02/02/2007but1/2/2007和2/2/2007。此外，该Date列是一个因子列（参见str(data)）。要访问因素，您可以在日期周围使用引号：

example <- data[data$Date=="1/2/2007"|data$Date=="2/2/2007",]
head(example)
          Date     Time Global_active_power Global_reactive_power Voltage Global_intensity Sub_metering_1
66637 1/2/2007 00:00:00               0.326                 0.128 243.150            1.400          0.000
66638 1/2/2007 00:01:00               0.326                 0.130 243.320            1.400          0.000
66639 1/2/2007 00:02:00               0.324                 0.132 243.510            1.400          0.000
66640 1/2/2007 00:03:00               0.324                 0.134 243.900            1.400          0.000
66641 1/2/2007 00:04:00               0.322                 0.130 243.160            1.400          0.000
66642 1/2/2007 00:05:00               0.320                 0.126 242.290            1.400          0.000
      Sub_metering_2 Sub_metering_3
66637          0.000              0
66638          0.000              0
66639          0.000              0
66640          0.000              0
66641          0.000              0
66642          0.000              0

score 1 · Accepted Answer

您的努力表明了对 R 语言如何工作的一些误解。要查看 R“认为” i“[”函数位置的向量是什么，只需在控制台中输入向量代码：

c(01/02/2007,02/02/2007)
[1] 0.0002491281 0.0004982561

因此，您实际上是在提交一个包含接近零的小数部分的数字向量。您可以使用数字向量进行选择，但它们必须是大于 1 的整数。即使您确实了解 R 不会将它们用作日期并尝试将其格式化为 R“日期”分类值，您仍然仅使用这些日期作为索引不会成功，因为 R Dates 实际上是表示自 1970 年 1 月 1 日以来的天数的整数，并且这些日期将采用非常大的值（13545 和 13546）：

dput( as.Date(c("01/02/2007","02/02/2007"), format="%d/%m/%Y") )
# structure(c(13545, 13546), class = "Date")

mydf = data.frame( d=as.Date( c("01/02/2007","02/02/2007"), format="%d/%m/%Y") , letters[1:2] )
mydf
#------------
           d letters.1.2.
1 2007-02-01            a
2 2007-02-02            b

mydf[ as.Date( c("01/02/2007","02/02/2007"), format="%d/%m/%Y") , ]
#----------------
        d letters.1.2.
NA   <NA>         <NA>
NA.1 <NA>         <NA>

所以你最后的评论/问题的答案：你称之为“日期”的那些表达从来都不是日期；它们只是由斜线分隔的数字，并且它们一起由 R 作为算术表达式进行评估，即作为由除法运算符分隔的数字。即使转换为“日期”类会为您提供一组整数，但 R 解释器不会以您期望的方式处理它们。您需要一种将日期与日期匹配的机制。中%in%缀运算符实际上是 R 函数的修饰版本match。该%in%函数实际上是在构建一个可用于选择匹配行的逻辑向量：

 mydf$d %in% as.Date( c("01/02/2007","02/02/2007"), format="%d/%m/%Y") 
[1] TRUE TRUE

 mydf[ mydf$d %in% as.Date( c("01/02/2007","02/02/2007"), format="%d/%m/%Y") , ]
           d lets
1 2007-02-01    a
2 2007-02-02    b

score -1 · Accepted Answer

您的代码很好，您只是没有指定要过滤的列： exdata[c(01/02/2007,02/02/2007),] vs exdata[date Column %in% c(01/02/ 2007,02/02/2007),]

r - 从特定行获取数据

3 回答 3

Related

Reference