r - 如何在R中的“with”基础中编码删除NA

Question

我的简单数据集如下所示。

+--------+------+--------+------+-----+
| 时间 | 事务所 | 出| 实验室 | 帽 |
+--------+------+--------+------+-----+
| 00 年 1 月 | 一个 | 161521 | 261 | 13 |
| 2月-00 | 一个 | 142452 | 第334章 15 |
| 00 年 3 月 | 一个 | 365697 | 156 | 14 |
| 00 年 4 月 | 一个 | 355789 | 134 | 12 |
| 00 年 5 月 | 一个 | 376843 | 159 | 15 |
| 00 年 6 月 | 一个 | 258762 | 119 | 12 |
| 00 年 7 月 | 一个 | 255447 | 41 | 45 |
| 00 年 8 月 | 一个 | 188545 | 247 | 75 |
| 00 年 9 月 | 一个 | 213663 | 251 | 不适用 |
| 00 年 10 月 | 一个 | 273209 | 62 | 12 |
| 11 月 00 日 | 一个 | 317468 | 525 | 15 |
| 00 年 12 月 | 一个 | 238668 | 217 | 16 |
| Jan-01 | 乙| 241286 | 298 | 42 |
| 2月1日 | 乙| 135288 | 109 | 45 |
| 01 年 3 月 | 乙| 363609 | 7 | 24 |
| 01 年 4 月 | 乙| 318472 | 不适用 | 56 |
| May-01 | 乙| 446279 | 0 | 12 |
| Jun-01 | 乙| 390230 | 50 | 12 |
| 01 年 7 月 | 乙| 118945 | 143 | 45 |
| 01 年 8 月 | 乙| 174887 | 85 | 不适用 |
| 01 年 9 月 | 乙| 183770 | 80 | 15 |
| 01 年 10 月 | 乙| 197832 | 214 | 12 |
| Nov-01 | 乙| 317468 | 525 | 15 |
| 12 月 1 日 | 乙| 238668 | 217 | 16 |
+--------+------+--------+------+-----+

可以使用以下代码重现上述数据集。

    structure(list(Time = structure(c(9L, 7L, 15L, 1L, 17L, 13L, 
    11L, 3L, 23L, 21L, 19L, 5L, 10L, 8L, 16L, 2L, 18L, 14L, 12L, 
    4L, 24L, 22L, 20L, 6L), .Label = c("Apr-00", "Apr-01", "Aug-00", 
    "Aug-01", "Dec-00", "Dec-01", "Feb-00", "Feb-01", "Jan-00", "Jan-01", 
    "Jul-00", "Jul-01", "Jun-00", "Jun-01", "Mar-00", "Mar-01", "May-00", 
    "May-01", "Nov-00", "Nov-01", "Oct-00", "Oct-01", "Sep-00", "Sep-01"
    ), class = "factor"), Firm = structure(c(1L, 1L, 1L, 1L, 1L, 
    1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 
    2L, 2L, 2L), .Label = c("A", "B"), class = "factor"), Out = c(161521L, 
    142452L, 365697L, 355789L, 376843L, 258762L, 255447L, 188545L, 
    213663L, 273209L, 317468L, 238668L, 241286L, 135288L, 363609L, 
    318472L, 446279L, 390230L, 118945L, 174887L, 183770L, 197832L, 
    317468L, 238668L), Lab = c(261L, 334L, 156L, 134L, 159L, 119L, 
    41L, 247L, 251L, 62L, 525L, 217L, 298L, 109L, 7L, NA, 0L, 50L, 
    143L, 85L, 80L, 214L, 525L, 217L), Cap = c(13L, 15L, 14L, 12L, 
    15L, 12L, 45L, 75L, NA, 12L, 15L, 16L, 42L, 45L, 24L, 56L, 12L, 
    12L, 45L, NA, 15L, 12L, 15L, 16L)), .Names = c("Time", "Firm", 
    "Out", "Lab", "Cap"), class = "data.frame", row.names = c(NA, 
    -24L))

首先，我使用以下命令获取面板数据回归的面板结构

    library(zoo)
    library(plm)

    Sys.setlocale("LC_TIME", "English")
    dat["time1"] <- as.yearmon(dat$Time,format="%b-%y")
    pdat <-pdata.frame(dat,index=c("Firm","time1"))

现在运行回归

    Model1<- plm(Out ~ Lab+Cap+I(0.5*(Lab^2))
                +I(0.5*(Cap^2))+I(Lab*Cap),data=pdat)
    summary(Model1)

然后为结果估计创建捷径，如下所示。

    a1 <- coef( Model1 )[ "Lab" ]
    a2 <- coef( Model1 )["Cap"]
    a11 <- coef( Model1  )[ "I(0.5*(Lab^2))" ]
    b22 <- coef( Model1  )[ "I(0.5*(Cap^2))" ]
    a12 <-a21<- coef( Model1  )[ "I(Lab*Cap)" ]

    pdat$mpLab <- with( pdat,+ a1 + a11 * a1 + a12*a2)

我有这个代码来计算面积的边际产品。但是我的数据框有一些缺失值，我需要包含代码以从上述计算中删除这些缺失值。否则，答案也为 NA。我只是尝试在上述代码的末尾包含以下内容。

    pdat$mpLab <- with( pdat,+ a1 + a11 * a1 + a12*a2,na.rm=TRUE)

但它不需要那个标签。数据框 pdat 是使用面板数据回归分析的面板数据集。a1、a2、a11、a12 是特定回归的系数。pdat 有一些丢失的数据，我相信由于 pdat 中缺少数据，因此 pdat$mpLab 会为每个观察结果提供 NA。

如果有人可以帮助我，将不胜感激。

score 3 · Accepted Answer

您+用于计算逐行总和，为此有一个特殊的函数rowSums，它也有一个na.rm =参数。我使用cbind创建要求和然后应用的列的矩阵rowSums(..., na.rm = TRUE)，所以它看起来像这样：

pdat$earea <- rowSums(with(pdat, cbind(a1, a11*a1, a12*a2)), na.rm = TRUE)

这是一个带有一些虚假数据的示例：

set.seed(1)
x <- data.frame(a1 = c(1:4, NA), a11 = sample(5), a12 = c(NA, 2:5), a2 = sample(5))
x$check <- rowSums(with(x, cbind(a1, a11*a1, a12*a2)), na.rm = TRUE) 
x
#  a1 a11 a12 a2 check
#1  1   2  NA  5     3
#2  2   5   2  4    20
#3  3   4   3  2    21
#4  4   3   4  3    28
#5 NA   1   5  1     5

score 0 · Accepted Answer

我不完全确定这是您所指的问题，但这绝对是您提交的代码中的一个问题：模型系数的一些索引没有正确输入，它们缺少一些空格字符。当索引不存在时，返回 NA。

当我使用正确的输入时：

a1 <- coef( Model1 )[ "Lab" ]
a2 <- coef( Model1 )["Cap"]
a11 <- coef( Model1  )[ "I(0.5 * (Lab^2))" ]
b22 <- coef( Model1  )[ "I(0.5 * (Cap^2))" ]
a12 <-a21<- coef( Model1  )[ "I(Lab * Cap)" ]

我确实得到了所有具有值的系数，并且

pdat$mpLab <- with( pdat,+ a1 + a11 * a1 + a12*a2)

确实填充了数据框。

希望这是你想要的

r - 如何在R中的“with”基础中编码删除NA

2 回答 2

Related

Reference