问题标签 [imputation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
715 浏览

r - 在因子和 chr(KNN 插补)的情况下用逻辑值替换 Na


如果有人能解释这个 KNN 插补是如何工作的,以及它是如何用基于类似记录的值填充 Na 和空因子/字符,我将非常感激。例如:


可以看出,我们在数据集中有很多缺失值,我们如何为字符和因子估算逻辑值。我知道使用 zoo 包我们可以估算数字。

谢谢您的帮助。

0 投票
2 回答
1570 浏览

r - svd 插补 R

我正在尝试使用 bcv 包中的 SVD 插补,但所有插补值都是相同的(按列)。

这是缺少数据的数据集 http://pastebin.com/YS9qaUPs

我哪里错了?

0 投票
0 回答
606 浏览

r - R中的Predict()函数。如何使用它来预测因变量

我对如何使用函数predict()有疑问。

我有一个包含 n 行和 10 列的数据集。第一列是因变量,其他变量是自变量。我在第一个变量(即 x1)上有 50% 的缺失数据,并且完全观察到其他变量。我想通过使用对应案例和来自以下模型的回归系数来预测 x1(缺失的部分):

这是我的代码:

它们应该是不同的,但实际上它们是完全相同的。谁能帮助我并说出代码中出了什么问题?因为 x1_obs_hat 和 x1_mis_hat 应该是不同的,因为我对 B 组使用了不同的观察。

谢谢 :)

0 投票
1 回答
894 浏览

python - Python:如何在 CSV 文件中估算缺失值?

我有必须用 Python 分析的 CSV 数据。数据中有一些缺失值。数据样本如下:

样本

数据有一些缺失OB_DATEMETO_STMP_TIME,我想估算这些字段中的缺失值。

这里的基本问题是:

  1. 缺失值的估算是什么?我们可以采用哪些方法?

我为此搜索了很多,但我不清楚插补的概念。

  1. 我们如何在不使用任何外部库的情况下在 Python 中做到这一点?

如果使用外部库,那很好,但这是他们在没有任何外部库的情况下实现它的可能方法。

0 投票
0 回答
168 浏览

r - R - 合并数据框中的行以填充给定多个标识符的 NA

假设我有一个数据框,其中包含 5 年的数据,显示美国所有 50 个州的 50 个最大城市的凶杀案数量。数据框中还有该城市的人口和拥有的枪支数量。但是,在每一行中只有一个population, homicides or guns(参见df下面的示例):

这个生成的数据框比它需要的长 25,000 行,因为代表唯一组合的每一行state, city and year可能包含population, homicide and guns数据,而不仅仅是一个。换句话说,它可能看起来像这样:

从 开始df,如何合并数据行以为每个组合population, guns and homicides创建一行?state, city, year因此导致 df.ideal

遗憾的是,该解决方案也必须适用于不平衡的数据帧 - 在理想情况下,如果在值替换除 NA 之外的任何内容时出现警告,那就太好了。

0 投票
1 回答
964 浏览

sas - SAS Enterprise Guide,缺失变量的不同处理

我们正在使用 ESS 数据集,但不确定如何处理 SAS Enterprise Guide 中的缺失值问题。我们的因变量是“主观幸福感”,旨在包括大量控制变量——因此,我们有一个数据集包含大量缺失值的情况。

我们不想使用“列表删除”。相反,我们希望根据被访者的回答以不同的方式处理不同的缺失:“不回答”、“不适用”、“拒绝”、“不知道”。例如,我们计划对不适用进行成对删除,而我们可能希望使用其他一些回答的平均值 - 取决于问题(假设受访者的回答提供有关 MCAR、MAR、 NMAR)。

我们的主要问题是:

  • 目前,我们缺失的变量在数据集中以不同的方式标记(99、77、999、88 等),我们是否应该在继续使用 SAS Enterprise Guide 之前在 Excel 中替换这些值?如果是 - 我们应该如何最好地替换它们,因为它们应该以不同的方式处理?
  • 我们如何告诉 SAS Enterprise Guide 以不同的方式处理不同的缺失?
  • 如果我们使用虚拟变量来标记拒绝,例如收入,我们如何将这些包含在最终回归中?

我们已尝试阅读此内容,但有些困惑,因此我们非常感谢您的帮助:)

0 投票
2 回答
796 浏览

r - 使用线性模型对单变量、季节性时间序列进行插补

我们如何使用 R 中的线性模型方法对单变量季节性时间序列进行插补?它应该考虑季节性,最好是趋势。我已经使用tslm函数进行预测,但不知道类似的插补函数。

0 投票
0 回答
94 浏览

r - R中具有面板校正标准误差的多重插补

有没有办法在多重插补数据集(Amelia II)上使用面板校正标准误差(pcse 包)组合结果?

例如我想结合以下模型的结果:

我尝试使用 Rubin 的规则计算合并估计值和合并标准误差,但在手动计算多元模型的检验统计量和 p 值时遇到了麻烦。

0 投票
1 回答
304 浏览

stata - 如何在Stata中同时估算两个变量?

我试图在Stata中同时估算两个变量:说y和x。然后我想为他们执行线性回归。

我使用的代码是:

我遇到了一个错误:“估计样本在 m=1 和 m=11 之间变化”。有人可以帮我吗?谢谢!

0 投票
0 回答
1320 浏览

r - R中多重插补(MICE)的简单限制/约束

我想使用 R 中的MICE包对一组变量执行多重插补。

最小值为gcs3 最大值为15,它可能不是小数,如何在MICE中设置这些约束?也一样,但是这个只有0hf的下限。