问题标签 [imputation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 在因子和 chr(KNN 插补)的情况下用逻辑值替换 Na
如果有人能解释这个 KNN 插补是如何工作的,以及它是如何用基于类似记录的值填充 Na 和空因子/字符,我将非常感激。例如:
可以看出,我们在数据集中有很多缺失值,我们如何为字符和因子估算逻辑值。我知道使用 zoo 包我们可以估算数字。
谢谢您的帮助。
r - R中的Predict()函数。如何使用它来预测因变量
我对如何使用函数predict()有疑问。
我有一个包含 n 行和 10 列的数据集。第一列是因变量,其他变量是自变量。我在第一个变量(即 x1)上有 50% 的缺失数据,并且完全观察到其他变量。我想通过使用对应案例和来自以下模型的回归系数来预测 x1(缺失的部分):
这是我的代码:
它们应该是不同的,但实际上它们是完全相同的。谁能帮助我并说出代码中出了什么问题?因为 x1_obs_hat 和 x1_mis_hat 应该是不同的,因为我对 B 组使用了不同的观察。
谢谢 :)
python - Python:如何在 CSV 文件中估算缺失值?
我有必须用 Python 分析的 CSV 数据。数据中有一些缺失值。数据样本如下:
样本
数据有一些缺失OB_DATE
和METO_STMP_TIME
,我想估算这些字段中的缺失值。
这里的基本问题是:
- 缺失值的估算是什么?我们可以采用哪些方法?
我为此搜索了很多,但我不清楚插补的概念。
- 我们如何在不使用任何外部库的情况下在 Python 中做到这一点?
如果使用外部库,那很好,但这是他们在没有任何外部库的情况下实现它的可能方法。
r - R - 合并数据框中的行以填充给定多个标识符的 NA
假设我有一个数据框,其中包含 5 年的数据,显示美国所有 50 个州的 50 个最大城市的凶杀案数量。数据框中还有该城市的人口和拥有的枪支数量。但是,在每一行中只有一个population, homicides or guns
(参见df
下面的示例):
这个生成的数据框比它需要的长 25,000 行,因为代表唯一组合的每一行state, city and year
可能包含population, homicide and guns
数据,而不仅仅是一个。换句话说,它可能看起来像这样:
从 开始df
,如何合并数据行以为每个组合population, guns and homicides
创建一行?state, city, year
因此导致 df.ideal
遗憾的是,该解决方案也必须适用于不平衡的数据帧 - 在理想情况下,如果在值替换除 NA 之外的任何内容时出现警告,那就太好了。
sas - SAS Enterprise Guide,缺失变量的不同处理
我们正在使用 ESS 数据集,但不确定如何处理 SAS Enterprise Guide 中的缺失值问题。我们的因变量是“主观幸福感”,旨在包括大量控制变量——因此,我们有一个数据集包含大量缺失值的情况。
我们不想使用“列表删除”。相反,我们希望根据被访者的回答以不同的方式处理不同的缺失:“不回答”、“不适用”、“拒绝”、“不知道”。例如,我们计划对不适用进行成对删除,而我们可能希望使用其他一些回答的平均值 - 取决于问题(假设受访者的回答提供有关 MCAR、MAR、 NMAR)。
我们的主要问题是:
- 目前,我们缺失的变量在数据集中以不同的方式标记(99、77、999、88 等),我们是否应该在继续使用 SAS Enterprise Guide 之前在 Excel 中替换这些值?如果是 - 我们应该如何最好地替换它们,因为它们应该以不同的方式处理?
- 我们如何告诉 SAS Enterprise Guide 以不同的方式处理不同的缺失?
- 如果我们使用虚拟变量来标记拒绝,例如收入,我们如何将这些包含在最终回归中?
我们已尝试阅读此内容,但有些困惑,因此我们非常感谢您的帮助:)
r - 使用线性模型对单变量、季节性时间序列进行插补
我们如何使用 R 中的线性模型方法对单变量季节性时间序列进行插补?它应该考虑季节性,最好是趋势。我已经使用tslm函数进行预测,但不知道类似的插补函数。
r - R中具有面板校正标准误差的多重插补
有没有办法在多重插补数据集(Amelia II)上使用面板校正标准误差(pcse 包)组合结果?
例如我想结合以下模型的结果:
我尝试使用 Rubin 的规则计算合并估计值和合并标准误差,但在手动计算多元模型的检验统计量和 p 值时遇到了麻烦。
stata - 如何在Stata中同时估算两个变量?
我试图在Stata中同时估算两个变量:说y和x。然后我想为他们执行线性回归。
我使用的代码是:
我遇到了一个错误:“估计样本在 m=1 和 m=11 之间变化”。有人可以帮我吗?谢谢!
r - R中多重插补(MICE)的简单限制/约束
我想使用 R 中的MICE包对一组变量执行多重插补。
最小值为gcs
3 ,最大值为15,它可能不是小数,如何在MICE中设置这些约束?也一样,但是这个只有0hf
的下限。