问题标签 [imputation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
82 浏览

r - 使用 as.mids2 时的错误消息

我正在尝试通过使用 R 中的 miceadds 包从 SPSS 创建的多重插补数据库中汇集结果(我对 R 很陌生,如果术语有点偏离,我很抱歉)。当我尝试使用 as.mids2 代码将数据库更改为 mids 对象时,我收到以下错误消息:

有人知道这意味着什么吗?数据库是 28 个变量,有 2378 个 obs,所以不大。

这是我正在使用的脚本:

任何帮助将不胜感激。

0 投票
1 回答
84 浏览

r - 在 with 语句中调用函数会在函数范围内找不到错误变量

我正在准备对多个估算数据集的平均预测误差进行自举估计。我的函数似乎无法在范围内找到因变量。有什么办法可以规避吗?

多重插补运行顺利,但具体问题似乎是该行

找不到变量CG.tot

eval(expr,envir,enclos)中的错误:找不到对象'CG.tot'

但是,如果我将公式声明为字符串:

有用...

最小运行示例:

数据集(有点长,但这是为了估算......):

0 投票
0 回答
112 浏览

imputation - 处理缺失的数据

我想知道人们通常如何处理丢失数据的问题?我阅读了一些关于估算缺失数据的文章,其中基本上的想法是用以某种方式计算的某个值替换缺失的数据。

例如,假设我有一个缺少一些单元格的表格,并且我想使用一些插补技术来填充这些单元格。我想我应该首先使用一些精心挑选的函数f,并应用于f表中的一些现有数据来计算值以替换特定的缺失值。这是真的?

0 投票
2 回答
1373 浏览

r - 使用 MICE 包进行缺失值插补的错误

我有大量(4M x 17)缺失值的数据。两列是分类的,其余的都是数字的。我想使用 MICE 包进行缺失值插补。这是我尝试过的:

在整个数据集上运行插补计算成本很高,所以我只在前 10 万个观测值上运行它。然后我尝试使用输出来估算整个数据。

我的方法有什么问题吗?如果是,我应该怎么做才能使它正确?如果不是,那么为什么我会收到此错误?

0 投票
2 回答
810 浏览

python - 循环插补

我对单个变量进行了修改并将其返回到同一个变量

但是我有很多变量&想像这样使用循环

但:

如何在数据框中使用循环进行插补和返回变量?

0 投票
4 回答
20978 浏览

python - 在 Python 中的某些 Dataframe 列上进行插补

我正在学习如何在 Python 上使用 Imputer。

这是我的代码:

但是,这会引发以下错误:ValueError:值的长度与索引的长度不匹配

我的代码有什么问题???

感谢您的帮助

0 投票
0 回答
360 浏览

r - 分层然后在 R 中估算 - 使用 mi()

我想使用 R 中可用的包“分层然后估算”。

也就是说,我希望: 1)使用名为“arm”的二进制变量对我的数据集进行分层。该变量没有缺失数据。2) 运行两个子集的插补模型 3) 组合两个插补数据集 4) 运行汇总分析。

我的数据集如下所示:

为了估算数据,我目前正在使用 mi() 函数,如下所示:

然后我不知道如何结合这两个插补来进行汇总分析。我没有成功尝试:

我认为这种方法是在估算时包含交互项的简化版本,但我也不知道这怎么可能。

谢谢

0 投票
1 回答
486 浏览

pandas - Pandas Ffill 仅包含 NaN 的行

我想结合 sklearn 的 imputation 和 Panda 的 Ffill 来填充缺失的数据。这就是我的数据框,df看起来像

我想使用 FfillNaN用前一个值填充仅包含(例如第 2 行)的行。

如果行仅包含几个NaN,例如,如果至少有 1 个值,则使用插补以行中最频繁的值填充 NaN。

我正在使用 LabelEncoder 将字符串值转换为整数——它是按字母顺序排列的。A=0, B=1, C=2, D = 3. 为了确保 NaN 获得值 4 ,我将 NaN 转换为“Z”——使用data = df.fillna("Z")

然后,我对数据进行插补,以便Z用行中最常见的值填充任何值 - imp = Imputer(missing_values=4, strategy= 'most_frequent', axis=1)

所以,我想填充只有NaNusing的行ffill

然后我使用 LabelEncoder 和插补来填充其他NaN行中最频繁的值。

如果我可以选择仅包含的行NaN并将ffill函数仅应用于这些行,那么我可以对另一个 Nan 使用插补。我怎样才能做到这一点?

0 投票
2 回答
2312 浏览

python - pandas 为特定列填充 NA

如果在另一列中满足条件,我想在特定列中填充 NA 值,以便仅用推算/替换值替换这一类 NA 值。

例如我想执行:if column1 = 'value1' AND column2 = N.A fillna_in_column2 with value 'replacementvalue'

我如何在熊猫中实现这一目标?

由于修改了整体记录的长度,因此尝试执行此dataframe[dataframe['firstColumn'] == 'value1'].fillna({'column2':'replacementValue'}操作不起作用。到目前为止,我无法进行就地修改。

0 投票
2 回答
4413 浏览

python - 使用预测模型估算缺失值

我试图在 Python 中估算缺失值,并且sklearn似乎没有超出平均值(平均值、中位数或众数)估算的方法。橙色插补模型似乎提供了一个可行的选择。然而,它似乎Orange.data.Table没有认识到np.nan或不知何故,插补失败了。

输出是

知道我缺少什么吗?谢谢!