问题标签 [imputation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
82 浏览

r - 使用参与者自己的数据来估算值的生存分析数据清理

我正在清理一些数据以进行生存分析,并且我正在努力做到这一点,以便根据给定主题内的周围值估算缺失的数据。我想为参与者使用最接近的先前值和最接近的后续值的平均值如果不存在后续值,那么我想使用前一个值结转直到存在后续值。

我一直试图将问题分解为更小、更易于管理的操作和对象,但是,我不断逼迫我使用基于缺失值上方和下方的行的条件格式的解决方案,坦率地说,我我对如何做到这一点有点茫然。如果您认为您知道我可以使用、试验的一种好技术,或者如果您知道我在查找解决方案时可以使用的任何好的搜索词,我希望得到一些指导。

详情如下:

*粗体和下划线字符代表上述数据集的变化

这里的目标是找到一种方法让 ID #1(变量 ss)的 NA 值看起来像这样:2,2,4,3, 1.5 ,0,0

ID# 2(变量 ss)看起来像这样: 1,4,0​​, 0 ,0,0,0

ID #3(变量 ss)看起来像这样:4,2,1,3,3,2,NA(没有变化,因为带有 NA 的行最终将被删除)

ID #4(变量 ss)看起来像这样: 3,4,3, 3 , 1.5 ,0,0 (这需要多次更改,我希望它是最具挑战性的)。

0 投票
1 回答
209 浏览

python - 如果 sklearn 的输入向量中缺少列中的所有值,则 Imputers 将如何工作

我有一个包含大量列的数据集,我已经对我的应用程序进行了编程,如果给定列的任何值丢失,那么它将填充以均值作为 imputer 策略的 imputer 值。

但是,我有点担心,如果整个列的所有值都丢失了,那么 imputer 将如何执行,在这种情况下正确的方法是什么?

0 投票
1 回答
3395 浏览

python - 使用 scikit-learn 进行 Knn 插补

我正在尝试使用 Knn 来估算我的数据集中的缺失值。谁能建议我这个方法的概念以及如何通过在 scikit-learn 中使用 Knn 来做到这一点。

先感谢您。

0 投票
1 回答
84 浏览

machine-learning - 给定数据集的输入的近似缺失值

我有一个包含 x 属性和 y 记录的数据集。给定一个输入记录,它有多达 x-1 个缺失值,我将如何合理地近似剩余的缺失值之一?

所以在下面的例子中,输入记录有两个值(属性 2 和 6,其余的缺失),我想近似属性 8 的值。

带有我要分类的输入的数据表

我知道缺失值是通过“插补”处理的,但我通常会找到有关预处理数据集的示例。我正在寻找一种解决方案,它使用回归来确定缺失值,并且理想情况下使用构建一次的模型(如果可能,不必每次都生成一个)。

0 投票
2 回答
598 浏览

r - 估算值:VIM 包(aggr 函数) - 暗淡 [产品 284088] 与对象的长度不匹配 [284121]

我在绘制缺失/估算值时遇到问题。当我尝试运行此代码时:(演示是数据集的名称)

我收到以下错误:

请帮忙。这是什么意思?

0 投票
2 回答
732 浏览

r - 循环遍历每一列以估算 R 中的数据,但不替换估算的数据

我正在尝试使用 Hmisc 估算模型估算数据框。我能够一次估算一列的数据,但无法遍历列。

下面的示例 - 工作正常,但我想使用一个函数使其动态:

例子:

运行该函数时没有错误,但数据集 impute_marks 也没有估算数据。

0 投票
1 回答
2417 浏览

performance - 在预测 KNN 插补时如何改进计算时间?

我觉得我的数据集的运行时间非常慢,这是代码:

PreProcess 到 knnImputeValues 的运行速度相当快,但是 predict 函数需要大量时间。当我根据数据的子集计算它时,结果如下:

此外,应该注意插入符号预处理使用“RANN”。

现在我的完整数据集是:

那么我做错了什么,或者这是典型的运行它需要多长时间?如果你回到信封外推(我知道这并不完全准确)你会得到什么 33 天?

另外看起来系统时间很短而用户时间很长,这正常吗?

我的电脑是笔记本电脑,配备 Intel(R) Core(TM) i5-6300U CPU @ 2.40Ghz 处理器。

此外,这会改善预测函数的运行时间吗?

我试过了,除了所有处理器在我的任务管理器中看起来更活跃之外,它似乎没有什么不同。

重点问题:我正在使用 Caret 包对 180 万行进行 KNN 插补,我目前这样做的方式需要一个多月的时间才能运行,我如何以这样的方式编写它,以便我可以在更快的时间(如果可能的话)?

感谢您提供的任何帮助。答案很可能是“这就是需要多长时间不要打扰”我只是想排除任何可能的错误。

0 投票
1 回答
2254 浏览

r - R - 将估算的缺失值返回到数据框中

我正在使用aregImpute来估算 R 数据帧(bn_df)上的缺失值。

代码是这样的:

它工作正常。

问题在后面。将值放回原始数据框中。

我可以做到,只是不是以一种非常优雅的方式。我基本上必须为所有列复制/粘贴以下行:

这行得通。但是必须有一种更有效的方法来完成此操作,而无需对所有列进行复制/粘贴。

有任何想法吗?

0 投票
5 回答
2652 浏览

r - 在 R 中使用 ROLLING 平均值估算缺失值

我是 R 新手,正在努力解决一个问题。

我需要一个函数来根据给定大小的窗口内元素的平均值来估算向量中的缺失值。

但是,这个窗口会移动,因为假设我NA的位置是 30,我的窗口大小是 10,应该计算 的平均值x[20:40]。因此,对于每个 found NA,窗口均值会有所不同。

我一直在尝试这个:

但这是不正确的,我不知道如何继续。

0 投票
2 回答
3208 浏览

r - 测试 R 中的缺失值

我有一个时间序列数据集,其中有一些缺失值。我希望估算缺失值,但我不确定哪种方法最合适,例如imputeTS包中的线性、样条或斜线。

为了完整起见,我希望测试我的数据是否是 MCAR、MAR、NMAR。我很清楚它是 MCAR,但我有兴趣进行测试。

如您所见,我的 DF 中的某些列没有 NA 值。我希望只将具有 NATestMCARNormality的列传递给 MissMech 包中的函数。

我尝试了以下方法,但我不断收到相同的错误:

使用 colnames 我得到列的索引,我引用 md.pattern 的上述输出来确定我正在使用具有 NA 值的列。

测试缺失值并仅将具有 NA 的列传递给TestMCARNormality函数的聪明方法是什么?