问题标签 [imputation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
10 回答
106285 浏览

python - 熊猫:在每组中平均填充缺失值

这应该很简单,但我发现最接近的是这篇文章: pandas: Filling missing values within a group,我仍然无法解决我的问题....

假设我有以下数据框

我想在每个“名称”组中用平均值填写“NaN”,即

我不知道该去哪里:

谢谢一堆。

0 投票
2 回答
759 浏览

r - 估算缺失值

我想估算一些数据。我使用mvoutlier包中的数据苔藓。目标是从 Bi 列中估算 < 0.004 的值。因为苔藓日期是成分数据,所以我使用包robCompositions中的方法。当我尝试估算这些值时,出现错误。

代码:

不知道如何处理这个错误

0 投票
3 回答
812 浏览

r - R缺失值替换函数

我有一个包含缺失值的表,我正在尝试编写一个函数,该函数将用基于最接近的两个非零值的计算替换缺失值。

例子:

对于X = 3, Tom = 5.1 + (7.4-5.1)/2.

对于X = 4, Tom = (5.1 + (7.4-5.1)/2) + (7.4-5.1)/2

这个功能是否已经存在?如果没有,任何建议将不胜感激。

0 投票
3 回答
45459 浏览

python - 使用 scikit-learn 的 Imputer 模块预测缺失值

我正在编写一个非常基本的程序来使用scikit-learn 的 Imputer类来预测数据集中的缺失值。

我制作了一个 NumPy 数组,创建了一个带有 strategy='mean' 的 Imputer 对象,并在 NumPy 数组上执行了 fit_transform() 。

当我在执行 fit_transform() 后打印数组时,'Nan' 仍然存在,我没有得到任何预测。

我在这里做错了什么?如何预测缺失值?

0 投票
11 回答
102387 浏览

python - 在 scikit-learn 中估算分类缺失值

我有一些带有文本类型列的熊猫数据。这些文本列有一些 NaN 值。我要做的是通过sklearn.preprocessing.Imputer(用最常见的值替换 NaN)来估算那些 NaN。问题在于实施。假设有一个 Pandas 数据框 df,它有 30 列,其中 10 列是分类性质的。一旦我运行:

Python 生成一个error: 'could not convert string to float: 'run1'',其中 'run1' 是具有分类数据的第一列的普通(非缺失)值。

非常欢迎任何帮助

0 投票
2 回答
113 浏览

r - 缺失值问题

我有一个包含一些缺失数据(随机缺失)的数据集(data1.csv),我正在从该数据集(d1)创建一个子集,以便在 d2 中仅保留完整的观察结果。我正在使用ftableas.data.frame函数并创建一个表示每个组合百分比的列p 。

函数ftableas.data.frame工作正常,但问题是我仍然在结果(d4)中看到所有这些观察结果,这很有意义。我以为我在完成时摆脱了这个。cases(d1)

所以需要帮助摆脱缺失值并只为这些完整的观察做频率表

0 投票
12 回答
173987 浏览

r - 用列均值替换缺失值

我不确定如何遍历每一列以用列平均值替换 NA 值。当我尝试使用以下内容替换一列时,它运行良好。

循环列的代码不起作用:

这些值不会被替换。有人可以帮我吗?

0 投票
1 回答
2399 浏览

r - “mice”包的 predict() 方法

我想使用包中的mice函数创建插补策略mice。问题是我似乎无法predict在这个包中找到任何新数据的方法(或者它的表亲)。

我想做这样的事情:

我想找到一些可以模拟上面代码的方法。现在,完全可以分别mice训练数据集和测试数据集进行单独的操作,但从逻辑的角度来看,这似乎是不正确的——你拥有的所有信息都在训练数据集中。来自测试数据集的观察不应该为彼此提供信息。在处理数据时尤其如此,因为观察可以按出现时间排序。

一种可能的方法是从测试数据集中添加行以迭代地训练数据集,每次都运行插补。然而,这似乎非常不雅。

所以这是一个问题:

是否有mice类似于通用方法的包predict方法?如果没有,可能的解决方法是什么?

谢谢!

0 投票
0 回答
827 浏览

r - R中分类数据的多重插补

我使用 R 软件进行了多次插补来完成我的数据集。

见下面的例子:x3(最小值=0,最大值=6);x4(最小值=1,最大值=5)。

在通过mice(with m=5) 对我的数据集进行插补后,我想为每个插补数据集 (m=1 到 5)这两个变量 (A3和) 插补后产生新的比例(即插补比例)。A4您是否知道如何将五个估计的结果合并为一个(比例和标准误差),如下所示:A3= x%、x%、x%、x%、x%、x% 和 A4 = y%, y%, y%, y%, y% ?

你知道任何R代码来处理这个吗?

0 投票
3 回答
2486 浏览

r - how to insert missing observations on a data frame

I have a data that are observations over time. Unfortunately, some large gaps of time points are missing on a treatment. They are not coded as NA and if I make a plot out of them it becomes apparent. Missing data encircled

My data frame looks like this. The number of samples per time points are irregular. (edit: sorry for not making the example reproducible)s

Is there a way of spotting the missing time points and insert n rows to it? What I thought of is to check the missing time points by making a freq table for each time point per treatment and then inserting a row. This is doable with a short time series but not with a large one. I am not sure if someone could help do it a little bit easier? Thanks!

edit: T is sequential but the number of data per T varies. And I want to insert a number of rows for each T. Hope the edits made it clear. :)