问题标签 [imputation]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

758 问题

0 投票

10 回答

106285 浏览

python - 熊猫：在每组中平均填充缺失值

这应该很简单，但我发现最接近的是这篇文章： pandas: Filling missing values within a group，我仍然无法解决我的问题....

假设我有以下数据框

我想在每个“名称”组中用平均值填写“NaN”，即

我不知道该去哪里：

谢谢一堆。

2013-11-13T22:43:25.247

0 投票

2 回答

759 浏览

r - 估算缺失值

我想估算一些数据。我使用mvoutlier包中的数据苔藓。目标是从 Bi 列中估算 < 0.004 的值。因为苔藓日期是成分数据，所以我使用包robCompositions中的方法。当我尝试估算这些值时，出现错误。

代码：

不知道如何处理这个错误

r missing-data imputation

2014-03-09T00:07:42.843

0 投票

3 回答

812 浏览

r - R缺失值替换函数

我有一个包含缺失值的表，我正在尝试编写一个函数，该函数将用基于最接近的两个非零值的计算替换缺失值。

例子：

对于X = 3, Tom = 5.1 + (7.4-5.1)/2.

对于X = 4, Tom = (5.1 + (7.4-5.1)/2) + (7.4-5.1)/2

这个功能是否已经存在？如果没有，任何建议将不胜感激。

r missing-data imputation

2014-03-29T20:12:40.620

0 投票

3 回答

45459 浏览

python - 使用 scikit-learn 的 Imputer 模块预测缺失值

我正在编写一个非常基本的程序来使用scikit-learn 的 Imputer类来预测数据集中的缺失值。

我制作了一个 NumPy 数组，创建了一个带有 strategy='mean' 的 Imputer 对象，并在 NumPy 数组上执行了 fit_transform() 。

当我在执行 fit_transform() 后打印数组时，'Nan' 仍然存在，我没有得到任何预测。

我在这里做错了什么？如何预测缺失值？

python numpy scikit-learn prediction imputation

2014-07-29T14:16:35.607

0 投票

11 回答

102387 浏览

python - 在 scikit-learn 中估算分类缺失值

我有一些带有文本类型列的熊猫数据。这些文本列有一些 NaN 值。我要做的是通过sklearn.preprocessing.Imputer（用最常见的值替换 NaN）来估算那些 NaN。问题在于实施。假设有一个 Pandas 数据框 df，它有 30 列，其中 10 列是分类性质的。一旦我运行：

Python 生成一个error: 'could not convert string to float: 'run1''，其中 'run1' 是具有分类数据的第一列的普通（非缺失）值。

非常欢迎任何帮助

python pandas scikit-learn imputation

2014-08-11T09:26:41.750

0 投票

2 回答

113 浏览

r - 缺失值问题

我有一个包含一些缺失数据（随机缺失）的数据集（data1.csv），我正在从该数据集（d1）创建一个子集，以便在 d2 中仅保留完整的观察结果。我正在使用ftable， as.data.frame函数并创建一个表示每个组合百分比的列p 。

函数ftable， as.data.frame工作正常，但问题是我仍然在结果（d4）中看到所有这些观察结果，这很有意义。我以为我在完成时摆脱了这个。cases(d1)

所以需要帮助摆脱缺失值并只为这些完整的观察做频率表

r missing-data imputation

Tyrone Williams

2014-08-24T22:28:31.947

0 投票

12 回答

173987 浏览

r - 用列均值替换缺失值

我不确定如何遍历每一列以用列平均值替换 NA 值。当我尝试使用以下内容替换一列时，它运行良好。

循环列的代码不起作用：

这些值不会被替换。有人可以帮我吗？

r missing-data imputation

2014-09-14T16:50:17.300

0 投票

1 回答

2399 浏览

r - “mice”包的 predict() 方法

我想使用包中的mice函数创建插补策略mice。问题是我似乎无法predict在这个包中找到任何新数据的方法（或者它的表亲）。

我想做这样的事情：

我想找到一些可以模拟上面代码的方法。现在，完全可以分别mice对训练数据集和测试数据集进行单独的操作，但从逻辑的角度来看，这似乎是不正确的——你拥有的所有信息都在训练数据集中。来自测试数据集的观察不应该为彼此提供信息。在处理数据时尤其如此，因为观察可以按出现时间排序。

一种可能的方法是从测试数据集中添加行以迭代地训练数据集，每次都运行插补。然而，这似乎非常不雅。

所以这是一个问题：

是否有mice类似于通用方法的包predict方法？如果没有，可能的解决方法是什么？

谢谢！

r imputation r-mice

2015-02-02T14:54:11.267

0 投票

0 回答

827 浏览

r - R中分类数据的多重插补

我使用 R 软件进行了多次插补来完成我的数据集。

见下面的例子：x3（最小值=0，最大值=6）；x4（最小值=1，最大值=5）。

在通过mice(with m=5) 对我的数据集进行插补后，我想为每个插补数据集 (m=1 到 5)这两个变量 (A3和) 插补后产生新的比例（即插补比例）。A4您是否知道如何将五个估计的结果合并为一个（比例和标准误差），如下所示：A3= x%、x%、x%、x%、x%、x% 和 A4 = y%， y%, y%, y%, y% ?

你知道任何R代码来处理这个吗？

r imputation r-mice

2015-03-25T10:57:40.513

0 投票

3 回答

2486 浏览

r - how to insert missing observations on a data frame

I have a data that are observations over time. Unfortunately, some large gaps of time points are missing on a treatment. They are not coded as NA and if I make a plot out of them it becomes apparent.

My data frame looks like this. The number of samples per time points are irregular. (edit: sorry for not making the example reproducible)s

Is there a way of spotting the missing time points and insert n rows to it? What I thought of is to check the missing time points by making a freq table for each time point per treatment and then inserting a row. This is doable with a short time series but not with a large one. I am not sure if someone could help do it a little bit easier? Thanks!

edit: T is sequential but the number of data per T varies. And I want to insert a number of rows for each T. Hope the edits made it clear. :)

r insert missing-data data-management imputation

2015-10-07T22:57:12.153

1 2 3 4 5 6 7 8 9 10

问题标签 [imputation]

Reference