问题标签 [imputation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 熊猫:在每组中平均填充缺失值
这应该很简单,但我发现最接近的是这篇文章: pandas: Filling missing values within a group,我仍然无法解决我的问题....
假设我有以下数据框
我想在每个“名称”组中用平均值填写“NaN”,即
我不知道该去哪里:
谢谢一堆。
r - 估算缺失值
我想估算一些数据。我使用mvoutlier包中的数据苔藓。目标是从 Bi 列中估算 < 0.004 的值。因为苔藓日期是成分数据,所以我使用包robCompositions中的方法。当我尝试估算这些值时,出现错误。
代码:
不知道如何处理这个错误
r - R缺失值替换函数
我有一个包含缺失值的表,我正在尝试编写一个函数,该函数将用基于最接近的两个非零值的计算替换缺失值。
例子:
对于X = 3
, Tom = 5.1 + (7.4-5.1)/2
.
对于X = 4
, Tom = (5.1 + (7.4-5.1)/2) + (7.4-5.1)/2
这个功能是否已经存在?如果没有,任何建议将不胜感激。
python - 使用 scikit-learn 的 Imputer 模块预测缺失值
我正在编写一个非常基本的程序来使用scikit-learn 的 Imputer类来预测数据集中的缺失值。
我制作了一个 NumPy 数组,创建了一个带有 strategy='mean' 的 Imputer 对象,并在 NumPy 数组上执行了 fit_transform() 。
当我在执行 fit_transform() 后打印数组时,'Nan' 仍然存在,我没有得到任何预测。
我在这里做错了什么?如何预测缺失值?
python - 在 scikit-learn 中估算分类缺失值
我有一些带有文本类型列的熊猫数据。这些文本列有一些 NaN 值。我要做的是通过sklearn.preprocessing.Imputer
(用最常见的值替换 NaN)来估算那些 NaN。问题在于实施。假设有一个 Pandas 数据框 df,它有 30 列,其中 10 列是分类性质的。一旦我运行:
Python 生成一个error: 'could not convert string to float: 'run1''
,其中 'run1' 是具有分类数据的第一列的普通(非缺失)值。
非常欢迎任何帮助
r - 缺失值问题
我有一个包含一些缺失数据(随机缺失)的数据集(data1.csv),我正在从该数据集(d1)创建一个子集,以便在 d2 中仅保留完整的观察结果。我正在使用ftable, as.data.frame函数并创建一个表示每个组合百分比的列p 。
函数ftable, as.data.frame工作正常,但问题是我仍然在结果(d4)中看到所有这些观察结果,这很有意义。我以为我在完成时摆脱了这个。cases(d1)
所以需要帮助摆脱缺失值并只为这些完整的观察做频率表
r - 用列均值替换缺失值
我不确定如何遍历每一列以用列平均值替换 NA 值。当我尝试使用以下内容替换一列时,它运行良好。
循环列的代码不起作用:
这些值不会被替换。有人可以帮我吗?
r - “mice”包的 predict() 方法
我想使用包中的mice
函数创建插补策略mice
。问题是我似乎无法predict
在这个包中找到任何新数据的方法(或者它的表亲)。
我想做这样的事情:
我想找到一些可以模拟上面代码的方法。现在,完全可以分别mice
对训练数据集和测试数据集进行单独的操作,但从逻辑的角度来看,这似乎是不正确的——你拥有的所有信息都在训练数据集中。来自测试数据集的观察不应该为彼此提供信息。在处理数据时尤其如此,因为观察可以按出现时间排序。
一种可能的方法是从测试数据集中添加行以迭代地训练数据集,每次都运行插补。然而,这似乎非常不雅。
所以这是一个问题:
是否有mice
类似于通用方法的包predict
方法?如果没有,可能的解决方法是什么?
谢谢!
r - R中分类数据的多重插补
我使用 R 软件进行了多次插补来完成我的数据集。
见下面的例子:x3(最小值=0,最大值=6);x4(最小值=1,最大值=5)。
在通过mice
(with m=5
) 对我的数据集进行插补后,我想为每个插补数据集 (m=1 到 5)这两个变量 (A3
和) 插补后产生新的比例(即插补比例)。A4
您是否知道如何将五个估计的结果合并为一个(比例和标准误差),如下所示:A3= x%、x%、x%、x%、x%、x% 和 A4 = y%, y%, y%, y%, y% ?
你知道任何R代码来处理这个吗?
r - how to insert missing observations on a data frame
I have a data that are observations over time. Unfortunately, some large gaps of time points are missing on a treatment. They are not coded as NA and if I make a plot out of them it becomes apparent.
My data frame looks like this. The number of samples per time points are irregular. (edit: sorry for not making the example reproducible)s
Is there a way of spotting the missing time points and insert n rows to it? What I thought of is to check the missing time points by making a freq table for each time point per treatment and then inserting a row. This is doable with a short time series but not with a large one. I am not sure if someone could help do it a little bit easier? Thanks!
edit: T is sequential but the number of data per T varies. And I want to insert a number of rows for each T. Hope the edits made it clear. :)