问题标签 [imputation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 使用 as.mids2 时的错误消息
我正在尝试通过使用 R 中的 miceadds 包从 SPSS 创建的多重插补数据库中汇集结果(我对 R 很陌生,如果术语有点偏离,我很抱歉)。当我尝试使用 as.mids2 代码将数据库更改为 mids 对象时,我收到以下错误消息:
有人知道这意味着什么吗?数据库是 28 个变量,有 2378 个 obs,所以不大。
这是我正在使用的脚本:
任何帮助将不胜感激。
r - 在 with 语句中调用函数会在函数范围内找不到错误变量
我正在准备对多个估算数据集的平均预测误差进行自举估计。我的函数似乎无法在范围内找到因变量。有什么办法可以规避吗?
多重插补运行顺利,但具体问题似乎是该行
找不到变量CG.tot
:
eval(expr,envir,enclos)中的错误:找不到对象'CG.tot'
但是,如果我将公式声明为字符串:
有用...
最小运行示例:
数据集(有点长,但这是为了估算......):
imputation - 处理缺失的数据
我想知道人们通常如何处理丢失数据的问题?我阅读了一些关于估算缺失数据的文章,其中基本上的想法是用以某种方式计算的某个值替换缺失的数据。
例如,假设我有一个缺少一些单元格的表格,并且我想使用一些插补技术来填充这些单元格。我想我应该首先使用一些精心挑选的函数f
,并应用于f
表中的一些现有数据来计算值以替换特定的缺失值。这是真的?
r - 使用 MICE 包进行缺失值插补的错误
我有大量(4M x 17)
缺失值的数据。两列是分类的,其余的都是数字的。我想使用 MICE 包进行缺失值插补。这是我尝试过的:
在整个数据集上运行插补计算成本很高,所以我只在前 10 万个观测值上运行它。然后我尝试使用输出来估算整个数据。
我的方法有什么问题吗?如果是,我应该怎么做才能使它正确?如果不是,那么为什么我会收到此错误?
python - 循环插补
我对单个变量进行了修改并将其返回到同一个变量
但是我有很多变量&想像这样使用循环
但:
如何在数据框中使用循环进行插补和返回变量?
python - 在 Python 中的某些 Dataframe 列上进行插补
我正在学习如何在 Python 上使用 Imputer。
这是我的代码:
但是,这会引发以下错误:ValueError:值的长度与索引的长度不匹配
我的代码有什么问题???
感谢您的帮助
r - 分层然后在 R 中估算 - 使用 mi()
我想使用 R 中可用的包“分层然后估算”。
也就是说,我希望: 1)使用名为“arm”的二进制变量对我的数据集进行分层。该变量没有缺失数据。2) 运行两个子集的插补模型 3) 组合两个插补数据集 4) 运行汇总分析。
我的数据集如下所示:
为了估算数据,我目前正在使用 mi() 函数,如下所示:
然后我不知道如何结合这两个插补来进行汇总分析。我没有成功尝试:
我认为这种方法是在估算时包含交互项的简化版本,但我也不知道这怎么可能。
谢谢
pandas - Pandas Ffill 仅包含 NaN 的行
我想结合 sklearn 的 imputation 和 Panda 的 Ffill 来填充缺失的数据。这就是我的数据框,df
看起来像
我想使用 FfillNaN
用前一个值填充仅包含(例如第 2 行)的行。
如果行仅包含几个NaN
,例如,如果至少有 1 个值,则使用插补以行中最频繁的值填充 NaN。
我正在使用 LabelEncoder 将字符串值转换为整数——它是按字母顺序排列的。A=0, B=1, C=2, D = 3
. 为了确保 NaN 获得值 4 ,我将 NaN 转换为“Z”——使用data = df.fillna("Z")
然后,我对数据进行插补,以便Z
用行中最常见的值填充任何值 -
imp = Imputer(missing_values=4, strategy= 'most_frequent', axis=1)
所以,我想填充只有NaN
using的行ffill
。
然后我使用 LabelEncoder 和插补来填充其他NaN
行中最频繁的值。
如果我可以选择仅包含的行NaN
并将ffill
函数仅应用于这些行,那么我可以对另一个 Nan 使用插补。我怎样才能做到这一点?
python - pandas 为特定列填充 NA
如果在另一列中满足条件,我想在特定列中填充 NA 值,以便仅用推算/替换值替换这一类 NA 值。
例如我想执行:if column1 = 'value1' AND column2 = N.A fillna_in_column2 with value 'replacementvalue'
我如何在熊猫中实现这一目标?
由于修改了整体记录的长度,因此尝试执行此dataframe[dataframe['firstColumn'] == 'value1'].fillna({'column2':'replacementValue'}
操作不起作用。到目前为止,我无法进行就地修改。
python - 使用预测模型估算缺失值
我试图在 Python 中估算缺失值,并且sklearn
似乎没有超出平均值(平均值、中位数或众数)估算的方法。橙色插补模型似乎提供了一个可行的选择。然而,它似乎Orange.data.Table
没有认识到np.nan
或不知何故,插补失败了。
输出是
知道我缺少什么吗?谢谢!