问题标签 [imputation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
81 浏览

imputation - 如何用python获取元素?

我不知道如何用这样的库和函数来实现它。任何人都可以给我一些想法。只是一些功能名称或想法或一些有用的网站网址就可以了!谢谢!

我认为这是不同的。

0 投票
1 回答
3232 浏览

r - R中的“替换长度为零”错误

我试图NA在 R 中估算温度数据。它是具有 487 个天文台和 60 个时间单位(60 个月)的时空数据。我在这里要做的是替换NANA为在同一个月内与 ' 的天文台距离最小(非零)的值。

这是我的 R 代码(temp_1 是我的数据名称)。

但是,当我运行它时,我收到一条错误消息

temp_1[i, ][is.na(temp_1[i, ])][j] = new 中的错误:替换的长度为零

我输入class(new)并显示 data.frame,所以我将其更改为数字 by new=as.numeric(temp_1[i,dz.inex])。但它会遇到同样的错误。

我不明白为什么会收到此错误消息...非常感谢您的帮助。

0 投票
1 回答
2447 浏览

python - 每组缺失值的 Pandas 插补

如何为 pandas 中的每个指标实现这样的每个国家/地区的插补?

我想估算每组的缺失值

  • no-A-state应该得到np.min每个指标KPI
  • no-ISO-state应该得到np.mean每个指标KPI
  • 对于缺失值的状态,我想用每个indicatorKPI平均值来估算。在这里,这意味着估算塞尔维亚的缺失值

    mydf = pd.DataFrame({'Country':['no-A-state','no-ISO-state','germany','serbia','austria','germany','serbia','austria ',], 'indicatorKPI':[np.nan,np.nan,'SP.DYN.LE00.IN','NY.GDP.MKTP.CD','NY.GDP.MKTP.CD', 'SP. DYN.LE00.IN','NY.GDP.MKTP.CD', 'SP.DYN.LE00.IN'], '值':[np.nan,np.nan,0.9,np.nan,0.7, 0.2 , 0.3, 0.6]}) 在此处输入图像描述

编辑

所需的输出应类似于

在此处输入图像描述

0 投票
1 回答
1237 浏览

r - 如何识别 R 中数据框中的变量类型?

我正在尝试为我的团队创建一个全面的自动化代码,以使用几种不同的方法进行缺失值插补。我知道逻辑,但我在数据类识别方面遇到了麻烦,这对于决定选择哪种方法进行插补很重要。

正在处理的数据如下所示: 在此处输入图像描述

现在,我希望我的代码将变量的类型标识为:

  1. 具有多个级别的分类/因子
  2. 具有两个级别 1 和 0(二进制)的因子
  3. 除 1 和 0 之外的两个级别的因子,例如“是”和“否”
  4. 连续的

这是我拥有的 WIP 代码,但它不能很好地完成工作,我理解逻辑将失败,因为数据不同

我正在尝试改进我用来使其通用的逻辑,以便其他人可以使用它,但我在这里碰壁了。感谢任何帮助。

0 投票
1 回答
368 浏览

r - 从模型性能计算中排除缺失值

我有一个数据集,我想构建一个模型,最好使用caret包。我的数据实际上是一个时间序列,但问题并不特定于时间序列,只是我CreateTimeSlices为数据分区工作。

我的数据有一定数量的缺失值NA,我将它们与caret代码分开估算。我还记录了他们的位置:

我知道 Carettrain函数中有一个选项可以NA使用不同的技术排除或估算它们。那不是我想要的。我需要在已经估算的数据集上构建模型,但我想从误差指标(RMSE、MAE、...)的计算中排除估算点。

我不知道如何在插入符号中执行此操作。在我的第一个脚本中,我尝试手动进行整个交叉验证,然后我有一个自定义的错误度量:

我该如何处理这种方式caret?还是有另一种方法可以避免手动编码所有内容?

0 投票
2 回答
707 浏览

python - 在python中用中位数替换值

我用这些纬度值绘制了一个图表,并注意到图表中突然出现峰值(异常值)。我想用最后三个值的中值替换每个 lat 值,以便我可以看到有意义的结果

输出可能是

我有数千个这样的纬度值,需要使用 for 循环来解决这个问题。我知道以下代码有错误,并且由于我是 python 的初学者,我感谢您在解决此问题方面的帮助。

我刚刚意识到三点的中位数计算不符合我的目的,我需要考虑五个值。有没有办法改变我想要的值的中值函数。谢谢您的帮助

0 投票
1 回答
868 浏览

python - 如何在每个组内估算熊猫数据框中的一列

全部,

我有四列的数据框('key1'、'key2'、'data1'、'data2')。我在data1中插入了一些nan。现在我想用我做之后每个组中出现次数最多的值填充 nan groupby(['key1', 'key2'])

对于这个例子,我要做的是用 0.0 填充 data1 列中的 nan(组内最常见的值(key1=a,key2=d)。

非常感谢您的帮助!

0 投票
3 回答
21001 浏览

scala - 用平均值替换缺失值 - Spark Dataframe

我有一个带有一些缺失值的 Spark Dataframe。我想通过用该列的平均值替换缺失值来执行简单的插补。我对 Spark 很陌生,所以我一直在努力实现这个逻辑。到目前为止,这是我设法做到的:

a)要为单个列(假设 Col A)执行此操作,这行代码似乎有效:

b)但是,我无法弄清楚如何对我的数据框中的所有列执行此操作。我正在尝试 Map 功能,但我相信它会遍历数据框的每一行

c)关于 SO- here有一个类似的问题。虽然我喜欢这个解决方案(使用聚合表和合并),但我很想知道是否有办法通过循环遍历每一列来做到这一点(我来自 R,所以使用更高阶的函数循环遍历每一列,比如lapply 对我来说似乎更自然)。

谢谢!

0 投票
0 回答
118 浏览

missing-data - 使用 EM 算法的单变量正态插补

我需要一些关于如何使用 EM 算法填充缺失数据的示例。数据,作为股票价格的每日相对变化,假设为正态分布和单变量样本。我已经进行了一些文献搜索,但几乎没有找到任何关于此的示例。似乎当人们谈论 EM 算法在缺失数据插补中的应用时,他们通常会给出多变量案例的例子。这些是我从大多数论文/讲义中看到的案例。

现在我想知道人们是否使用 EM 算法填充单变量样本的缺失数据,以及在这种情况下 EM 算法插补是否等同于均值插补。如果您能分享一些见解或提供有关此主题的任何参考链接,我将不胜感激。

0 投票
1 回答
979 浏览

r - R MICE 估算新的观察结果

当我使用mice包来估算数据时,我遇到了以下问题:

NA鉴于我已经在训练集中估算了缺失的数据,我似乎无法找到替换新观察值的方法。

示例 1

我已经使用来自具有 10 个特征和 1000 个观察值的数据帧的数据训练了一个算法。

如何使用此算法(缺少数据)预测新的观察结果?

示例 2

假设我们有一个带有NA值的数据框:

我使用包估算缺失值mice

该对象df现在有 2 个带有估算值的数据框。

现在有了这个数据框,我可以训练一个算法:

我想预测新观察的反应,例如:

我如何估算新的个人观察的缺失数据