0 投票

1 回答

81 浏览

imputation - 如何用python获取元素？

我不知道如何用这样的库和函数来实现它。任何人都可以给我一些想法。只是一些功能名称或想法或一些有用的网站网址就可以了！谢谢！

我认为这是不同的。

imputation

2016-09-09T01:00:49.060

0 投票

1 回答

3232 浏览

r - R中的“替换长度为零”错误

我试图NA在 R 中估算温度数据。它是具有 487 个天文台和 60 个时间单位（60 个月）的时空数据。我在这里要做的是替换NANA为在同一个月内与 ' 的天文台距离最小（非零）的值。

这是我的 R 代码（temp_1 是我的数据名称）。

但是，当我运行它时，我收到一条错误消息

temp_1[i, ][is.na(temp_1[i, ])][j] = new 中的错误：替换的长度为零

我输入class(new)并显示 data.frame，所以我将其更改为数字 by new=as.numeric(temp_1[i,dz.inex])。但它会遇到同样的错误。

我不明白为什么会收到此错误消息...非常感谢您的帮助。

r na imputation

2016-09-17T01:02:31.793

0 投票

1 回答

2447 浏览

python - 每组缺失值的 Pandas 插补

如何为 pandas 中的每个指标实现这样的每个国家/地区的插补？

我想估算每组的缺失值

no-A-state应该得到np.min每个指标KPI
no-ISO-state应该得到np.mean每个指标KPI
对于缺失值的状态，我想用每个indicatorKPI平均值来估算。在这里，这意味着估算塞尔维亚的缺失值

mydf = pd.DataFrame({'Country':['no-A-state','no-ISO-state','germany','serbia','austria','germany','serbia','austria ',], 'indicatorKPI':[np.nan,np.nan,'SP.DYN.LE00.IN','NY.GDP.MKTP.CD','NY.GDP.MKTP.CD', 'SP. DYN.LE00.IN','NY.GDP.MKTP.CD', 'SP.DYN.LE00.IN'], '值':[np.nan,np.nan,0.9,np.nan,0.7, 0.2 , 0.3, 0.6]})

编辑

所需的输出应类似于

python pandas group-by missing-data imputation

2016-09-21T12:37:11.997

0 投票

1 回答

1237 浏览

r - 如何识别 R 中数据框中的变量类型？

我正在尝试为我的团队创建一个全面的自动化代码，以使用几种不同的方法进行缺失值插补。我知道逻辑，但我在数据类识别方面遇到了麻烦，这对于决定选择哪种方法进行插补很重要。

正在处理的数据如下所示：

现在，我希望我的代码将变量的类型标识为：

具有多个级别的分类/因子
具有两个级别 1 和 0（二进制）的因子
除 1 和 0 之外的两个级别的因子，例如“是”和“否”
连续的

这是我拥有的 WIP 代码，但它不能很好地完成工作，我理解逻辑将失败，因为数据不同

我正在尝试改进我用来使其通用的逻辑，以便其他人可以使用它，但我在这里碰壁了。感谢任何帮助。

r dataframe imputation

2016-09-25T15:34:42.807

0 投票

1 回答

368 浏览

r - 从模型性能计算中排除缺失值

我有一个数据集，我想构建一个模型，最好使用caret包。我的数据实际上是一个时间序列，但问题并不特定于时间序列，只是我CreateTimeSlices为数据分区工作。

我的数据有一定数量的缺失值NA，我将它们与caret代码分开估算。我还记录了他们的位置：

我知道 Carettrain函数中有一个选项可以NA使用不同的技术排除或估算它们。那不是我想要的。我需要在已经估算的数据集上构建模型，但我想从误差指标（RMSE、MAE、...）的计算中排除估算点。

我不知道如何在插入符号中执行此操作。在我的第一个脚本中，我尝试手动进行整个交叉验证，然后我有一个自定义的错误度量：

我该如何处理这种方式caret？还是有另一种方法可以避免手动编码所有内容？

r missing-data r-caret imputation

2016-10-06T10:03:25.387

0 投票

2 回答

707 浏览

python - 在python中用中位数替换值

我用这些纬度值绘制了一个图表，并注意到图表中突然出现峰值（异常值）。我想用最后三个值的中值替换每个 lat 值，以便我可以看到有意义的结果

输出可能是

我有数千个这样的纬度值，需要使用 for 循环来解决这个问题。我知道以下代码有错误，并且由于我是 python 的初学者，我感谢您在解决此问题方面的帮助。

我刚刚意识到三点的中位数计算不符合我的目的，我需要考虑五个值。有没有办法改变我想要的值的中值函数。谢谢您的帮助

python numpy replace median imputation

2016-10-07T13:43:58.060

0 投票

1 回答

868 浏览

python - 如何在每个组内估算熊猫数据框中的一列

全部，

我有四列的数据框（'key1'、'key2'、'data1'、'data2'）。我在data1中插入了一些nan。现在我想用我做之后每个组中出现次数最多的值填充 nan groupby(['key1', 'key2'])。

对于这个例子，我要做的是用 0.0 填充 data1 列中的 nan（组内最常见的值（key1=a，key2=d）。

非常感谢您的帮助！

python pandas missing-data imputation

2016-10-07T15:07:47.900

0 投票

3 回答

21001 浏览

scala - 用平均值替换缺失值 - Spark Dataframe

我有一个带有一些缺失值的 Spark Dataframe。我想通过用该列的平均值替换缺失值来执行简单的插补。我对 Spark 很陌生，所以我一直在努力实现这个逻辑。到目前为止，这是我设法做到的：

a）要为单个列（假设 Col A）执行此操作，这行代码似乎有效：

b）但是，我无法弄清楚如何对我的数据框中的所有列执行此操作。我正在尝试 Map 功能，但我相信它会遍历数据框的每一行

c）关于 SO- here有一个类似的问题。虽然我喜欢这个解决方案（使用聚合表和合并），但我很想知道是否有办法通过循环遍历每一列来做到这一点（我来自 R，所以使用更高阶的函数循环遍历每一列，比如lapply 对我来说似乎更自然）。

谢谢！

scala apache-spark dataframe apache-spark-sql imputation

2016-10-15T09:54:01.233

0 投票

0 回答

118 浏览

missing-data - 使用 EM 算法的单变量正态插补

我需要一些关于如何使用 EM 算法填充缺失数据的示例。数据，作为股票价格的每日相对变化，假设为正态分布和单变量样本。我已经进行了一些文献搜索，但几乎没有找到任何关于此的示例。似乎当人们谈论 EM 算法在缺失数据插补中的应用时，他们通常会给出多变量案例的例子。这些是我从大多数论文/讲义中看到的案例。

现在我想知道人们是否使用 EM 算法填充单变量样本的缺失数据，以及在这种情况下 EM 算法插补是否等同于均值插补。如果您能分享一些见解或提供有关此主题的任何参考链接，我将不胜感激。

missing-data normal-distribution imputation expectation-maximization

2016-10-17T21:06:49.703

0 投票

1 回答

979 浏览

r - R MICE 估算新的观察结果

当我使用mice包来估算数据时，我遇到了以下问题：

NA鉴于我已经在训练集中估算了缺失的数据，我似乎无法找到替换新观察值的方法。

示例 1

我已经使用来自具有 10 个特征和 1000 个观察值的数据帧的数据训练了一个算法。

如何使用此算法（缺少数据）预测新的观察结果？

示例 2

假设我们有一个带有NA值的数据框：

我使用包估算缺失值mice：

该对象df现在有 2 个带有估算值的数据框。

现在有了这个数据框，我可以训练一个算法：

我想预测新观察的反应，例如：

我如何估算新的个人观察的缺失数据？

r machine-learning missing-data imputation r-mice

2016-10-18T18:13:44.587

问题标签 [imputation]

如何为 pandas 中的每个指标实现这样的每个国家/地区的插补？

编辑

示例 1

示例 2

Reference