问题标签 [imputation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
imputation - 如何用python获取元素?
我不知道如何用这样的库和函数来实现它。任何人都可以给我一些想法。只是一些功能名称或想法或一些有用的网站网址就可以了!谢谢!
我认为这是不同的。
r - R中的“替换长度为零”错误
我试图NA
在 R 中估算温度数据。它是具有 487 个天文台和 60 个时间单位(60 个月)的时空数据。我在这里要做的是替换NA
NA
为在同一个月内与 ' 的天文台距离最小(非零)的值。
这是我的 R 代码(temp_1 是我的数据名称)。
但是,当我运行它时,我收到一条错误消息
temp_1[i, ][is.na(temp_1[i, ])][j] = new 中的错误:替换的长度为零
我输入class(new)
并显示 data.frame,所以我将其更改为数字 by new=as.numeric(temp_1[i,dz.inex])
。但它会遇到同样的错误。
我不明白为什么会收到此错误消息...非常感谢您的帮助。
python - 每组缺失值的 Pandas 插补
如何为 pandas 中的每个指标实现这样的每个国家/地区的插补?
我想估算每组的缺失值
- no-A-state应该得到
np.min
每个指标KPI - no-ISO-state应该得到
np.mean
每个指标KPI 对于缺失值的状态,我想用每个
indicatorKPI
平均值来估算。在这里,这意味着估算塞尔维亚的缺失值mydf = pd.DataFrame({'Country':['no-A-state','no-ISO-state','germany','serbia','austria','germany','serbia','austria ',], 'indicatorKPI':[np.nan,np.nan,'SP.DYN.LE00.IN','NY.GDP.MKTP.CD','NY.GDP.MKTP.CD', 'SP. DYN.LE00.IN','NY.GDP.MKTP.CD', 'SP.DYN.LE00.IN'], '值':[np.nan,np.nan,0.9,np.nan,0.7, 0.2 , 0.3, 0.6]})
编辑
所需的输出应类似于
r - 从模型性能计算中排除缺失值
我有一个数据集,我想构建一个模型,最好使用caret
包。我的数据实际上是一个时间序列,但问题并不特定于时间序列,只是我CreateTimeSlices
为数据分区工作。
我的数据有一定数量的缺失值NA
,我将它们与caret
代码分开估算。我还记录了他们的位置:
我知道 Carettrain
函数中有一个选项可以NA
使用不同的技术排除或估算它们。那不是我想要的。我需要在已经估算的数据集上构建模型,但我想从误差指标(RMSE、MAE、...)的计算中排除估算点。
我不知道如何在插入符号中执行此操作。在我的第一个脚本中,我尝试手动进行整个交叉验证,然后我有一个自定义的错误度量:
我该如何处理这种方式caret
?还是有另一种方法可以避免手动编码所有内容?
python - 在python中用中位数替换值
我用这些纬度值绘制了一个图表,并注意到图表中突然出现峰值(异常值)。我想用最后三个值的中值替换每个 lat 值,以便我可以看到有意义的结果
输出可能是
我有数千个这样的纬度值,需要使用 for 循环来解决这个问题。我知道以下代码有错误,并且由于我是 python 的初学者,我感谢您在解决此问题方面的帮助。
我刚刚意识到三点的中位数计算不符合我的目的,我需要考虑五个值。有没有办法改变我想要的值的中值函数。谢谢您的帮助
python - 如何在每个组内估算熊猫数据框中的一列
全部,
我有四列的数据框('key1'、'key2'、'data1'、'data2')。我在data1中插入了一些nan。现在我想用我做之后每个组中出现次数最多的值填充 nan groupby(['key1', 'key2'])
。
对于这个例子,我要做的是用 0.0 填充 data1 列中的 nan(组内最常见的值(key1=a,key2=d)。
非常感谢您的帮助!
scala - 用平均值替换缺失值 - Spark Dataframe
我有一个带有一些缺失值的 Spark Dataframe。我想通过用该列的平均值替换缺失值来执行简单的插补。我对 Spark 很陌生,所以我一直在努力实现这个逻辑。到目前为止,这是我设法做到的:
a)要为单个列(假设 Col A)执行此操作,这行代码似乎有效:
b)但是,我无法弄清楚如何对我的数据框中的所有列执行此操作。我正在尝试 Map 功能,但我相信它会遍历数据框的每一行
c)关于 SO- here有一个类似的问题。虽然我喜欢这个解决方案(使用聚合表和合并),但我很想知道是否有办法通过循环遍历每一列来做到这一点(我来自 R,所以使用更高阶的函数循环遍历每一列,比如lapply 对我来说似乎更自然)。
谢谢!
missing-data - 使用 EM 算法的单变量正态插补
我需要一些关于如何使用 EM 算法填充缺失数据的示例。数据,作为股票价格的每日相对变化,假设为正态分布和单变量样本。我已经进行了一些文献搜索,但几乎没有找到任何关于此的示例。似乎当人们谈论 EM 算法在缺失数据插补中的应用时,他们通常会给出多变量案例的例子。这些是我从大多数论文/讲义中看到的案例。
现在我想知道人们是否使用 EM 算法填充单变量样本的缺失数据,以及在这种情况下 EM 算法插补是否等同于均值插补。如果您能分享一些见解或提供有关此主题的任何参考链接,我将不胜感激。
r - R MICE 估算新的观察结果
当我使用mice
包来估算数据时,我遇到了以下问题:
NA
鉴于我已经在训练集中估算了缺失的数据,我似乎无法找到替换新观察值的方法。
示例 1
我已经使用来自具有 10 个特征和 1000 个观察值的数据帧的数据训练了一个算法。
如何使用此算法(缺少数据)预测新的观察结果?
示例 2
假设我们有一个带有NA
值的数据框:
我使用包估算缺失值mice
:
该对象df
现在有 2 个带有估算值的数据框。
现在有了这个数据框,我可以训练一个算法:
我想预测新观察的反应,例如:
我如何估算新的个人观察的缺失数据?