问题标签 [imputation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
14002 浏览

python - Pandas:如何用 groupby 的平均值填充空值?

我有一个数据集,其中包含一些丢失的数据,如下所示:

我需要填写空值才能使用模型中的数据。每当一个类别第一次出现时,它都是 NULL。我想要做的方式是对于像类别这样的情况A,并且B具有多个值,用该类别的平均值替换空值。对于仅出现一次的类别C,只需填写其余数据的平均值。

我知道我可以简单地执行此操作C来获取所有行的平均值,但我坚持尝试对 A 和 B 进行分类均值并替换空值。

我需要最终的df是这样的

0 投票
0 回答
70 浏览

r - 如何找到在什么时间速率等于某个值?

我有以下数据集:

rate1 是一个与时间相关的函数,在几天内趋向于接近 40 的值。

我想知道 rate1 在什么日期等于 40。

做我需要的一种可能性是密集填充 rate1 并减去我的目标值 (40)。一个点越接近零,它就越接近目标值。并包括一个小的“噪声”缓冲区,接受零范围内的所有点。

绝对值(f[t]-\Theta)\leq \epsilon

如何估计 R 中 rate1 的时间值等于 40?另外请建议R中是否有比我使用的更合适的方法?欢迎所有建议。

0 投票
2 回答
627 浏览

r - 用大数据估算列的最快方法

我有一个大型数字数据集(约 700 行,350,000 列,作为 R 中的 data.table 读入),其中包含一些我想尽快用列方法替换的 NA。我发现以前的帖子将 NA 替换为 0,但是当我修改解决方案以代替输入列表示时,我得到 j,即列号。似乎我必须遗漏一些明显的东西......关于如何使用这种方法计算列的任何建议?

在大型 data.table 中替换 NA 的最快方法

0 投票
1 回答
463 浏览

gaussian - 具有高斯混合模型的潜在变量来估算缺失数据

我目前正在尝试通过高斯混合模型来估算丢失的数据。我的参考论文来自这里: http: //mlg.eng.cam.ac.uk/zoubin/papers/nips93.pdf

我目前专注于具有 2 个高斯分量的双变量数据集。这是定义每个高斯分量权重的代码:

这是我定义缺失值的代码:

我的限制是,如何根据特定组件在“等待”变量中估算缺失的数据。这段代码是我第一次尝试使用条件均值插补来插补缺失数据。我知道,这绝对是错误的方式。结果不会对特定组件说谎并产生异常值。

如果有人可以就如何改进可以通过高斯混合模型处理潜在/隐藏变量的插补技术提供任何建议,我将不胜感激。先感谢您

0 投票
0 回答
230 浏览

r - 使用 kNN 和 RF 进行交叉验证

我有 50 列和 150 行的数据矩阵。我想对数据集进行交叉验证。数据子集如下所示:

首先,我想用 and 替换第一个值并NA进行估算。为整个数据集的数组中的列中的每个值保存估算值并显示结果。MVkNNRf

在这里我做了一些事情

运行上面的代码后,我收到很少的警告

此外,它没有正确计算值,甚至没有附加到一个向量列中。我希望它单独用于单独的列。

我认为插补有一些错误。我必须为每个变量做同样的事情。我不知道到底发生了什么。你能查明我正在做的代码中的错误吗?也write.csv没有正确附加。如何为整个数据集做到这一点?我是 R 的新手。如何从包()kNN以及rfImpute从包(randomForest)中做到这一点?

0 投票
0 回答
131 浏览

r - 使用命令行在 R 中执行 Amelia 包时遇到问题

我正在使用 Amelia 包来输入我的数据集,当我使用 R 控制台时,我可以毫无问题地运行我的 R 脚本并得到结果,但是当我尝试通过命令行(在 mac 中)执行它时,它不会好好工作。这是发生的事情:

然后它停止而没有进一步进行。我是 R 新手,我只想运行我的 python 代码中的 R 脚本,以便估算我的数据集,这就是我需要使用命令行运行它的原因。

0 投票
1 回答
1080 浏览

machine-learning - 在输入机器学习数据时将问号('?')转换为 NaN 的错误

我正在尝试将所有缺失的数据(如“?”所示)归入NaN并使用插补工具sklearn将它们平均为平均值。为了重现我的问题,我包含了如下代码:我在 Py 2.7.12 上使用 PyCharm 作为 IDE、Mac OS X 和 anaconda

这是我的代码:

这是我的错误信息

请帮助我被摧毁的初学者QAQ...

0 投票
1 回答
1483 浏览

python - 在 scikit-learn 中使用 Imputer

Imputer()我需要在 scikit-learn 中使用该月的平均值填充缺失的温度值。

首先,我根据月份将数据框分成几组。然后我调用 imputer 函数来计算该组的平均值并填写缺失值。

这是我写的代码,但它不起作用:

有什么建议吗?

0 投票
0 回答
249 浏览

r - 用于舍入估算二进制变量的 R 函数

关于四舍五入估算二进制变量的可靠方法的讨论正在进行中。尽管如此,由 Bernaards 及其同事(2007 年)开发的所谓的自适应舍入程序是目前最广泛接受的解决方案。

采用舍入过程涉及对二项分布的正态逼近。也就是说,根据以下公式得出的阈值,将二进制变量中的估算值分配为 0 或 1,其中 x 是估算二进制变量的平均值:

据我所知,主要的插补 R 包(例如 Amelia 或 mouse)尚未包含有助于对二进制变量进行舍入的函数。考虑到他们的因变量是二进制编码的,这个缺点使得打算在逻辑回归分析中使用估算值的研究人员尤其困难。

因此,为上面的伯纳德公式编写一个 R 函数是有意义的:

使用此公式,计算平均值为 0.623 的插补二进制变量的阈值要容易得多:

在计算阈值之后,通常的下一步是对变量 x 中的估算值进行四舍五入。

我的问题是:如何扩展上述功能以包括该任务?

换句话说,可以在 R 中用三行代码完成上述所有操作:

如果函数包含上述重新编码/舍入,那将是最好的,因为对每个二进制变量重复相同的过程会很耗时,尤其是在处理大型数据集时。有了这样一个函数,我们可以在插补后简单地运行一行额外的代码(如下所示),然后继续分析:

0 投票
2 回答
2124 浏览

r - 缺失值的平均插补

我有几个问题,除非我遗漏了某些内容或不了解估算过程/逻辑,否则我无法真正找到有关文档的任何内容。

基本上最重要的是,由于有时“估算”值不同,我想取平均值 - 如果它是数字 - 或者如果它是分类值则取模式。

我看到的所有示例都显示“完整(miced_model,1)”。如果我用 5 或 10 次不同的迭代运行小鼠模型,我看不出只选择 1 的意义。我想要所有这些的平均值。

谁能告诉我如何做到这一点?

谢谢!!