问题标签 [missing-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1761 浏览

r - 按 NA 水平对因子进行子集

我在 R 中有一个因素,具有 NA 级别。

如何按<NA>级别子集该因素?我试过的两种方法都不起作用。

0 投票
1 回答
4780 浏览

r - 当分组因子有缺失值时,基本 R 中的箱线图可以显示“NA”吗?

我要这个:

以 NA 作为类别名称的箱线图

而且我认为传递na.action=na.pass给 boxplot 会让 NA 出现在分组名称中。这是一些示例代码:

但这会产生:

在此处输入图像描述

获得我想要的东西的“简单”方法是以下代码,但它不适合探索性数据分析:

R大师那里有任何提示吗?我能够从这个更一般的讨论中找到关于 na.pass 的信息,以及来自Ripley 教授的 na.pass 的起源。但是,出现在将被因子拆分的数据中的缺失数据 (NA) 与因子本身中的缺失数据之间似乎没有区别。我错过了一些简单的东西,还是这更像是一个功能要求?

0 投票
5 回答
181007 浏览

r - 删除特定列中具有空白值的行

我正在处理一个大型数据集,其中一些行带有 NA,其他行带有空白:

如何一次性删除 NA 和空白(在 start_pc 和 end_pc 列中)?我过去使用过:

...删除 NA - 是否有类似的命令来删除空白?

0 投票
7 回答
38573 浏览

python - scikits 机器学习中的缺失值

scikit-learn 中是否可能存在缺失值?他们应该如何表现?我找不到任何关于此的文档。

0 投票
3 回答
9848 浏览

r - 在数据框中成对地计算有效观察值(无 NA)的数量

假设我有一个这样的数据框:

现在我想计算两个变量的每个组合的有效观察数。为此,我写了一个函数sharedcount

这给出了输出:

一切都很好,但是函数本身在大数据帧(600 个变量和大约 10000 个观察值)上需要很长时间。我感觉我正在监督一种更简单的方法,特别是因为 cor(...,use='pairwise') 运行速度仍然快得多,而它必须做类似的事情:

任何提示表示赞赏。


注意:使用文森特的技巧,我编写了一个返回相同数据帧的函数。代码在我下面的答案中。

0 投票
1 回答
1244 浏览

r - OpenBUGS:伯努利分布中的缺失值

我正在尝试通过 R(R2OpenBUGS)将观察“时间”建模为 OpenBUGS 的随机变量。如果所有观察时间都可用(没有 NA)一切正常,但如果我将其中一个时间设置为 NA,则什么也不会发生。我用 WinBUGS 测试了相同的代码,我得到陷阱错误'NIL dereference (read)'。所以我的问题是我的代码中是否真的有问题,或者我的模型对于错误来说太奇怪了?

我的模型是这样的:

R 代码如下所示:

0 投票
2 回答
139 浏览

mysql - MySQL >、< 和按组缺失

我在 MySQL 中有两个表,我将它们与以下属性进行比较:

这些表由 Chemical_id(多对多---- 呃)连接,并且有几千个 facility_id,每个 facility_id 有几百个 chemical_id。还有几千个sample_id,每个sample_id 都有几百个chemic_id。总而言之,tbl_fac 中有大约 500,000 条记录,tbl_samp 中有 1,000,000 多条记录。

我正在尝试从此数据集中提取三组 sample_id:

第 1 组:任何 sample_id,其中 tbl_samp.result > tbl_fac.criteria(即,结果超出标准)

第 2 组:tbl_samp.result < tbl_fac.criteria 的任何 sample_id,并且该 sample_id 存在所有 tbl_fac.chemical_id(即,结果小于标准,并且一切都在那里)

第 3 组:任何 tbl_samp.result < tbl_fac.criteria 的 sample_id,但 sample_id 中缺少一个或多个 tbl_fac.chemical_id(即,结果小于标准,但缺少某些内容)

问题是:如何在一个查询中有效地获取所有三个组?

我试过了:

但这只会产生整个数据集(而不是单个样本)缺失的值。我有一个 hackish 查询工作,它使用第三个表来连接 tbl_fac 和 tbl_samp,但它是如此丑陋,我实际上很尴尬地发布它......

与往常一样,非常感谢您对此的想法!

干杯,

乔什

编辑:理想情况下,我希望返回 sample_id 和 Group —— 每个样本 ID 只有一个 Group (我对数据的了解表明它们将始终属于上述三个类别之一)。

0 投票
2 回答
367 浏览

mongodb - 为什么数据库更改会消失?

我有一个运行在 64 位 Amazon EC2 实例上的 MongoDB 服务器(启用日志)。昨天我更新了一些文档并刷新了网页以确保它反映了更改。它做了。但今天我看到,不仅昨天的变化消失了。我失去了一周的更新!为什么会这样,是否有可能恢复丢失的数据?

也许我进行更改的方式有问题?

0 投票
2 回答
3601 浏览

r - 内部 NA 时间序列,动物园,R

我在 R 中有一个动物园对象,其中包含每日数据并且缺少周末。当我尝试在对象上运行一些函数(例如ar())时,我得到了错误:

如果我做:

这是有道理的,因为当 zoo 尝试将事物转换为 ts 时,周末本来就没有。除了使用coredata(zoo_object)并在其上运行将事物转换为向量之外ar(),有没有办法告诉 R 跳过丢失的数据?

谢谢

0 投票
2 回答
2364 浏览

r - R:根据较少行中的缺失值删除多行

我有一个 R 数据框,其中包含来自多个主题的数据,每个主题都测试了几次。为了对集合进行统计,有一个主题(“id”)的因子和每个观察的一行(由因子“会话”给出)。IE

在上面的示例中,是否有一种简单的方法可以删除所有 id==2 的行,假设“measure”列在 id==2 的行之一中包含 NA?

更一般地说,由于我实际上为每个主题有很多度量(列)和四个会话(行),有没有一种优雅的方法来删除具有给定“id”因子级别的所有行,因为(至少)具有此“id”级别的行之一在列中包含 NA?

我的直觉是,可能有一个内置函数可以比我当前的解决方案更优雅地解决这个问题:

谢谢,/乔纳斯