问题标签 [missing-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
260 浏览

amazon-web-services - Amazon EBS 快照如何确定修改的文件?

通常,同步应用程序会根据文件大小更改和修改日期检测文件修改。这是否适用于 Amazon EBS 快照流程?

最近我注意到一个固定大小的文件被排除在快照之外,即使该文件在一段时间内被多次修改。当最近的快照(实际上是在第一个快照之后创建的任何快照)加载到新实例时,文件中只能找到初始内容。甚至文件上的修改日期也设置为初始日期。

这让我想知道 Amazon EBS 快照如何确定修改的文件。我可以更改任何配置以确保将固定大小的文件正确添加到快照中吗?

0 投票
4 回答
15424 浏览

r - 如何为时间序列中的缺失数据创建“NA”

我有几个看起来像这样的数据文件:

有时会丢失数据,但我没有 NA,这些行根本不存在。当数据丢失时,我需要创建 NA。虽然我可以通过将其转换为动物园对象并检查严格的规律性(我以前从未使用过动物园)来确定何时发生,但我使用了以下代码:

但答案总是正确的!

谁能告诉我为什么不工作?或者更好的是,告诉我一种在数据丢失时创建 NA 的方法(有或没有 zoo 包)?

谢谢

0 投票
3 回答
1048 浏览

dataset - 要在神经网络模型中用于预测的数据的缺失值

我目前有很多数据将用于训练预测神经网络(美国主要机场的千兆字节天气数据)。我几乎每天都有数据,但有些机场的数据中缺少值。例如,一个机场在 1995 年之前可能不存在,所以我没有在那之前那个特定位置的数据。此外,有些缺少整年(一个可能跨越 1990 年到 2011 年,缺少 2003 年)。

在不误导我的神经网络的情况下,我能做些什么来训练这些缺失值?我想用 0 或 -1 填充空数据,但我觉得这会导致网络预测某些输出的这些值。

0 投票
3 回答
14753 浏览

r - R:用向量中的项目替换NA

我正在尝试用类似组的平均值替换数据中的一些缺失值。

我的数据如下所示:

我希望它看起来像这样:

我写了这个,它奏效了

但是我的 data.frame 几乎有 50 万行长,而且 for/if 语句非常慢。我想要的是类似的东西

但这会出现大小不匹配的错误。似乎应该有一个命令可以执行此操作,但我在 SO 或 R 帮助列表中找不到它。有任何想法吗?

0 投票
3 回答
13057 浏览

r - 如何在 R 的回归中处理残差中的 NA?

所以我对R中横截面回归NA的残差中的一些值有一些问题。lm

问题不在于NA价值观本身,而在于 R 呈现它们的方式。

例如:

在这个简单的示例中,一个NA值将使残差之一丢失。当我提取残差时,我可以清楚地看到第三个索引丢失。到目前为止一切顺利,这里没有任何抱怨。问题是对应的数字向量现在短了一项,所以第三个索引实际上是第四个。我怎样才能让 R 返回这些残差,即显式显示NA而不是跳过索引?

我需要跟踪所有单独的残差,所以如果我能以这种方式提取它们,我的生活会更轻松。

0 投票
2 回答
3471 浏览

r - 在 R 中预测/估算泊松 GLM 回归的缺失值?

我正在尝试探索在数据集中估算缺失值的方法。我的数据集包含 Year(2001-2009)、Month(1-12)、Gender(M/F) 和 AgeGroup(4 组)的发生次数(Unnatural、Natural 和总和)。

我正在探索的一种插补技术是(泊松)回归插补。

假设我的数据如下所示:

在进行基本的 GLM 回归后 - 96 个观察值因缺失而被删除。

R中是否有一种方法/包/函数将使用此GLM模型的系数来“预测”(即估算)Total的缺失值(即使它只是将其存储在单独的数据框中-我将使用Excel合并它们)?我知道我可以使用这些系数来预测不同的层次结构行——但这需要很长时间。希望有一个一步功能/方法?

0 投票
2 回答
4482 浏览

matlab - MATLAB - 读取缺少数据的 CSV 的最佳方法

我有一个可能缺少数据的 CSV 文件,数据既是字符又是数字。处理这个问题的最佳方法是什么?

0 投票
2 回答
2130 浏览

python - 重新编码缺失的数据 Numpy

我正在使用 matplotlib cvs2rec 函数读取人口普查数据 - 工作正常给了我一个不错的 ndarray。

但是有几列,其中所有值都是 dtype |04 的“无”。当我进入 Atpy“TypeError:NoneType 的对象没有 len()”时,这会引起问题。像 '9999' 或其他缺失对我有用。在这种情况下,掩码不起作用,因为我将真实数组传递给 ATPY,它不会转换掩码。numpy 中的 Put 函数不适用于无值,这是更改值的最佳方法(我认为)。我认为某种布尔数组是可行的方法,但我无法让它工作。

那么将无值和/或未初始化的numpy数组更改为'9999'或其他重新编码之类的好/快速方法是什么。没有掩蔽。

谢谢,

马修

0 投票
5 回答
44921 浏览

r - 将 R 中选定列中的所有 NA 替换为 FALSE

我有一个与此类似的问题,但我的数据集有点大:50 列,其中 1 列作为 UID,其他列带有TRUEor NA,我想将所有更改NAFALSE,但我不想使用显式循环。

plyr做到吗?谢谢。

更新#1

感谢您的快速回复,但如果我的数据集如下所示:

我只想X1X2被处理,这怎么办?

0 投票
1 回答
481 浏览

mdx - OLAP/MDX 是在各种聚合级别处理具有未知值的数据的好方法吗

我是 OLAP 的新手,所以也许我不知道该问题使用的正确术语,但请耐心等待。

我处理大量分层的多维数据,其中父/聚合单元格大多具有数据,但子/叶单元格通常缺少数据(属性值未知但非零)。我目前使用脚本和 SQL 的组合来使用它,但这变得笨拙。似乎 OLAP 多维数据集和 MDX 更适合数据结构,但不一定适合我需要处理的任务。例如:

  • OLAP 似乎主要是为只读报告而设计的;我对批处理中的数据进行了大量修改
  • OLAP 似乎喜欢拥有完整的叶级数据来计算聚合;我的数据在各个级别都有缺失值

我想做的例子:

  • 将原始多级数据加载到立方体中并保存已知父级;不要将它们的值覆盖或显示为计算的子项聚合(可能不完整)。
  • 根据来自其他多维数据集的复杂查询/连接的结果创建/更新/删除多维数据集中的单元格。有时需要转换多维数据集以使用稍微不同的维度定义。
  • 用户需要对未知值进行估计。我可以创建体面的估计,但需要对其进行调整,以使它们符合所有维度和级别的已知父母/孩子(这比听起来要困难得多)。我已经这样做了,但它涉及将数据从 RDBMS 中提取到自定义可执行文件中。
  • 查询和计算需要能够正确处理未知数。理想情况下,能够轻松查询聚合单元格的值中有多少是由估计值和已知值组成的,可能计算置信度/误差统计,或者检查我们是否可以在未知的父节点和所有已知的情况下推导出一个确切的值已知的兄弟姐妹等
  • 数据可以很大……多达数千万的事实表行。批处理作业的性能需要不错(几分钟还可以,几小时没那么多)。

OLAP 服务器和 MDX 能否成为此类工作的好工具?是否有任何其他工具可以很好地处理分层/多维/填补空白的数据?