问题标签 [missing-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
213 浏览

r - 删除少于完整观察的日期

我有一个 xts 对象,它涵盖了 169 天的高频 5 分钟定期观察,但在某些日子里缺少观察,即少于 288 个数据点。如何删除这些以便只有几天的完整数据点?

在数据中查找日期

我试过

但这仍然返回了全套

谢谢

0 投票
1 回答
3429 浏览

amazon-s3 - 我已完成工作的 AWS EMR 减速器输出在哪里(应该在 S3 上,但那里什么也没有)?

我遇到了一个问题,我在 AWS 的 EMR 上的 Hadoop 作业没有保存到 S3。当我在较小的样本上运行该作业时,该作业可以很好地存储输出。当我在完整的数据集上运行相同的命令时,作业再次完成,但在我指定输出的 S3 上没有任何内容。

显然,AWS EMR 在 2009 年存在一个错误,但它已“修复”。

其他人有过这个问题吗?我的集群仍然在线,希望数据被埋在某处的服务器上。如果有人知道我在哪里可以找到这些数据,请告诉我!

更新:当我查看其中一个减速器的日志时,一切看起来都很好:

当我连接到这个任务的节点时,提到的临时目录是空的。

更新 2:在阅读了 Hadoop 中 Amazon S3 和 S3n 之间的差异之后,我想知道我的问题是否是使用“s3://”而不是“s3n://”作为我的输出路径。在我的小样本(存储良好)和我的全部工作中,我使用了“s3://”。关于这是否可能是我的问题的任何想法?

更新 3:我现在看到在 AWS 的 EMR 上,s3:// 和 s3n:// 都映射到 S3 本机文件系统(AWS EMR 文档)。

更新 4:我又重新运行了两次这项工作,每次都增加服务器和减速器的数量。这两个中的第一个完成了 89/90 减速器输出被复制到 S3。90th 说它根据日志复制成功,但 AWS Support 说文件不存在。他们已将此问题上报给他们的工程团队。我第二次运行更多的减速器和服务器实际上完成了所有数据复制到 S3(谢天谢地!)。一个奇怪的是,一些 reducer 需要 FOREVER 将数据复制到 S3——在这两次新运行中,有一个 reducer 的输出需要 1 或 2 个小时才能复制到 S3,而其他 reducer 最多只需要 10 分钟(文件是 3GB 左右)。我认为这与 EMR 使用的 S3NativeFileSystem 有问题有关(例如长期挂起——我当然要为此付费;以及未上传的所谓成功上传)。我会先上传到本地 HDFS,然后上传到 S3,但我是在这方面也有问题(等待 AWS 工程团队的审查)。

TLDR;使用 AWS EMR 直接存储在 S3 上似乎有问题;他们的工程团队正在调查。

0 投票
1 回答
331 浏览

r - 省略数据框中的缺失数据

我有以下数据框:

如果我只想省略x = NAand z = NA

complete.cases删除NA所需列的所有行。

因此,我不确定如何只删除 dataframe 中的最后一行DF

0 投票
1 回答
612 浏览

sql - nHibernate SQL 日志记录 + 堆栈跟踪一起

我遇到了一个问题,即我们的生产数据库中偶尔会丢失记录。这是一个带有 nHibernate 的 .NET MVC 2 应用程序。在过去的几年里,几位开发人员一直在研究它,所以我们假设某个地方的映射设置不正确,并且 nHibernate 认为它应该删除这些记录。

我使用 log4net 从我们的管理员和前端(在单独的文件中)记录 nHibernate 生成的所有 SQL。奇怪的是,我们网站的前端似乎偶尔会为当时丢失的记录生成删除。这很奇怪,因为尽管前端和后端共享相同的数据模型,但前端不应该有任何写入/更新功能。我们确信这是所有 CRUD 所在的管理员中的一个错误。然而它在日志中......一批DELETES。

我想获得更多关于这些 SQL 语句是从堆栈中生成的位置的信息。如果我能在每个 nHibernate 事务之前以某种方式获得一个小的堆栈跟踪,那就太好了。到目前为止,我的 log4net 设置如下所示:

也许我只需要分别记录这两件事并自己比较时间?我只是在寻找建议。

谢谢!

0 投票
3 回答
1327 浏览

python - Python:如何删除 CSV 文件中单独出现的句点?

我有一堆 CSV 文件。在其中一些中,缺失的数据由空单元格表示,但在另一些中,有一个句点。我想遍历所有文件,打开它们,删除单独出现的任何句点,然后保存并关闭文件。

我已经阅读了很多关于使用 re.sub() 进行全词搜索的其他问题。这就是我想要做的(删除 . 当它单独出现而不是 3.5 中的 . 时),但我无法为整个单词是特殊字符('. ')。另外,我担心在整个单词也可以通过制表符和换行符区分的情况下,这些答案可能会有所不同。也就是说, /b 是否适用于我的 CSV 文件案例?

更新:这是我在看到下面的帮助后写的一个函数。也许它对其他人有用。

0 投票
2 回答
3518 浏览

python - 缺失值掩盖了数组相关性(numpy.ma)

我正在尝试使用 numpy.ma.corrcoef 在存在缺失数据的情况下计算相关性。

根据文档:除了处理丢失的数据外,此功能与numpy.corrcoef. 有关更多详细信息和示例,请参阅numpy.corrcoef

这是一个双变量数据集,其中只有第一个和第二个点具有两个变量的数据。

当我将其转换为掩码数组(np.ma.masked_array(t,np.isnan(t)) ,其中 t 是上面的数组)并在其上运行 np.ma.corrcoef (rowvar=False)时,变量以 -86.52 的形式给出(绝对值,而不是百分比!)。而仅在前两个点上运行 np.corrcoef 会产生 1 的相关性(再次是绝对值)。根据文档,后一个值是我认为我应该从第一次操作中得到的值。

我的 Python 版本(Mac OS X.6.8 上的 Enthought 64 位 PyLab)信息如下,我使用的是 Numpy 版本 1.6.1。

Python 2.7.3 |EPD 7.3-1(64 位)| (默认,2012 年 4 月 12 日,11:14:05)输入“copyright”、“credits”或“license”以获取更多信息。

请告知我在这里缺少的东西!提前致谢。

0 投票
2 回答
2504 浏览

json - 使用 JSON 和 C# 反序列化对象时缺少 guid

我正在使用 newtonsoft 的库来反序列化一个稍微复杂的对象,并遇到了一个障碍,即 MetaData 对象中的 Id 没有被填充,其他所有值似乎都很好。所有主要对象都派生自模型类,该模型类具有 Id 等核心属性。有人对这里出了什么问题有任何建议吗?

这是我用来测试的 JSON,顶层对象是一个页面:

这是我的代码的(简化)版本:

0 投票
1 回答
774 浏览

algorithm - 预先计算订单时的线性时间复杂度排序算法

我正在尝试用 C++ 编写一个有效的排名算法,但我将在 R 中展示我的案例,因为这样更容易理解。

假设上述内容已经预先计算。对每个样本集执行简单的排序需要线性时间复杂度(结果很像rank函数):

对于我正在从事的工作项目,在线性时间复杂度中模拟以下行为对我很有用:

当给定 n 个相同长度的集合时,该complete.cases函数返回没有任何集合包含 NA 的索引。该order函数返回与已排序样本集对应的索引的排列。该rank函数返回样本集的等级。

这个怎么做?如果我提供了有关问题的足够信息,请告诉我。

更具体地说,我正在尝试基于 Spearman 的秩和相关系数测试构建一个相关矩阵,以便正确处理 NA。NA 的存在要求对每个成对样本集 ( s n^2 log n) 计算排名;我试图通过为每个样本集 ( s n log n) 计算一次订单并为每个成对比较使用线性复杂度来避免这种情况。这甚至可行吗?

提前致谢。

0 投票
1 回答
3428 浏览

r - 根据另一列替换一列中的 NA 值

我想authId根据sessionId. 我试图在不使用循环的情况下做到这一点。例如:

0 投票
2 回答
2143 浏览

r - 计算运行中位数时缺少值?

我想平滑时间序列以避免虚假的抖动/错误。换句话说,我想做一些非常局部的鲁棒平滑。

我在 zoo 包中遇到了 rollmean 和 rollmedian,但遇到了问题,因为我的向量中有一个 NA。然后我在某处读到那些动物园功能使用运行,这就是问题所在。

==例子==

第一行返回 2,但如果na.rm = TRUE不包括在内,则返回 NA。第二行返回Error in runmed(c(1, 1, 1, 2, 2, 2, 7, NA, 1, 2, 3, 10, 10, 10), k = 3) : NA/NaN/Inf in foreign function call (arg 1)。无法将 na.rm 参数添加到该行。

我怎样才能跑起来处理 NA?顺便说一句,rollmean 返回一个直到 NA 为止都是正确的向量,然后为之后的每个值返回 NA。