“missing-data”的相关标签问题

0 投票

1 回答

213 浏览

r - 删除少于完整观察的日期

我有一个 xts 对象，它涵盖了 169 天的高频 5 分钟定期观察，但在某些日子里缺少观察，即少于 288 个数据点。如何删除这些以便只有几天的完整数据点？

在数据中查找日期

我试过

但这仍然返回了全套

谢谢

r xts missing-data

2012-06-15T13:42:58.710

0 投票

1 回答

3429 浏览

amazon-s3 - 我已完成工作的 AWS EMR 减速器输出在哪里（应该在 S3 上，但那里什么也没有）？

我遇到了一个问题，我在 AWS 的 EMR 上的 Hadoop 作业没有保存到 S3。当我在较小的样本上运行该作业时，该作业可以很好地存储输出。当我在完整的数据集上运行相同的命令时，作业再次完成，但在我指定输出的 S3 上没有任何内容。

显然，AWS EMR 在 2009 年存在一个错误，但它已“修复”。

其他人有过这个问题吗？我的集群仍然在线，希望数据被埋在某处的服务器上。如果有人知道我在哪里可以找到这些数据，请告诉我！

更新：当我查看其中一个减速器的日志时，一切看起来都很好：

当我连接到这个任务的节点时，提到的临时目录是空的。

更新 2：在阅读了 Hadoop 中 Amazon S3 和 S3n 之间的差异之后，我想知道我的问题是否是使用“s3://”而不是“s3n://”作为我的输出路径。在我的小样本（存储良好）和我的全部工作中，我使用了“s3://”。关于这是否可能是我的问题的任何想法？

更新 3：我现在看到在 AWS 的 EMR 上，s3:// 和 s3n:// 都映射到 S3 本机文件系统（AWS EMR 文档）。

更新 4：我又重新运行了两次这项工作，每次都增加服务器和减速器的数量。这两个中的第一个完成了 89/90 减速器输出被复制到 S3。90th 说它根据日志复制成功，但 AWS Support 说文件不存在。他们已将此问题上报给他们的工程团队。我第二次运行更多的减速器和服务器实际上完成了所有数据复制到 S3（谢天谢地！）。一个奇怪的是，一些 reducer 需要 FOREVER 将数据复制到 S3——在这两次新运行中，有一个 reducer 的输出需要 1 或 2 个小时才能复制到 S3，而其他 reducer 最多只需要 10 分钟（文件是 3GB 左右）。我认为这与 EMR 使用的 S3NativeFileSystem 有问题有关（例如长期挂起——我当然要为此付费；以及未上传的所谓成功上传）。我会先上传到本地 HDFS，然后上传到 S3，但我是在这方面也有问题（等待 AWS 工程团队的审查）。

TLDR；使用 AWS EMR 直接存储在 S3 上似乎有问题；他们的工程团队正在调查。

amazon-s3 amazon-web-services elastic-map-reduce missing-data

2012-06-23T13:01:04.730

0 投票

1 回答

331 浏览

r - 省略数据框中的缺失数据

我有以下数据框：

如果我只想省略x = NAand z = NA。

complete.cases删除NA所需列的所有行。

因此，我不确定如何只删除 dataframe 中的最后一行DF。

r dataframe missing-data na

2012-06-29T19:38:57.477

0 投票

1 回答

612 浏览

sql - nHibernate SQL 日志记录 + 堆栈跟踪一起

我遇到了一个问题，即我们的生产数据库中偶尔会丢失记录。这是一个带有 nHibernate 的 .NET MVC 2 应用程序。在过去的几年里，几位开发人员一直在研究它，所以我们假设某个地方的映射设置不正确，并且 nHibernate 认为它应该删除这些记录。

我使用 log4net 从我们的管理员和前端（在单独的文件中）记录 nHibernate 生成的所有 SQL。奇怪的是，我们网站的前端似乎偶尔会为当时丢失的记录生成删除。这很奇怪，因为尽管前端和后端共享相同的数据模型，但前端不应该有任何写入/更新功能。我们确信这是所有 CRUD 所在的管理员中的一个错误。然而它在日志中......一批DELETES。

我想获得更多关于这些 SQL 语句是从堆栈中生成的位置的信息。如果我能在每个 nHibernate 事务之前以某种方式获得一个小的堆栈跟踪，那就太好了。到目前为止，我的 log4net 设置如下所示：

也许我只需要分别记录这两件事并自己比较时间？我只是在寻找建议。

谢谢！

sql asp.net-mvc nhibernate log4net missing-data

2012-07-10T20:47:55.973

0 投票

3 回答

1327 浏览

python - Python：如何删除 CSV 文件中单独出现的句点？

我有一堆 CSV 文件。在其中一些中，缺失的数据由空单元格表示，但在另一些中，有一个句点。我想遍历所有文件，打开它们，删除单独出现的任何句点，然后保存并关闭文件。

我已经阅读了很多关于使用 re.sub() 进行全词搜索的其他问题。这就是我想要做的（删除 . 当它单独出现而不是 3.5 中的 . 时），但我无法为整个单词是特殊字符（'. '）。另外，我担心在整个单词也可以通过制表符和换行符区分的情况下，这些答案可能会有所不同。也就是说， /b 是否适用于我的 CSV 文件案例？

更新：这是我在看到下面的帮助后写的一个函数。也许它对其他人有用。

python text csv replace missing-data

2012-07-18T17:21:16.150

0 投票

2 回答

3518 浏览

python - 缺失值掩盖了数组相关性（numpy.ma）

我正在尝试使用 numpy.ma.corrcoef 在存在缺失数据的情况下计算相关性。

根据文档：除了处理丢失的数据外，此功能与numpy.corrcoef. 有关更多详细信息和示例，请参阅numpy.corrcoef。

这是一个双变量数据集，其中只有第一个和第二个点具有两个变量的数据。

当我将其转换为掩码数组（np.ma.masked_array(t,np.isnan(t)) ，其中 t 是上面的数组）并在其上运行 np.ma.corrcoef （rowvar=False）时，变量以 -86.52 的形式给出（绝对值，而不是百分比！）。而仅在前两个点上运行 np.corrcoef 会产生 1 的相关性（再次是绝对值）。根据文档，后一个值是我认为我应该从第一次操作中得到的值。

我的 Python 版本（Mac OS X.6.8 上的 Enthought 64 位 PyLab）信息如下，我使用的是 Numpy 版本 1.6.1。

Python 2.7.3 |EPD 7.3-1（64 位）| （默认，2012 年 4 月 12 日，11:14:05）输入“copyright”、“credits”或“license”以获取更多信息。

请告知我在这里缺少的东西！提前致谢。

python arrays numpy missing-data

2012-08-13T21:06:14.073

0 投票

2 回答

2504 浏览

json - 使用 JSON 和 C# 反序列化对象时缺少 guid

我正在使用 newtonsoft 的库来反序列化一个稍微复杂的对象，并遇到了一个障碍，即 MetaData 对象中的 Id 没有被填充，其他所有值似乎都很好。所有主要对象都派生自模型类，该模型类具有 Id 等核心属性。有人对这里出了什么问题有任何建议吗？

这是我用来测试的 JSON，顶层对象是一个页面：

这是我的代码的（简化）版本：

json serialization json.net missing-data

2012-08-16T16:24:14.933

0 投票

1 回答

774 浏览

algorithm - 预先计算订单时的线性时间复杂度排序算法

我正在尝试用 C++ 编写一个有效的排名算法，但我将在 R 中展示我的案例，因为这样更容易理解。

假设上述内容已经预先计算。对每个样本集执行简单的排序需要线性时间复杂度（结果很像rank函数）：

对于我正在从事的工作项目，在线性时间复杂度中模拟以下行为对我很有用：

当给定 n 个相同长度的集合时，该complete.cases函数返回没有任何集合包含 NA 的索引。该order函数返回与已排序样本集对应的索引的排列。该rank函数返回样本集的等级。

这个怎么做？如果我提供了有关问题的足够信息，请告诉我。

更具体地说，我正在尝试基于 Spearman 的秩和相关系数测试构建一个相关矩阵，以便正确处理 NA。NA 的存在要求对每个成对样本集 ( s n^2 log n) 计算排名；我试图通过为每个样本集 ( s n log n) 计算一次订单并为每个成对比较使用线性复杂度来避免这种情况。这甚至可行吗？

提前致谢。

algorithm r correlation missing-data

2012-08-22T16:40:05.037

0 投票

1 回答

3428 浏览

r - 根据另一列替换一列中的 NA 值

我想authId根据sessionId. 我试图在不使用循环的情况下做到这一点。例如：

r missing-data

2012-08-24T22:36:29.123

0 投票

2 回答

2143 浏览

r - 计算运行中位数时缺少值？

我想平滑时间序列以避免虚假的抖动/错误。换句话说，我想做一些非常局部的鲁棒平滑。

我在 zoo 包中遇到了 rollmean 和 rollmedian，但遇到了问题，因为我的向量中有一个 NA。然后我在某处读到那些动物园功能使用运行，这就是问题所在。

==例子==

第一行返回 2，但如果na.rm = TRUE不包括在内，则返回 NA。第二行返回Error in runmed(c(1, 1, 1, 2, 2, 2, 7, NA, 1, 2, 3, 10, 10, 10), k = 3) : NA/NaN/Inf in foreign function call (arg 1)。无法将 na.rm 参数添加到该行。

我怎样才能跑起来处理 NA？顺便说一句，rollmean 返回一个直到 NA 为止都是正确的向量，然后为之后的每个值返回 NA。

r missing-data

2012-08-27T22:54:51.923

问题标签 [missing-data]

在数据中查找日期

Reference