问题标签 [gaps-in-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2520 浏览

python - 如何找出 python pandas 数据框列(日期格式)中的空白?

我有一个如下所示的熊猫数据框:

我想找出数据框的年份列中与特定名称相关的空白。例如,

  1. AAA 名称在“2015-11-03 02:00:00”日期前有 2 小时的差距。
  2. ZZZ 名称与“2015-11-01 01:00:00”日期有 5 小时的差距。
  3. ZZZ 名称在“2015-11-01 09:00:00”日期前有 2 小时的差距。

我想生成两个包含内容的 csv 文件:

CSV-1:

CSV-2:

我尝试如下:

0 投票
3 回答
168 浏览

sql - 使用 SQL Server 的间隙和孤岛因 3 列而失败

我遇到了间隙和孤岛解决方案的奇怪行为。有 3 列(第 3 列是非整数),结果确实是随机的。假设我们有以下查询:

我的目标是:

我已经查看了 stackoverflow 和其他地方,以确定我是否遗漏了一些东西。我已经尝试过 distinct 和 dense_rank,都没有给出正确的结果

以下是我已经尝试过的 distinct 和 dense_rank 查询:

我不明白为什么间隙和孤岛查询不适用于非整数列。我认为在某处分组存在问题。请帮我解决一下这个。

0 投票
1 回答
573 浏览

python - Pandas 数据帧与时间间隔对齐

我在尝试对齐两个不同的熊猫数据框时遇到问题。实际上时间对齐工作使用:

在此处输入图像描述

在此处输入图像描述

但是 df1 和 df2 中的两列呈现不同的时间间隔,因此,我在这个间隔内有新的样本。我的任务只是检索实际数据,而不是来自间隙的假样本。

有什么建议吗?非常感谢你。

0 投票
2 回答
381 浏览

sql - 填补所有组的日期空白

我正在尝试为每个组填补一堆日期空白。

如果只有一组,我可以毫无问题地完成这项工作,但是当有多个组时,我的日期不会按照我的意愿填写。

例如,下面的第一个屏幕截图显示了来自我的查询的数据。第二个屏幕截图显示了我希望它的样子。如果我在只有一个州的日期表上进行左连接,一切都很好。如果有多个州,则无法正确填补空白。

在此处输入图像描述

在此处输入图像描述

0 投票
2 回答
741 浏览

python - 根据索引号间隙填​​充缺失的行,为什么会起作用?- 熊猫系列

所以说我有一个熊猫系列,如:


0并且索引之间和索引之间存在差距3,所以我想要添加更多行来填补空白以获取[0, 1, 2, 3].

所以期望的输出看起来像:

我做到了:

它奏效了!

但为什么?

我期望的结果是:

但它没有,并给出了预期的!

(你知道,我准备提出一个关于如何做到这一点的问题,但是在准备展示尝试的同时,我解决了它:D,所以问了一个问题,为什么它会起作用 :-),哈哈)

0 投票
1 回答
199 浏览

python - 如何在 SQL 中找到时间戳的空白(对于数据抓取器)

我对使用 DB/SQL 非常陌生,并尽我所能进行调整我正在使用 SQLAlchemy/Postgres 从 Python API 写入数据,我每 10 分钟写入一次市场数据(插入 DB)。该刮刀旨在获取库存分钟“蜡烛”,因此每次应在每个库存中插入 10 行。我昨晚开始运行它,发现数字有点不对,因为我做了一个SELECT count(*) FROM exchange WHERE market='x_market';在 pgcli 中,我得到了 900 的计数,它应该在 1000 左右(1k 分钟前开始运行)。本质上,我想做的(如果可能的话)是看看行之间是否有任何间隙(它没有捕获的数据)。每行都有一个 unix 时间戳,并且每个“低于它”的时间戳应该是 60000 毫秒(1 分钟)不同。我知道在 Python 中我可以迭代并检查它,但我有兴趣了解更多关于 SQL 的信息(如果只检查 pgcli 会更好)。是否可以检查(使用 SQL)?我附上一个屏幕截图来显示架构/我的意思。首先十分感谢。

(对于图片,时间戳(unix)是第一列,其余的只是股票价格数据) 在此处输入图像描述

0 投票
1 回答
22 浏览

mysql - Mysql更新行删除int二级列间隙

这就是我的表与几条记录的样子。

ORD列是建立特定顺序所必需的,该顺序来自与PKey不同的另一个系统。

此时,问题出在 ORD 列的空白处;如您所见,没有数字 5、7、8。

此查询无法正常工作:

因为它不会消除间隙。

我想要如下结果:

使用 UNIX 有命令 SORT 并将其临时带到我可以使它成为可能,但我不知道是否有任何命令允许我通过在 MySQL 中实时查询表来做到这一点。

0 投票
2 回答
78 浏览

sql - 日期范围的差距

我有一些租赁信息,包括租赁开始的日期和可能的停止日期(如果没有停止,我们假设仍在租金中)。我也有关于这些项目的发票信息,包括该项目每张发票的计费周期的开始和停止。

示例数据:

我想返回项目 A 有 6/1 - 6/4 的错过期和项目 B 的 4/1 - 4/30 的错过期。我需要做的是返回一个数据集,该数据集返回上面的行,但插入了缺失的行,以便它们可以在最终报告中突出显示。

这是我需要返回的:

编辑:

所以这就是我尝试过的。我可以缩小到我知道有问题的行并查看差距。我只需要对数据进行更多处理以更改这些以显示缺少的开始和停止应该是什么,然后将其结合回原始数据。前几天我无法理解它,看到这里提供的答案帮助了我。感谢大家。

0 投票
0 回答
32 浏览

max - 在 Access 中使用 Min/Max 时如何解决差距?

下午好。

我使用汽车的零件应用数据。通常,我使用的数据将按年份单独列出信息。有时我需要使用查询来合并年份。有时会有年差,我不知道如何解释。

年份| 制作 | 型号 |零件编号 |
2001|丰田|卡罗拉|8675309|
2002|丰田|卡罗拉|8675309|
2004|丰田|卡罗拉|8675309|
2005|丰田|卡罗拉|8675309|

没有 2003。在查询中使用 Min 和 Max 函数我会得到:

年 | 制作 | 型号 |零件编号 |
2001-2005|丰田|卡罗拉|8675309|

这是不正确的。正确的结果是:

年 | 制作 | 型号 |零件编号 |
2001-2002|丰田|卡罗拉|8675309|
2004-2005|丰田|卡罗拉|8675309|

正确获取数据的最佳方法是什么?

0 投票
1 回答
76 浏览

postgresql - 使用 generate_series 的数据间隙问题

我需要一个查询来返回当月每天所有已付账单的累计总和。

我尝试了一些代码,包括这个:

我越来越:

总和是正确的,但我没有从 generate_series 函数中得到全部 31 天。此外,当我删除 DISTINCT 命令时,查询只会重复几天,例如:

我想要的是:

有任何想法吗?