问题标签 [windowing]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

206 问题

0 投票

1 回答

601 浏览

parallel-processing - Apache Flink：KeyedStream 上的倾斜数据分布

我在 Flink 中有这个 Java 代码：

问题是窗口应该能够处理并行度 = 2，因为在 Tuple3 的第二个字符串中有两组不同的数据，键为“奇数”和“偶数”。一切都以并行度 6 运行，但不是以并行度 = 1 运行的窗口，由于我的要求，我只需要它具有并行度 = 2。

代码中用到的函数如下：

谢谢你的帮助！

解决方案：我已将键的内容从“奇数”和“偶数”更改为“奇数0000”和“偶数1111”，现在可以正常工作。

parallel-processing apache-flink flink-streaming windowing

2017-06-22T22:39:12.083

0 投票

1 回答

233 浏览

apache-spark - Spark Dstream 中的窗口函数导致长时间挂起的任务

我们正在尝试在 spark 中实现 Window 功能。Spark 通过 Kafka（有 5 个分区）接收数据，我们使用 Spark Java DStream 进行处理。一旦将来自 kafka 的逗号分隔数据映射到 Spark 中的对象，我们就会创建一个 20 秒的窗口，该窗口以 1 秒的速度滑动。在这个 Java DStream 上，我们计算并打印输出（实际上我们想做更多的处理，但为简单起见只应用了计数）。一切正常，直到处理时间出现峰值，处理一个任务大约需要 40 秒，然后发布，我们得到了一个很长的队列。集群详细信息： - 3 个节点集群 - 每个有 45 个核心（总共 135 个核心） - 每个有 256 GB RAM 测试设置：设置 1：- - 5 个 Kafka 分区 - 20 秒窗口，每个节点45 个执行器（总共 135 个执行器） - 为每个执行器分配1 GB 设置 3：- - 5 个 Kafka 分区 - 20 秒窗口，以 1 秒滑动 -每个节点15 个执行器（总共 45 个执行器） - 为每个执行器分配6 GB设置 4：- - 5 个 Kafka 分区 - 120秒窗口，以 1 秒滑动 - 每个节点 9 个执行器（总共 27 个执行器） - 为每个执行器分配 10 GB 设置 5：- （这是我们的实际场景） - 27个Kafka 分区 - 120秒窗口，以 1 秒滑动 - 每个节点 9 个执行器（总共 27 个执行器） - 为每个执行器分配 10 GB

在所有设置中，在某些时候处理需要太多时间（在大多数处理问题中接近 40 秒）。如果有人有解决方案或任何参数更改建议，那就太好了。

apache-spark spark-streaming windowing

2017-07-14T10:31:46.250

0 投票

1 回答

373 浏览

java - 阿帕奇弗林克。带水印的窗口

我正在尝试聚合由其分钟时间戳键入的 60 秒数据，最大延迟为 30 秒。

我正在接收数据。水印和时间戳正在设置中。t 似乎，聚合数据永远不会发送到 ohlcStreamAggregated，因此它们不会被记录。

我用这个例子作为模板。

java apache-flink flink-streaming windowing

2017-07-17T10:34:27.440

0 投票

2 回答

184 浏览

sql-server - SQL Server 窗口化 - 24 小时窗口

我有以下数据

预期结果应该是这样的

我想找出在 24 小时内花费总计 > 500 的实例。试图写一个没有运气的窗口查询

sql-server window windowing

2017-08-01T19:47:05.680

0 投票

1 回答

528 浏览

azure - Azure 流分析 - 事件发生时的启动/停止/重置窗口

我正在尝试使用以下逻辑在 Azure 流分析 (ASA) 作业中构建规则：“当值介于 X 和 Y 之间时，它在该范围内保持 1 分钟，然后输出到服务总线（然后输出到 Azure Function发送警报）。如果值在 1 分钟窗口内超出此范围，则应重置窗口。

我一直在阅读窗口函数，在我看来，ASA 启动时会启动一个窗口，但我可能是错的。

有没有办法在发生“坏值”事件时启动（翻滚）窗口，并在值变为好（超出范围）时停止窗口？

谢谢！

azure azure-eventhub azure-iot-hub azure-stream-analytics windowing

2017-08-09T13:33:57.060

0 投票

3 回答

138 浏览

sql - sql 窗口化以在给定条件下保留记录

我在一个网站上有一些数据，该网站有不同的商店部分，但是当用户最后结账时，我们只能通过查找他们最近点击的部分来知道它是哪个商店部分

例如，如果我的数据看起来像

我想坚持他们去的最后一家商店（存在并且仅当他们在网页的购买部分时（即页面名称以“购买”开头）

我期待的输出是：

sql windowing

2017-08-24T22:04:27.087

0 投票

0 回答

560 浏览

sql - OVER 子句中的 Hive 聚合函数

我正在使用 Hive 1.2.0，因此不能在 over 子句中使用聚合函数，例如：

因为它仅在 hive 2.1 开始可用。

我被困在没有这个功能的情况下试图解决我的问题。

例如，我有一个这样的数据集，其中每一行代表从 store_id 中的 client_id 购买：

我想获取每个日期，每个客户的 homestore，这是他在过去一年中购买最多的商店。如果 2 个商店有相同的值，我们取最近的。

这个例子的结果是：

使用 over 子句中的聚合函数，可以通过以下方式解决（尽管仍然缺少 1 年子句）：

你知道如何解决这个问题吗？

sql hive windowing

2017-09-08T15:05:49.250

0 投票

1 回答

24 浏览

tableau-api - 在 tableau 中按超过 1 个字段进行分区

我不知道如何在画面中按超过 1 个字段进行分区。

数据景观 - 我有 2 个维度字段：id（字符串）和平台类型（str）。我有 2 个度量：total_usage(float) 和 month (int)。在 Mac 上使用 Tableau Desktop 10.3.3。

目标 - 我正在尝试使用单个条形图创建一个视图，该条形图按给定月份的 total_usage 显示前 N 个 id。我想按月份和平台类型进行过滤，并能够更改 N（例如，在 5 到 25 的范围内，以 5 为步长）。

任何人都可以帮忙吗？

tableau-api windowing

2017-09-29T19:32:40.060

0 投票

0 回答

318 浏览

matlab - 空间域中的汉恩滤波器

所以，汉恩滤波器是：

基于此，Hann 滤波器的逆傅立叶应该是：

delta(.)Dirac Delta 函数在哪里。因此，如果Hk和分别hx表示H(k)和h(x)：

我在这里hx测试了Hk一个示例 1D 信号，结果似乎按我的预期工作。但是，看起来不像我预期的那样，它是 3 个 delta Dirac 函数的总和。我的代码中缺少什么？hx

matlab signal-processing fft ifft windowing

2018-01-18T21:36:28.340

0 投票

1 回答

828 浏览

apache-spark - 在窗口分析 Spark 数据框中排除当前行值

使用窗口分析函数，我需要获取最大日期 - 不包括当前行的列值

预期变换的 DF

计算 ExcInstrMaxDate

在账户窗口中获取 Max TrDate，不包括特定的仪器，即对于账户 1，仪器 A，ExcInstrMaxDate 是账户 1 的 maxDate，由仪器 A 过滤

apache-spark dataframe windowing

2018-03-16T13:36:31.960

1 2 3 4 5 6 7 8 9 10