问题标签 [windowing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
parallel-processing - Apache Flink:KeyedStream 上的倾斜数据分布
我在 Flink 中有这个 Java 代码:
问题是窗口应该能够处理并行度 = 2,因为在 Tuple3 的第二个字符串中有两组不同的数据,键为“奇数”和“偶数”。一切都以并行度 6 运行,但不是以并行度 = 1 运行的窗口,由于我的要求,我只需要它具有并行度 = 2。
代码中用到的函数如下:
谢谢你的帮助!
解决方案:我已将键的内容从“奇数”和“偶数”更改为“奇数0000”和“偶数1111”,现在可以正常工作。
apache-spark - Spark Dstream 中的窗口函数导致长时间挂起的任务
我们正在尝试在 spark 中实现 Window 功能。Spark 通过 Kafka(有 5 个分区)接收数据,我们使用 Spark Java DStream 进行处理。一旦将来自 kafka 的逗号分隔数据映射到 Spark 中的对象,我们就会创建一个 20 秒的窗口,该窗口以 1 秒的速度滑动。在这个 Java DStream 上,我们计算并打印输出(实际上我们想做更多的处理,但为简单起见只应用了计数)。一切正常,直到处理时间出现峰值,处理一个任务大约需要 40 秒,然后发布,我们得到了一个很长的队列。集群详细信息: - 3 个节点集群 - 每个有 45 个核心(总共 135 个核心) - 每个有 256 GB RAM 测试设置:设置 1:- - 5 个 Kafka 分区 - 20 秒窗口,每个节点45 个执行器(总共 135 个执行器) - 为每个执行器分配1 GB 设置 3:- - 5 个 Kafka 分区 - 20 秒窗口,以 1 秒滑动 -每个节点15 个执行器(总共 45 个执行器) - 为每个执行器分配6 GB设置 4:- - 5 个 Kafka 分区 - 120秒窗口,以 1 秒滑动 - 每个节点 9 个执行器(总共 27 个执行器) - 为每个执行器分配 10 GB 设置 5:- (这是我们的实际场景) - 27个Kafka 分区 - 120秒窗口,以 1 秒滑动 - 每个节点 9 个执行器(总共 27 个执行器) - 为每个执行器分配 10 GB
在所有设置中,在某些时候处理需要太多时间(在大多数处理问题中接近 40 秒)。如果有人有解决方案或任何参数更改建议,那就太好了。
java - 阿帕奇弗林克。带水印的窗口
我正在尝试聚合由其分钟时间戳键入的 60 秒数据,最大延迟为 30 秒。
我正在接收数据。水印和时间戳正在设置中。t 似乎,聚合数据永远不会发送到 ohlcStreamAggregated,因此它们不会被记录。
我用这个例子作为模板。
sql-server - SQL Server 窗口化 - 24 小时窗口
我有以下数据
预期结果应该是这样的
我想找出在 24 小时内花费总计 > 500 的实例。试图写一个没有运气的窗口查询
azure - Azure 流分析 - 事件发生时的启动/停止/重置窗口
我正在尝试使用以下逻辑在 Azure 流分析 (ASA) 作业中构建规则:“当值介于 X 和 Y 之间时,它在该范围内保持 1 分钟,然后输出到服务总线(然后输出到 Azure Function发送警报)。如果值在 1 分钟窗口内超出此范围,则应重置窗口。
我一直在阅读窗口函数,在我看来,ASA 启动时会启动一个窗口,但我可能是错的。
有没有办法在发生“坏值”事件时启动(翻滚)窗口,并在值变为好(超出范围)时停止窗口?
谢谢!
sql - sql 窗口化以在给定条件下保留记录
我在一个网站上有一些数据,该网站有不同的商店部分,但是当用户最后结账时,我们只能通过查找他们最近点击的部分来知道它是哪个商店部分
例如,如果我的数据看起来像
我想坚持他们去的最后一家商店(存在并且仅当他们在网页的购买部分时(即页面名称以“购买”开头)
我期待的输出是:
sql - OVER 子句中的 Hive 聚合函数
我正在使用 Hive 1.2.0,因此不能在 over 子句中使用聚合函数,例如:
因为它仅在 hive 2.1 开始可用。
我被困在没有这个功能的情况下试图解决我的问题。
例如,我有一个这样的数据集,其中每一行代表从 store_id 中的 client_id 购买:
我想获取每个日期,每个客户的 homestore,这是他在过去一年中购买最多的商店。如果 2 个商店有相同的值,我们取最近的。
这个例子的结果是:
使用 over 子句中的聚合函数,可以通过以下方式解决(尽管仍然缺少 1 年子句):
你知道如何解决这个问题吗?
tableau-api - 在 tableau 中按超过 1 个字段进行分区
我不知道如何在画面中按超过 1 个字段进行分区。
数据景观 - 我有 2 个维度字段:id(字符串)和平台类型(str)。我有 2 个度量:total_usage(float) 和 month (int)。在 Mac 上使用 Tableau Desktop 10.3.3。
目标 - 我正在尝试使用单个条形图创建一个视图,该条形图按给定月份的 total_usage 显示前 N 个 id。我想按月份和平台类型进行过滤,并能够更改 N(例如,在 5 到 25 的范围内,以 5 为步长)。
任何人都可以帮忙吗?
matlab - 空间域中的汉恩滤波器
所以,汉恩滤波器是:
基于此,Hann 滤波器的逆傅立叶应该是:
delta(.)
Dirac Delta 函数在哪里。因此,如果Hk
和分别hx
表示H(k)
和h(x)
:
我在这里hx
测试了Hk
一个示例 1D 信号,结果似乎按我的预期工作。但是,看起来不像我预期的那样,它是 3 个 delta Dirac 函数的总和。我的代码中缺少什么?hx
apache-spark - 在窗口分析 Spark 数据框中排除当前行值
使用窗口分析函数,我需要获取最大日期 - 不包括当前行的列值
预期变换的 DF
计算 ExcInstrMaxDate
在账户窗口中获取 Max TrDate,不包括特定的仪器,即对于账户 1,仪器 A,ExcInstrMaxDate 是账户 1 的 maxDate,由仪器 A 过滤