问题标签 [stream-processing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
1692 浏览

apache-kafka - 如何在 samza 中编写我自己的工作

最近我正在尝试在 Samza 框架上做一些流处理工作。我已经成功部署了 hello-samza 示例。但是,当我尝试编写自己的工作时,我不知道从哪里开始工作。

我已阅读此文档,但我仍然无法理解重点。所以任何人都可以帮助我:

  1. 我的代码的架构是什么(源代码、lib 代码和配置)。
  2. 我的代码将推送到哪个目录。
  3. 我需要做哪些其他工作才能让我的代码运行。

你的建议对我很有帮助,非常感谢!

0 投票
1 回答
8082 浏览

apache-spark - Apache Spark 和 Apache Apex 有什么区别?

Apache Apex - 是一个开源企业级统一流和批处理平台。它用于物联网的 GE Predix 平台。这两个平台之间的主要区别是什么?

问题

  1. 从数据科学的角度来看,它与 Spark 有何不同?
  2. Apache Apex 是否提供 Spark MLlib 之类的功能?如果我们必须在 Apache apex 上构建可扩展的 ML 模型,该怎么做以及使用哪种语言?
  3. 数据科学家是否必须学习 Java 才能构建可扩展的 ML 模型?它有像pyspark这样的python API吗?
  4. Apache Apex 可以与 Spark 集成吗?我们可以在 Apex 之上使用 Spark MLlib 来构建 ML 模型吗?
0 投票
1 回答
319 浏览

json - 如何在 Apache Apex 中使用 JSON 创建 DAG?

我一直在尝试查找使用 JSON 填充 DAG 实例的文档。某处是否有格式的正式文档?

0 投票
1 回答
106 浏览

hadoop - Apache Apex 最小开发环境

我想知道开发和测试 Apex 应用程序所需的最低环境是什么?

Eclipseon中运行,我使用 Apex 架构Windows生成项目并尝试运行创建的默认测试,但出现以下错误:ApexJUnit

2016-04-05 13:00:02,677 [main] DEBUG physical.PhysicalPlan initCheckpoint - 编写激活检查点 {ffffffffffffffff, 0, 0} PTOperator[id=1,name=randomGenerator] RandomNumberGenerator{name=null} 2016-04-05 13:00:02,697 [main] 错误 util.Shell getWinUtilsPath - 无法在 hadoop 二进制路径 java.io.IOException 中找到 winutils 二进制文件:无法在 Hadoop 二进制文件中找到可执行的 null\bin\winutils.exe。在 org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:278) 在 org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:300) 在 org.apache.hadoop.util.Shell.( Shell.java:293) 在 org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:639) 在 org.apache.hadoop.fs.RawLocalFileSystem.create(RawLocalFileSystem.java:305)

我还需要安装什么来启动和运行开发环境?Hadoop像这样的 JUnit 测试需要吗?

0 投票
1 回答
208 浏览

hadoop - Apache Apex 中的乱序处理

apache-apex 文档指出处理器中事件的顺序被保留(基于它们的发出方式),但这是否意味着没有允许无序处理事件的事件时间概念?

此外,是否可以根据事件的内容重新确定事件的优先级,例如当它们包含特殊短语时(例如,安全上下文中的 AUTH)。NiFi 允许这样做,这在带宽有限的情况下很有用。

0 投票
2 回答
1291 浏览

apache-storm - Apache Apex 与 Apache Storm 有何不同?

Apache Apex看起来与Apache Storm相似。

  • 用户在两个平台上将应用程序/拓扑构建为有向无环图 (DAG)。Apex 使用操作符/流,Storm 使用 spouts/streams/bolts。
  • 它们都实时处理数据,而不是批处理。
  • 两者似乎都具有高吞吐量和低延迟

所以,乍一看,两者看起来很相似,我并没有完全理解差异。有人可以解释一下主要区别是什么吗?换句话说,我什么时候应该使用一个而不是另一个?

0 投票
0 回答
1137 浏览

scala - akka-stream Zipping Flows with SubFlows

I've a short question about akka-streams. Basically, I try to split a stream into two streams, one of these two streams will be split again in multiple subFlows using groupBy, each of these subFlows needs to be connected with the other stream (zip). I tried to illustrate this here:

Here is what I got so far

I'm facing the problem that broadcast.out(1) ~> identityFlow ~> maxFlow doesn't return a source but is there are way to get a source from that or use zipWith with two flows? Or even a better approach for getting the same result?

Further information: I have a stream (endless) with events (some Information and timestamp). I want to aggregate them based on the timestamp (I generate a "topic" from the timestamp). So Events are grouped based on their timestamp using the groupBy function. Then I want to fold them. The Problem is due to the fact that it is a (endless) stream the subStreams/subFlows created by the groupBy function will never close. Therefore, I want to split the stream. One Part of the stream will be used to generate Events that can be used by deciderFunction. The over part of will be used for creating the subStreams/SubFlows. I hope this helps to understand what I am trying to do.

0 投票
0 回答
200 浏览

scala - Akka-stream UnsupportedOperationException 通过从图创建源

我正在尝试使用 * subFlows 连接流。因此,我从广播的出口建立了一个来源。但它会抛出一个UnsupportedOperationException: cannot replace the shape of the EmptyModule. 我试图用谷歌搜索这个异常,但我找不到任何类似的东西。

这是我的代码

这里是我得到的异常:

关键问题可以在这里找到:akka-stream Zipping Flows with SubFlows

0 投票
0 回答
99 浏览

stream-processing - 对于 Apex 应用程序,“总处理量”和“总排放量”的确切含义是什么

Apache Apex应用程序在应用程序运行时给出的指标很少,例如“总处理量”和“总发射量”。这些数字到底是什么意思?它们是到目前为止由相应操作员处理/发出的记录数吗?

如果上述假设是正确的,那么,在输入运算符恢复的情况下,当失败的输入运算符在新容器中重新启动时,输入运算符的数字、“总处理”和“总发出”不完全匹配与馈入输入运算符的元组数。除了实际的数据元组之外,框架是否会发送一些额外的元组,以防操作员恢复?

0 投票
1 回答
134 浏览

hadoop - Apache Apex CLI 命令中 Shutdown-app 和 kill-app 之间的区别

有人可以帮我理解,Apache APEX CLI 命令中的 Shutdown-app 和 kill-app 有什么区别?