问题标签 [apache-samza]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - Scala错误:未绑定的占位符参数和模式匹配条件
我正在尝试结合模式匹配和条件,但是这段代码(这是一个 Samza 任务):
返回此错误:
你知道错误吗?
谢谢
问候
詹卢卡
neo4j - Apache Samza 本地存储 - OrientDB / Neo4J 图而不是 KV 存储
Apache Samza 使用 RocksDB 作为本地存储的存储引擎。这允许有状态的流处理,这里有一个很好的概述。
我的用例:
- 我有多个事件流,我希望从 Apache Kafka 等系统中获取这些事件流。
- 这些事件创建状态 - 我希望跟踪的状态基于以前收到的消息。
- 我希望根据计算的状态生成新的流事件。
- 输入流事件高度连接,OrientDB / Neo4J 等图形是查询数据以创建新流事件的理想媒介。
我的问题:
是否可以使用非 KV 存储作为 Samza 的本地存储?有没有人用 OrientDB / Neo4J 做过这个,有人知道一个例子吗?
gradle - gradle 失败的 Samza 构建
在 samza-core 上执行测试时,使用 gradle 构建 Samza 失败。
以下是我面临的例外:
请分享你的想法...
scala - 如何使用 Samza 在 Kafka 主题上创建分区?
我有一些 Samza 作业运行所有从 Kafka 主题读取消息并将新消息写入新主题。为了发送新消息,我使用了 Samza 内置的 OutgoingMessageEnvelope。还使用 MessageCollector 发送新消息。它看起来像这样:
有没有办法可以使用它向 Kafka 主题添加分区?例如对用户 ID 进行分区或类似的东西。
或者,如果有更好的方法,我很想听!
real-time - Apache Storm 聚合规则,用于在滚动时间段内丢失预期事件
我的用例是实时识别在 X 时间后未收到预期事件的实体,而不是使用批处理作业。例如:
如果我们在时间 T 收到了 PaymentInitiated 事件,但在 T+X 时没有收到 PaymentFailed / PaymentAborted / PaymentSucedded 中的任何一个,则引发一个触发器,说明 PaymentStuck 以及 PaymentIntitiated 事件的详细信息。
我如何在 Apache Storm 中为此类用例建模,因为它在每个事件上滚动时间段 X,而不是固定时间间隔。
谢谢, 哈里什
real-time - Apache Samza 聚合规则,用于在滚动时间段内丢失预期事件
我的用例是实时识别 X 时间后未收到预期事件的实体。
例如:如果我们在时间 T 收到了 PaymentInitiated 事件,但在 T+X 时没有收到 PaymentFailed / PaymentAborted / PaymentSucedded 中的任何一个,则引发一个触发器,说明 PaymentStuck 以及 PaymentIntitiated 事件的详细信息。
我如何在 Apache Samza 中为此类用例建模,因为它在每个事件上滚动时间段 X,而不是固定时间间隔。
谢谢, 哈里什
hadoop - 纱线java进程没有被杀死
我已经安装了 Apache Samza,它使用 Yarn 来管理作业。它在虚拟机上的两台 Debian 服务器上运行。Samza 是 0.9.1 版。Hadoop 是 2.6.0 版。我看到两个不同的问题,我不确定它们是否相关,但看起来 Yarn 没有做它应该做的事情。
- 当我尝试使用 samza (kill-yarn-job.sh) 提供的脚本终止作业时,我在 Web 界面中看到作业将状态从 Running 或 Accepted 更改为 Killed,但 java 进程仍在运行。很长一段时间后,杀死他们的唯一方法就是用艰难的方式: kill -9 。
- 尽管我一直在更改 yarn-site.xml 值,但我只能运行一个作业。我的机器有 4 Gb 内存和 4 个 cpu 核心。这是内容
纱线站点.xml:
在我配置的作业选项文件中添加了以下内容:
当作业运行时,我可以看到 -Xms128M -Xmx128M 选项被忽略并使用默认值。
我看到了以下错误。看起来一些内存限制正在阻止作业从 Accepted 变为 Running,但我找不到解决方法。
实际上工作只是干净的功能,所以我的代码都不应该引入噪音。
知道有什么问题吗?
更新:在接受状态停留约 10 分钟后,它变为失败。这是我在 yarn-root-resourcemanager-kfk-samza01.out 日志中看到的部分内容:
有什么线索吗?
apache-kafka - Samza 的 OutgoingMessageEnvelope 是否需要用于 partitionKey 的 SerDe 以及如何指定它?
与how-can-you-create-a-partition-on-a-kafka-topic-using-samza 类似,我需要构造一条消息来控制它如何通过使用 partitionKey 进行路由。key 和 message 确实需要 SerDe,但我不确定 partitionKey 是否也需要。如果是这样,配置语法是什么?我想我可以在内部使用 key 作为 partitionKey 来依赖 Samza,但我宁愿让它们明确和分开。
hadoop - Storm 框架应用
我使用 Hadoop 构建了一个用于在分布式环境中搜索类似图像存储的应用程序。但是Hadoop不支持实时处理,所以响应时间长。我知道Storm是大数据分析应用的另一个框架。但是我很困惑我们是否可以使用 Storm 来实现这种应用程序。
有没有人建议什么样的应用程序可以有效地使用 Storm 框架。
hadoop - 如何在 HDFS 上部署和运行 Samza 作业?
我想在远程系统上运行 Samza 作业,并将 Samza 作业存储在 HDFS 上。在煤机上运行 Samza 作业的示例 ( https://samza.apache.org/startup/hello-samza/0.7.0/ ) 包括构建 tar 文件,然后解压缩 tar 文件,然后运行 shell 脚本它位于 tar 文件中。
这里的 HDFS 示例根本没有很好的记录(https://samza.apache.org/learn/tutorials/0.7.0/deploy-samza-job-from-hdfs.html)。它说将 tar 文件复制到 HDFS,然后按照非 HDFS 示例中的其他步骤进行操作。
这意味着现在驻留在 HDFS 上的 tar 文件需要在 HDFS 中解压缩,然后在该解压缩的 tar 文件上运行一个 shell 脚本。但是您不能使用 hadoop fs shell 解压 HDFS tar 文件...
如果不解压缩 tar 文件,您将无权访问 run-job.sh 来启动 Samza 作业。
有没有人设法让这个工作?