问题标签 [apache-samza]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1026 浏览

java - Apache Samza 不运行

我正在尝试设置 Apache Samza 和 Kafka 环境。我在尝试运行模块时遇到了一些问题。

我让 Kafka 正常工作,但我无法让 Samza 工作。我已经安装了两个 Debian Jeesy AMD64 机器并按照 Samza 文档的说明进行操作:

当我尝试使用 Samza 提供的脚本启动应该启动 Yarn AppMaster 的脚本时:

我收到此错误:

如果我尝试使用 run-job.sh 脚本运行测试作业

我在引用 org.apache.samza.job.JobRunner 类时遇到了类似的错误。

我在想我有一个 java 配置问题,但我找不到太多帮助或参考。

有谁知道我做错了什么?

0 投票
3 回答
11566 浏览

apache-storm - Apache Samza 和 Apache Storm 在用例上有何不同?

我偶然发现了这篇声称将 Samza 与 Storm 进行对比的文章,但它似乎只是针对实现细节。

这两个分布式计算引擎的用例有何不同?每个工具适合什么样的工作?

0 投票
1 回答
480 浏览

rpc - 如何在 Samza 中实现类似于 Storm DRPC 的东西?

我有许多任务的 samza 工作,每个任务在其嵌入式存储中都有一些状态。我想通过某种 RPC 机制向外界公开这个商店以供阅读。什么是最好的解决方案?

这是 Samza 文档中关于它的一段:

我想到的唯一解决方案是让我的任务除了正常处理之外,在一个特殊的请求主题上消费具有一些相关 ID 的请求消息,并将具有相同相关 ID 的响应消息放入特殊的响应主题中。所以这就像 RPC-over-Kafka 解决方案在我看来不是最理想的。

欢迎任何想法!

0 投票
0 回答
367 浏览

hadoop-yarn - 将 S3 作业文件与 Samza 一起使用时出现 NullPointerException

将 S3 文件路径传递给 yarn.package.path 时出现以下异常。

我能够从同一个框中卷曲 s3 文件(在导出 AWS 环境变量之后)。这是在我的作业属性文件中设置包路径的方式:

0 投票
1 回答
940 浏览

message-queue - 在 Kafka 中设计生产者和消费者组件

我使用KafkaandZookeeper作为我的数据管道的主要组件,它每秒处理数千个请求。我正在使用Samza实时数据处理工具来处理我需要对数据进行的小转换。

我的问题是我的一个消费者(比如说ConsumerA)消费了几个主题Kafka并处理它们。基本上是对所消化的主题进行总结。我还想将这些数据作为一个单独的主题推送到 Kafka,但这会在 Kafka 和我的组件上形成一个循环。

这让我很困扰,这是 Kafka 中想要的架构吗?

我是否应该在 from 中进行所有处理Samza并仅将摘要(摘要)信息存储到Kafkafrom Samza。但是我要做的处理量非常大,这就是为什么我想为它使用一个单独的组件(ComponentA)。我想我的问题可以推广到所有类型的数据管道。

那么,让组件成为数据管道中的消费者和生产者是一种好的做法吗?

0 投票
1 回答
380 浏览

scala - 使用 RocksDB 应用程序和 SBT 测试 Samza

我想从 SBT 运行 Samza(使用 RocksDB KV 存储)应用程序。当我做 ./sbt "run" 我收到以下错误

我假设由于我使用 运行./run,sbt 直接运行这些类,而不组装 JAR。

依赖项设置正确,并且我有librocksdbjni-linux64.so内部的 RocksDB JAR。

我必须在运行之前创建一个程序集吗?

在这种情况下如何在不创建程序集的情况下进行测试?

0 投票
1 回答
5046 浏览

java - Samza/Kafka 无法更新元数据

我目前正在编写一个 Samza 脚本,它将只从 Kafka 主题中获取数据并将数据输出到另一个 Kafka 主题。我写了一个非常基本的 StreamTask 但是在执行时我遇到了一个错误。

错误如下:

我不完全确定如何配置或让脚本编写所需的 Kafka 元数据。下面是我的 StreamTask 和属性文件的代码。在属性文件中,我添加了元数据部分,以查看这是否有助于之后的过程,但无济于事。这是正确的方向还是我完全错过了什么?


0 投票
0 回答
339 浏览

java - Apache Samza 的 CheckpointTool 不会泄露分区偏移量

我正在尝试使用此处此处所述的检查点工具来回退我的 samza 作业之一的输入提要。由于某种原因,检查点工具不会像承诺的那样输出偏移量,但是我知道该作业已经消耗了来自相关分区的多条消息。

这是检查点工具给我的输出的截断版本:

这是我的test_job.properties文件:

如您所见,检查点已启用。

0 投票
3 回答
232 浏览

apache-spark - 每用户流处理

我需要处理来自一组流的数据,独立于其他流对每个流应用相同的处理。

我已经见过像storm这样的框架,但它似乎只允许处理静态流(即来自twitter的推文),而我需要分别处理来自每个用户的数据。

我的意思的一个简单例子可能是一个系统,每个用户都可以跟踪他的 gps 位置并实时查看平均速度、加速度、燃烧卡路里等统计数据。当然,每个用户都有自己的流,系统应该分别处理每个用户的流,就好像每个用户都有自己的专用拓扑处理他的数据一样。

有没有办法通过像storm、spark streaming或samza这样的框架来实现这一点?

如果支持 python 那就更好了,因为我已经有很多我想重用的代码。

非常感谢您的帮助

0 投票
1 回答
904 浏览

java - 如何通过键前缀查询 Samza KeyValueStore?

使用 Samza KeyValueStore接口,如何检索具有公共键前缀的所有文档?键是字符串,RocksDb 将是底层存储。

以下使用范围方法的方法是否有任何问题?