问题标签 [apache-samza]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

81 问题

0 投票

1 回答

1026 浏览

java - Apache Samza 不运行

我正在尝试设置 Apache Samza 和 Kafka 环境。我在尝试运行模块时遇到了一些问题。

我让 Kafka 正常工作，但我无法让 Samza 工作。我已经安装了两个 Debian Jeesy AMD64 机器并按照 Samza 文档的说明进行操作：

当我尝试使用 Samza 提供的脚本启动应该启动 Yarn AppMaster 的脚本时：

我收到此错误：

如果我尝试使用 run-job.sh 脚本运行测试作业

我在引用 org.apache.samza.job.JobRunner 类时遇到了类似的错误。

我在想我有一个 java 配置问题，但我找不到太多帮助或参考。

有谁知道我做错了什么？

2015-03-13T11:35:30.897

0 投票

3 回答

11566 浏览

apache-storm - Apache Samza 和 Apache Storm 在用例上有何不同？

我偶然发现了这篇声称将 Samza 与 Storm 进行对比的文章，但它似乎只是针对实现细节。

这两个分布式计算引擎的用例有何不同？每个工具适合什么样的工作？

apache-storm apache-samza

2015-03-17T23:24:17.610

0 投票

1 回答

480 浏览

rpc - 如何在 Samza 中实现类似于 Storm DRPC 的东西？

我有许多任务的 samza 工作，每个任务在其嵌入式存储中都有一些状态。我想通过某种 RPC 机制向外界公开这个商店以供阅读。什么是最好的解决方案？

这是 Samza 文档中关于它的一段：

我想到的唯一解决方案是让我的任务除了正常处理之外，在一个特殊的请求主题上消费具有一些相关 ID 的请求消息，并将具有相同相关 ID 的响应消息放入特殊的响应主题中。所以这就像 RPC-over-Kafka 解决方案在我看来不是最理想的。

欢迎任何想法！

rpc apache-kafka apache-samza

2015-03-31T12:17:53.137

0 投票

0 回答

367 浏览

hadoop-yarn - 将 S3 作业文件与 Samza 一起使用时出现 NullPointerException

将 S3 文件路径传递给 yarn.package.path 时出现以下异常。

我能够从同一个框中卷曲 s3 文件（在导出 AWS 环境变量之后）。这是在我的作业属性文件中设置包路径的方式：

hadoop-yarn apache-samza

2015-04-22T18:37:40.783

0 投票

1 回答

940 浏览

message-queue - 在 Kafka 中设计生产者和消费者组件

我使用KafkaandZookeeper作为我的数据管道的主要组件，它每秒处理数千个请求。我正在使用Samza实时数据处理工具来处理我需要对数据进行的小转换。

我的问题是我的一个消费者（比如说ConsumerA）消费了几个主题Kafka并处理它们。基本上是对所消化的主题进行总结。我还想将这些数据作为一个单独的主题推送到 Kafka，但这会在 Kafka 和我的组件上形成一个循环。

这让我很困扰，这是 Kafka 中想要的架构吗？

我是否应该在 from 中进行所有处理Samza并仅将摘要（摘要）信息存储到Kafkafrom Samza。但是我要做的处理量非常大，这就是为什么我想为它使用一个单独的组件（ComponentA）。我想我的问题可以推广到所有类型的数据管道。

那么，让组件成为数据管道中的消费者和生产者是一种好的做法吗？

message-queue apache-kafka producer-consumer data-integration apache-samza

2015-04-23T12:32:58.633

0 投票

1 回答

380 浏览

scala - 使用 RocksDB 应用程序和 SBT 测试 Samza

我想从 SBT 运行 Samza（使用 RocksDB KV 存储）应用程序。当我做 ./sbt "run" 我收到以下错误

我假设由于我使用运行./run，sbt 直接运行这些类，而不组装 JAR。

依赖项设置正确，并且我有librocksdbjni-linux64.so内部的 RocksDB JAR。

我必须在运行之前创建一个程序集吗？

在这种情况下如何在不创建程序集的情况下进行测试？

scala sbt rocksdb apache-samza

2015-05-21T18:12:29.227

0 投票

1 回答

5046 浏览

java - Samza/Kafka 无法更新元数据

我目前正在编写一个 Samza 脚本，它将只从 Kafka 主题中获取数据并将数据输出到另一个 Kafka 主题。我写了一个非常基本的 StreamTask 但是在执行时我遇到了一个错误。

错误如下：

我不完全确定如何配置或让脚本编写所需的 Kafka 元数据。下面是我的 StreamTask 和属性文件的代码。在属性文件中，我添加了元数据部分，以查看这是否有助于之后的过程，但无济于事。这是正确的方向还是我完全错过了什么？

java metadata apache-kafka apache-samza

2015-06-04T20:09:48.390

0 投票

0 回答

339 浏览

java - Apache Samza 的 CheckpointTool 不会泄露分区偏移量

我正在尝试使用此处和此处所述的检查点工具来回退我的 samza 作业之一的输入提要。由于某种原因，检查点工具不会像承诺的那样输出偏移量，但是我知道该作业已经消耗了来自相关分区的多条消息。

这是检查点工具给我的输出的截断版本：

这是我的test_job.properties文件：

如您所见，检查点已启用。

java apache-kafka apache-samza

2015-06-11T13:34:14.553

0 投票

3 回答

232 浏览

apache-spark - 每用户流处理

我需要处理来自一组流的数据，独立于其他流对每个流应用相同的处理。

我已经见过像storm这样的框架，但它似乎只允许处理静态流（即来自twitter的推文），而我需要分别处理来自每个用户的数据。

我的意思的一个简单例子可能是一个系统，每个用户都可以跟踪他的 gps 位置并实时查看平均速度、加速度、燃烧卡路里等统计数据。当然，每个用户都有自己的流，系统应该分别处理每个用户的流，就好像每个用户都有自己的专用拓扑处理他的数据一样。

有没有办法通过像storm、spark streaming或samza这样的框架来实现这一点？

如果支持 python 那就更好了，因为我已经有很多我想重用的代码。

非常感谢您的帮助

apache-spark stream spark-streaming apache-storm apache-samza

2015-06-17T09:22:27.280

0 投票

1 回答

904 浏览

java - 如何通过键前缀查询 Samza KeyValueStore？

使用 Samza KeyValueStore接口，如何检索具有公共键前缀的所有文档？键是字符串，RocksDb 将是底层存储。

以下使用范围方法的方法是否有任何问题？

java apache-samza

2015-07-22T11:09:45.333

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-samza]

Reference