问题标签 [apache-samza]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Apache Samza 不运行
我正在尝试设置 Apache Samza 和 Kafka 环境。我在尝试运行模块时遇到了一些问题。
我让 Kafka 正常工作,但我无法让 Samza 工作。我已经安装了两个 Debian Jeesy AMD64 机器并按照 Samza 文档的说明进行操作:
当我尝试使用 Samza 提供的脚本启动应该启动 Yarn AppMaster 的脚本时:
我收到此错误:
如果我尝试使用 run-job.sh 脚本运行测试作业
我在引用 org.apache.samza.job.JobRunner 类时遇到了类似的错误。
我在想我有一个 java 配置问题,但我找不到太多帮助或参考。
有谁知道我做错了什么?
apache-storm - Apache Samza 和 Apache Storm 在用例上有何不同?
我偶然发现了这篇声称将 Samza 与 Storm 进行对比的文章,但它似乎只是针对实现细节。
这两个分布式计算引擎的用例有何不同?每个工具适合什么样的工作?
rpc - 如何在 Samza 中实现类似于 Storm DRPC 的东西?
我有许多任务的 samza 工作,每个任务在其嵌入式存储中都有一些状态。我想通过某种 RPC 机制向外界公开这个商店以供阅读。什么是最好的解决方案?
这是 Samza 文档中关于它的一段:
我想到的唯一解决方案是让我的任务除了正常处理之外,在一个特殊的请求主题上消费具有一些相关 ID 的请求消息,并将具有相同相关 ID 的响应消息放入特殊的响应主题中。所以这就像 RPC-over-Kafka 解决方案在我看来不是最理想的。
欢迎任何想法!
hadoop-yarn - 将 S3 作业文件与 Samza 一起使用时出现 NullPointerException
将 S3 文件路径传递给 yarn.package.path 时出现以下异常。
我能够从同一个框中卷曲 s3 文件(在导出 AWS 环境变量之后)。这是在我的作业属性文件中设置包路径的方式:
message-queue - 在 Kafka 中设计生产者和消费者组件
我使用Kafka
andZookeeper
作为我的数据管道的主要组件,它每秒处理数千个请求。我正在使用Samza
实时数据处理工具来处理我需要对数据进行的小转换。
我的问题是我的一个消费者(比如说ConsumerA
)消费了几个主题Kafka
并处理它们。基本上是对所消化的主题进行总结。我还想将这些数据作为一个单独的主题推送到 Kafka,但这会在 Kafka 和我的组件上形成一个循环。
这让我很困扰,这是 Kafka 中想要的架构吗?
我是否应该在 from 中进行所有处理Samza
并仅将摘要(摘要)信息存储到Kafka
from Samza
。但是我要做的处理量非常大,这就是为什么我想为它使用一个单独的组件(ComponentA
)。我想我的问题可以推广到所有类型的数据管道。
那么,让组件成为数据管道中的消费者和生产者是一种好的做法吗?
scala - 使用 RocksDB 应用程序和 SBT 测试 Samza
我想从 SBT 运行 Samza(使用 RocksDB KV 存储)应用程序。当我做 ./sbt "run" 我收到以下错误
我假设由于我使用 运行./run
,sbt 直接运行这些类,而不组装 JAR。
依赖项设置正确,并且我有librocksdbjni-linux64.so
内部的 RocksDB JAR。
我必须在运行之前创建一个程序集吗?
在这种情况下如何在不创建程序集的情况下进行测试?
java - Samza/Kafka 无法更新元数据
我目前正在编写一个 Samza 脚本,它将只从 Kafka 主题中获取数据并将数据输出到另一个 Kafka 主题。我写了一个非常基本的 StreamTask 但是在执行时我遇到了一个错误。
错误如下:
我不完全确定如何配置或让脚本编写所需的 Kafka 元数据。下面是我的 StreamTask 和属性文件的代码。在属性文件中,我添加了元数据部分,以查看这是否有助于之后的过程,但无济于事。这是正确的方向还是我完全错过了什么?
apache-spark - 每用户流处理
我需要处理来自一组流的数据,独立于其他流对每个流应用相同的处理。
我已经见过像storm这样的框架,但它似乎只允许处理静态流(即来自twitter的推文),而我需要分别处理来自每个用户的数据。
我的意思的一个简单例子可能是一个系统,每个用户都可以跟踪他的 gps 位置并实时查看平均速度、加速度、燃烧卡路里等统计数据。当然,每个用户都有自己的流,系统应该分别处理每个用户的流,就好像每个用户都有自己的专用拓扑处理他的数据一样。
有没有办法通过像storm、spark streaming或samza这样的框架来实现这一点?
如果支持 python 那就更好了,因为我已经有很多我想重用的代码。
非常感谢您的帮助
java - 如何通过键前缀查询 Samza KeyValueStore?
使用 Samza KeyValueStore接口,如何检索具有公共键前缀的所有文档?键是字符串,RocksDb 将是底层存储。
以下使用范围方法的方法是否有任何问题?