问题标签 [apache-samza]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-samza - 有 samza 和 Kafka 的简单消费者任务示例吗?
我对 Kafka 和 Samza 很陌生。我尝试了 hello-samza 示例,它正在工作。我正在寻找的是创建一个 samza 任务,该任务从 kafka 主题中读取消息。我添加的任务不会引发任何错误,也不会从主题中读取任何消息。Yarn UI 将任务显示为已接受。不确定我在这里做错了什么。
这是课程
这是属性文件
apache-kafka - samza 任务如何消耗多个 kafka 分区流
我有一个典型的 samza 任务,它消耗 2 个主题:data
和config
,并将来自的消息config
作为本地状态存储在 RocksDB 中,以检查来自的消息data
是否正常。
如果这两个主题中的每一个都只有一个分区,则此任务可以正常工作。一旦我分成data
十个分区并config
保持一个分区,事情就发生了变化。默认情况下,samza 会创建 10 个任务来消费 topic 的 partition 0 ~ 9,data
并且只有 task 0 消费config
topic:
task[0] -> config, data[0]
task[1] -> data[1]
...
task[9] -> data[9]
似乎每个任务都使用自己的rocksdb实例进行初始化,因此只有task[0]将所有配置数据存储在其rocksdb实例中,task[1~9]没有配置数据,因此无法找到传入数据的配置信息。
我期望的是每个任务都使用来自其数据分区和配置流的消息,如下所示:
task[0] -> config, data[0]
task[1] -> config, data[1]
...
task[9] -> config, data[9]
有什么办法可以做到这一点?
apache-spark - Apache Storm 与 Apache Samza 与 Apache Spark
我曾在 Storm 和 Spark 上工作过,但 Samza 是相当新的。
我不明白为什么在 Storm 已经在那里进行实时处理时引入了 Samza。Spark 在内存中提供近乎实时的处理,并具有其他非常有用的组件,例如 graphx 和 mllib。
Samza 带来了哪些改进以及可能的进一步改进?
hadoop-yarn - 纱线没有得到节点
这是在具有 2 个任务节点和一个主节点的 AWS EMR 集群中。
我正在尝试启动纱线工作的 hello-samza。作业卡在接受状态。我查看了其他帖子,似乎我的纱线没有节点。关于什么纱线没有获得任务节点的任何帮助都会有所帮助。
apache-samza - is there a alternative choice for job.coordinator.system
I want to use samza, but case is our kafka topic creation is limited (topic creation should be reviewed and should has concrete porpose). So, is there any other choice for "job.coordinator.system"? And I need the usage intro. Thanks a lot!
java - 如何遍历 KeyValueStore 中的所有元素
我有一个 KeyValueStore> 类型的 KeyValueStore。我不知道键的范围。有什么方法可以遍历 samza 中的整个 keyvaluestore 吗?谢谢
apache-samza - 您好 samza 无法在 Windows 7 中正常运行
我做了所有如http://samza.apache.org/startup/hello-samza/0.13/中所示的事情 基本上,克隆 repo 并输入“bin/grid bootstrap”。但是最后我收到一条错误消息,说 zookeeper 无法启动,如下所示,有谁知道我该如何解决这个问题以及我应该做些什么来使它工作?
apache-kafka - 使用 samza 消费远程 kafka 主题
我正在尝试将 hello-samza 教程修改为:
(1)从远程代理(即不是本地主机)上的kafka主题读取(2)将消息写入文件
我将 WikipediaFeedStreamTask.java 修改为如下所示:
这只是标准文件,另外还有将消息写入文件的功能。
我修改了属性文件,如下所示:
当我运行作业时(像这样),我在 test.txt 中看到来自维基百科流的数据。我的假设显然是不正确的,即简单地修改 .properties 文件中的 kafka 消费者值将强制 samza 从该代理读取。那么我需要改变什么?
我在哪里指定 samza 应该监听的主题名称?
kafka-consumer-api - Samza 相当于 Kafka Consumer - 手动偏移控制 (enable.auto.commit = false)
我们有 Samza 任务,它从 Kafka 输出流中读取消息,但是如果在处理消息时出现任何可重试的失败,那么我希望我的 Samza 任务再次读取相同的消息并重新处理它。并在成功处理消息后确认它以进行检查点。
有没有办法手动控制检查点(就像 Kafka Consumer 通过将 enable.auto.commit 设置为 false 来提供“手动偏移控制”一样:https ://kafka.apache.org/0100/javadoc/index.html?org /apache/kafka/clients/consumer/KafkaConsumer.html )
我遇到了这个文档https://samza.apache.org/learn/documentation/0.13/jobs/reprocessing.html,它讨论了重新处理以前处理的数据,但它没有提供任何基于确认的检查点控制。
json - 将 Kafka 消息发布到 Elastic 搜索
我有一个从 Kafka 写入 JSON 数据对象并通过弹性 API 将该对象中的一些字段放入弹性搜索索引的过程。
我必须编写两条单独的消息——一条用于数据对象,另一条用于弹性搜索索引,它是数据对象的子集。
我的问题是:我能否扩充 JSON 元模型,以便仅从 Kafka 发布一种记录格式,其中包含完整数据对象和可索引字段,但只有可索引字段加载到弹性搜索中?然后我不必维护两个单独的进程并使它们保持同步,我只有一个进程和 JSON 记录。
我不是批量加载,所以我不能使用该工具使用的批量加载 API 和“索引”字段标记,如 JSON 批量加载 API 示例